ย้ายบล็อกไปที่ bact.cc แล้วนะครับ

พ.ร.บ.คอมพิวเตอร์
หยุด ร่างพ.ร.บ.คอมพิวเตอร์
พื้นที่เก็บข้อมูลออนไลน์ ฟรี 2GB จาก Dropbox (sync กับ Windows, Linux, Mac, iPhone, Android ฯลฯ ได้)

2007-12-27

Time for Unicode ?

เราควรจะเปลี่ยนไปใช้รหัสข้อมูลอะไรดี ? สำหรับเอกสารภาษาไทยในโลกยุคอินเทอร์เน็ต

จะ Windows-874, TIS-620 หรือ ISO-8859-11 ก็คงไม่เพียงพอแล้ว สำหรับโลกยุคอินเทอร์เน็ตและสังคมพหุภาษา แม้แต่เอกสาร “ภาษาไทย” ในปัจจุบันก็ยังมีตัวอักษรละตินหรือสัญลักษณ์พิเศษต่าง ๆ แทรกอยู่มากมาย ซึ่งบางตัวก็ไม่ได้มีอยู่ทั้งใน Windows-874, TIS-620 และ ISO-8850-11

ได้เวลาเปลี่ยนมาใช้ Unicode ให้หมดรึยังนะ ?
(สำหรับงานส่วนใหญ่ ที่ขนาดพื้นที่จัดเก็บข้อมูล/แบนด์วิธ ไม่ได้เป็นข้อจำกัดสำคัญอีกต่อไปแล้ว)

ทั้งหน้าเว็บ ไฟล์เอกสาร metadata โค้ดโปรแกรมต่าง ๆ

แต่จะใช้อะไรดี UTF-8 หรือ UTF-16 ?

Windows NT ขึ้นไป, Windows CE, Java, .NET, Mac OS X และ Qt แพลตฟอร์มเหล่านี้ ใช้ UTF-16 เป็น native character set
แต่ถ้าเป็นโลก Unix และอินเทอร์เน็ต UTF-8 ก็แพร่หลายกว่า

ถ้าพูดถึงเฉพาะที่เกี่ยวข้องกับอินเทอร์เน็ต ไปใช้ UTF-8 กันให้หมดเลยดีมั๊ย ? สำหรับข้อมูลภาษาไทย ทั้งหน้าเว็บ ฐานข้อมูล metadata ฯลฯ

ข้อดี-ข้อเสีย ? อะไรคืออุปสรรค ?

technorati tags: , ,

5 comments:

fatro said...

เปลี่ยนไป utf-8 หมดทุกเว็บแล้ว :)

tee said...

หลังจากที่เปลี่ยนมานานแล้ว

ข้อดี- เข้ากันได้ง่ายกับ mysql-5, เข้ากันได้ดีกับ linux ที่ใช้ทำงาน, อ่านไทยได้แม้เครื่องที่ไม่มีรองรับภาษาไทย (ไม่แน่ใจ)
ข้อเสีย - ขนาดไฟล์ใหญ่เวลา dump ฐานข้อมูลขนาดใหญ่ ไม่เหมาะกับ net 56k อย่างเรา

อุปสรรค - ยังมี user อีกเยอะที่เปลี่ยนมาอ่าน UTF-8 ยังไม่เป็นในกรณีของ email ที่ส่งไปเป็น UTF-8 แล้วมาหาว่าเป็นต่างดาวอ่านไม่ออก ทั้งที่มี note ไว้ด้านบนแล้ว (อาจเป็นเพราะ note เป็นภาษาอังกฤษ) อีกทั้งยังมีอีกเยอะที่ใช้ tis อยู่ ทำให้เวลาตอบเมล์กลับไปกลับมาแล้ว ต้องคอยเลือก encode อยู่เรื่อย มักมีปัญหากับ hotmail

t·o·o said...

ครับ, ถึงเวลาเปลี่ยนไปใช้ unicode แล้ว

Revolution said...

UTF-16 มีภาษาไทยด้วยเหรอ แล้วมันต่างจาก UTF-8 มากแค่ไหน

anpanpon :P said...

น่าสนใจดีเนอะ เรื่องนี้อะ :)