ย้ายบล็อกไปที่ bact.cc แล้วนะครับ

พ.ร.บ.คอมพิวเตอร์
หยุด ร่างพ.ร.บ.คอมพิวเตอร์
พื้นที่เก็บข้อมูลออนไลน์ ฟรี 2GB จาก Dropbox (sync กับ Windows, Linux, Mac, iPhone, Android ฯลฯ ได้)

2005-03-31

Unicode, XML, TEI, Ω and Scholarly Documents

โดย Yannis HARALAMBOUS เสนอที่ 16th International Unicode Conference, Amsterdam, 2000

สองตัวแรกส่วนใหญ่คงเคยได้ยินกันมาบ้างแล้ว อยากรู้รายละเอียด ลองอ่าน Unicode, XML

TEI คือ Text Encoding Initiative เป็นคล้ายๆ "ข้อแนะนำ" สำหรับการจัดเก็บข้อมูลในคอมพิวเตอร์ ก่อนหน้านี้ใช้ SGML ตอนนี้เริ่มค่อยๆ ปรับเปลี่ยนมาใช้ XML ละ

หมายเหตุ: SGML, XML เป็นเพียงแค่ markup language หรือพูดอีกอย่างคือ เป็นเพียงแค่เครื่องมือในการเข้ารหัสเท่านั้น แต่ไม่ได้บอกว่า จะเข้ารหัสยังไง ตัวอย่างเช่น สมมติมี โคลงสี่สุภาพอยู่บทนึง จะเก็บยังไง เก็บทั้งบทรวมกันเป็นก้อนเดียวโดยใส่เครื่องหมายแบ่งบรรทัดลงไปด้วย หรือว่าแยกเป็นสี่ส่วน แต่ละส่วนมีโครงสร้างเหมือนกัน แล้วให้แต่ละส่วนเก็บแต่ละบาท (โคลงสี่สุภาพ 1 บท มี 4 บาท) แล้วจากนั้นค่อยใส่สี่บาทนี้เข้าไปในตัวบทอีกที แล้วเอาตัวบทไปใส่ในตัวโคลงอีกที ฯลฯ อะไรพวกนี้ นี่คือสิ่งที่ TEI ทำ
แล้วเอาไปใช้ทำอะไรอ่ะ? – ดู The Oxford Text Archive ได้ เค้าเก็บเอกสารต่างๆ หลายประเภท เอาไว้ในรูปแบบอิเล็กทรอนิกส์

ส่วน Ω (เพิ่งเคยเห็นวันนี้) คือส่วนขยายของ TeX เพื่อรองรับ Unicode (ไม่ใช่ จมูกหมีอันใหญ่ แต่อย่างใด)

ได้ลิงก์ของบทความนี้มาจากบล็อกพี่พูลลาภ ขอบคุณมากครับ :)
พอดีกำลังดูเรื่อง TEI กะ Unicode อยู่ อันนี้ใช้ได้เลย มีพูดถึงประเด็นที่น่าสนใจและน่าจะเอามาใช้ได้ด้วย thanx thanx :D

No comments: