ย้ายบล็อกไปที่ bact.cc แล้วนะครับ

พ.ร.บ.คอมพิวเตอร์
หยุด ร่างพ.ร.บ.คอมพิวเตอร์
พื้นที่เก็บข้อมูลออนไลน์ ฟรี 2GB จาก Dropbox (sync กับ Windows, Linux, Mac, iPhone, Android ฯลฯ ได้)

2007-10-03

Thai National Corpus project

Thai National Corpus project

โครงการ “คลังข้อมูลภาษาไทยแห่งชาติ”
เป้าหมายตัวอย่างการใช้ภาษาไทย 80 ล้านคำ

ใครสนใจจะมอบงานเขียนของตนให้กับโครงการนี้ ก็เชิญที่หน้า “สนใจส่งผลงานเข้าร่วมโครงการ” ครับ มีรายละเอียดบอกอยู่ ว่าต้องทำอย่างไร

ในการศึกษาด้านภาษาศาสตร์ (รวมถึงงานด้านการประมวลผลภาษาธรรมชาติ) นั้น ทรัพยากรที่สำคัญมากอย่างหนึ่ง ก็คือ “คลังข้อมูลภาษา” (corpus/linguistic corpus) ซึ่งเป็นคล้าย ๆ ฐานข้อมูลขนาดใหญ่ ที่เก็บข้อมูลการใช้ภาษาของแต่ละภาษาแต่ละท้องถิ่นเอาไว้ (ใหญ่แค่ไหนนี่ ไม่ได้มีกำหนด แต่มีหลักเกณฑ์อยู่ว่า จะต้องมีปริมาณและความหลากหลายพอที่จะเป็นตัวแทนของภาษาหนึ่ง ๆ ในท้องที่หนึ่ง ๆ ในช่วงเวลาหนึ่ง ๆ ได้ — ดูจากคลังหลายอันแล้ว ก็อยู่ที่ประมาณ 30 ล้านคำขึ้นไป แต่ถ้าเป็นคลังแบบเฉพาะทางก็อาจจะไม่ต้องใหญ่เท่านั้นก็ได้) โดยคลังนี้นอกจากจะใช้ศึกษาลักษณะการใช้ภาษา (เช่น “ค่ะ” เจอใช้เมื่อไหร่ แล้ว “คะ” เจอเมื่อไหร่ หรือ “วิ่ง” มีที่ใช้อย่างไรบ้าง) หรือเอาไปทำพจนานุกรมได้แล้ว ข้อมูลสถิติจากคลังยังสามารถนำไปสร้างแบบจำลองเพื่อนำมาใช้ในงานประมวลผลภาษาธรรมชาติด้วยคอมพิวเตอร์ได้อีก

หลายภาษาหลายพื้นที่ก็เห็นความสำคัญตรงนี้ และได้จัดทำคลังข้อความภาษาของตนขึ้น ภาษาที่บุกเบิกก่อนใคร ก็คือภาษาอังกฤษอเมริกัน นั่นคือ Brown Corpus โดยมหาวิทยาลัยบราวน์ ซึ่งข้อมูลส่วนหนึ่งถูกนำไปใช้ทำพจนานุกรม American Heritage Dictionary และต่อมาก็มีโครงการ American National Corpus ซึ่งอยู่ในระหว่างจัดทำ (ได้ 22 ล้านคำแล้ว เป้าหมาย 100 ล้านคำ), สำหรับภาษาอังกฤษในสหราชอาณาจักรก็มี British National Corpus, The Bank of English ตัวนี้ใหญ่มาก ณ ปัจจุบันมีอยู่ประมาณ 525 ล้านคำ เป็นตัวที่ใช้ทำพจนานุกรม Collins COBUILD English Language Dictionary, โครงการ Scottish Corpus of Texts and Speech ซึ่งอยู่ในระหว่างจัดทำ หรือภาษาอื่น ๆ เช่น Hellenic National Corpus (ภาษากรีก), National Corpus of Irish, Hungarian National Corpus ฯลฯ

สำหรับภาษาไทยนั้น ที่ผ่านมาหลายหน่วยงานก็มีทำเช่นกัน แต่ก็เป็นการทำใช้กันภายใน เพราะติดปัญหาลิขสิทธิ์ ทำให้ไม่สามารถเผยแพร่ได้ จะมีก็เพียงคลังออร์คิดของเนคเทค (ORCHID - ข้อมูลจากคลังนี้เอาไปทำพจนานุกรม LEXiTRON) ที่ไม่มีปัญหาเรื่องลิขสิทธิ์ แต่ก็มีขนาดเล็กมาก คือเพียง 4 แสนคำ เท่านั้น และข้อมูลข้างในทั้งหมดก็มาจากบทความวิชาการด้านคอมพิวเตอร์และอิเล็กทรอนิกส์เพียงด้านเดียว (domain เดียว และ genre เดียว) คือไม่สามารถถือได้ว่าเป็นตัวแทนภาษาไทยที่ใช้กันทั่วไป

ก็เลยมี “โครงการคลังข้อมูลภาษาไทยแห่งชาติ” นี้เกิดขึ้น โดยตั้งเป้าเก็บข้อมูลภาษาไทยในการใช้งานทุกประเภท (ทุก domain และ genre ที่รู้ว่ามี) เป็นจำนวนไม่น้อยกว่า 80 ล้านคำ (ใหญ่กว่าออร์คิด 200 เท่า) งานนี้มีภาควิชาภาษาศาสตร์ คณะอักษรศาสตร์ จุฬาลงกรณ์มหาวิทยาลัยเป็นผู้ดำเนินการหลัก โดยได้รับความร่วมมือและสนับสนุนจากองค์กรอื่น ๆ รวมทั้งสำนักพิมพ์หลายแห่งด้วย

ใครมีงานเขียน เอกสาร หรืออะไรที่คิดว่า สามารถยกให้เป็นสาธารณสมบัติได้ ก็ลองส่งดูนะครับ (พวก เว็บล็อก ข่าว ประกาศ แถลงข่าว โฆษณา แผ่นพับ ใบปลิว บันทึกช่วยจำ หรือ จดหมายส่วนตัว ก็รับนะครับ เอาหมด)

แถวนี้คนขีด ๆ เขียน ๆ เยอะ ลองดูครับ – ฝากบอกต่อ ๆ กันด้วย ;)

[ ลิงก์ โครงการคลังข้อมูลภาษาไทยแห่งชาติ ]

technorati tags: ,

2 comments:

Oakyman said...

หนับหนุนเต็มที่
(ต้องเขียน "สนับสนุน" สินะ)

ถ้าจะยกให้
สงสัยจะมีแต่ Blog เนี่ยแหละ
(กับกระทู้เก่าๆ ใน pantip)
ที่พอจะยกให้ได้
(ว่าแต่จะมีค่าแค่ไหนหว่า)

แต่ก็เกิดคำถามว่า
ถ้าเป็นบล็อกที่มีภาษาต่างประเทศ (อังกฤษ ญี่ปุ่น เป็นต้น) แทรกอยู่เต็มไปหมด
จะเอาไปใช้งานได้ไหมหนอ

bact' said...

กระทู้ กับ บล็อก เค้าก็เอาครับ :)

เท่าที่เคยคุยกับอ.วิโรจน์ ที่ดูแลงานนี้อยู่
เขาว่า ที่จะเก็บนี่ คือภาษาไทยแบบที่ใช้กันอยู่จริง ๆ ในปัจจุบันครับ