In the first release of BEST Word Segmented Corpus (free registration required for corpus download), I found different segmentations for May Yamok (repetition mark):
- |พร้อม|ๆ| |กับ|
- |ร้อย|ๆ |ปี|
- |ทั้งๆ ที่|
- |ต่างๆ| |ดัง|
- |ย่อ|ๆ| |ว่า|
- |ย่อ|ๆ |ว่า|
(Real data, taken from encyclopedia_00005.txt. '|' is word/token boundary)
These are probably intended. Or inconsistency ? Not quite sure, will ask people around.
BEST เป็นการประเมินประสิทธิภาพอัลกอริธึม/ซอฟต์แวร์ประมวลผลภาษาไทย ปีนี้จัดแข่งขันซอฟต์แวร์ตัดคำไทย ในงาน NSC ครั้งที่ 11 - สนใจร่วมได้
technorati tags: BEST corpus, word segmentation, Thai
2 comments:
อีเมลตอบจาก ดร.ชัย หนึ่งในทีมพัฒนา BEST
2008/7/19 Chai Wutiwiwatchai
เข้าใจว่ามีการกำหนดข้อความบางประเภทที่ต้องอยู่รวมกันเช่น
"ทั้งๆ ที่" เป็นคำเดียว ดังนั้น ไม้ยมกบางตัวอาจจะรวมอยู่ในคำ
ได้เหมือนกันครับ นอกจากนี้ มีความเป็นไปได้ที่ฐานข้อมูลจะมี
Error อยู่บ้างแต่พยายามไม่ให้เกิน 10% ครับ
ชัย
อีเมลตอบจาก อ.วิโรจน์ หัวหน้าทีม BEST:
" เป็นไปได้ว่า โปรแกรมตัดแบบนั้น เพราะใน dictionary ที่ใช้มีคำ "ต่างๆ" "ทั้ง ๆ ที่" หากเป็นคำอื่นๆ ที่ไม่มีใน dictionary โปรแกรมน่าจะตัด ๆ ออกมา แต่ทำไมบางครั้ง รวม ๆ กับ space น่าจะเป็น error ของโปรแกรม เกณฑ์เฉพาะสำหรับ ๆ ไม่มี เพียงแต่คำที่มองว่าเป็น unit เดียวได้อย่าง ทั้งๆที่ ก็อาจรวมเป็นคำเดียว
ไม่รู้ว่าตอบคำถามหรือเปล่าครับ "
Post a Comment