เดาเชื้อชาติจากชื่อ-ที่สะกดในภาษาไทย
(ในเว็บเขียนไว้ว่างั้น แต่ถ้าดูที่ผลลัพธ์ มันน่าจะเป็นชื่อประเทศมากกว่านะ)
โครงการ (ซีเนียร์โปรเจกต์) ของนักเรียนกลุ่มนึงที่ภาค ลองเล่นดูครับ NC
https://kindml.siit.tu.ac.th/~kobkrit/nc/
ฐานข้อมูลจะมีชื่อไทย จีน ญี่ปุ่น เกาหลี อยู่ซะเยอะ นอกนั้นไม่ค่อยมาก จะเห็นว่าเดาผิดอยู่เป็นระยะ ๆ แต่สอนโปรแกรมมันได้นะครับ ถ้าผิดก็บอกมัน มันก็จะค่อย ๆ เรียนรู้ไปครับ
(ใส่ชื่อตัวเอง แล้วเค้าบอกว่าเราเป็น อิสราเอล ญี่ปุ่น - -")
นี่ผลลัพธ์ของผม (ยิ่งติดลบมาก แปลว่าโอกาสยิ่งน้อย) ใครได้อะไรยังไงบ้าง ? :)
Japan = -24.5005977488 Thailand = -26.0099782994 China = -34.1434349411 Malaysia = -54.4917107892
สงสัยยังเรียนไม่พอ :D
อีกตัวนึง จากกลุ่มเดียวกัน เป็นบริการ “ตัดหน่วยคำ” (TCC - Thai Character Cluster)
https://kindml.siit.tu.ac.th/~kobkrit/tcc/
ลองดูครับ
technorati tags: natural language processing, Thai, classification
3 comments:
ลองชื่อ มาเรีย ซิ (มาเรีย:http://en.wikipedia.org/wiki/Maria)
ของผมทายถูกอย่างแม่นยำ ไทยแท้
Note: เจ้าน้องคนที่เขียน เคยมางาน CNUG ด้วย หน่วยก้านดีทีเดียว
ตอนนี้เว็บเดี้ยงครับ - -"
น้องเค้าว่าต้องรอวันจันทร์หรืออังคาร ก็จะใช้ได้อีก
Post a Comment