ถามวีร์และคนอื่น ๆ
ตอนนี้พยายามทำความสะอาด YAiTRON (LEXiTRON ฉบับ XML) เพิ่มเติมอยู่
ผมลองสั่งหาคำว่า “(คำโบราณ)” ในอีลีเมนต์ translation-similar ใน YAiTRON เจองี้ (ถ้าหาในอีลีเมนต์ translation เฉย ๆ จะเจอเยอะกว่านี้)
$ cat yaitron.xml | grep -n -e \<translation-similar.*\(คำโบ 832513: <translation-similar lang="tha">ชาวเรือ, กะลาสี (คำโบราณ)</translation-similar> 947329: <translation-similar lang="tha">(คำโบราณ) (ทางวรรณคดี)</translation-similar> 952697: <translation-similar lang="tha">(คำโบราณ หรือทางวรรณคดี)</translation-similar>
อยากรู้ว่า เจ้าหมายเหตุว่า “(คำโบราณ)” หรืออะไรประมาณนี้เนี่ย
มันควรจะไปเก็บอยู่ตรงไหนดีครับ ที่ตัวอีลีเมนต์ entry (ซึ่งเป็นอีลีเมนต์แม่ของ translation-similar)
หรือว่าจะไปเก็บเป็นแอตทริบิวต์ของอีลีเมนต์ translation-similar หรือว่าอย่างอื่น ??
(ในสเปคปัจจุบันของ YAiTRON แนะนำให้เก็บหมายเหตุพวกนี้ลงอีลีเมนต์ชื่อ note แต่อยากให้มัน machine-readable อ่ะ)
เช่น ปัจจุบันเป็นงี้
<entry lang="eng"> <headword>seafarer</headword> <translation lang="tha">คนเดินเรือ</translation> <translation-similar lang="tha">ชาวเรือ, กะลาสี (คำโบราณ)</translation-similar> <lexitron id="63739"/> </entry>
ที่เสนอแบบที่ 1 (“คำโบราณ” บ่งชี้ “seafarer”):
<entry lang="eng" > <ancient>true</ancient> <headword>seafarer</headword> <translation lang="tha">คนเดินเรือ</translation> <translation-similar lang="tha">ชาวเรือ</translation-similar> <translation-similar lang="tha">กะลาสี</translation-similar> <lexitron id="63739"/> </entry>
ที่เสนอแบบที่ 2.1 (“คำโบราณ” บ่งชี้ทุกคำใน translation-similar):
<entry lang="eng"> <headword>seafarer</headword> <translation lang="tha">คนเดินเรือ</translation> <translation-similar lang="tha" ancient="true">ชาวเรือ</translation-similar> <translation-similar lang="tha" ancient="true">กะลาสี</translation-similar> <lexitron id="63739"/> </entry>
แบบที่ 2.2 (“คำโบราณ” บ่งชี้เฉพาะ “กะลาสี”):
<entry lang="eng"> <headword>seafarer</headword> <translation lang="tha">คนเดินเรือ</translation> <translation-similar lang="tha">ชาวเรือ</translation-similar> <translation-similar lang="tha" ancient="true">กะลาสี</translation-similar> <lexitron id="63739"/> </entry>
คือไม่แน่ใจว่า “คำโบราณ” ในหมายเหตุ (ในวงเล็บ) เนี่ย มันเป็นตัวบ่งชี้อะไร
ตัวบ่งชี้ คำศัพท์ (seafarer) หรือว่าตัวบ่งชี้คำแปล (ชาวเรือ, กะลาสี)
ใครมีความเห็นไรมั่งครับ ?
อีกอันที่น่าสนใจ เอาไว้พิจารณาประกอบก็คือ มันมี entry แบบนี้ด้วยอันนึง:
<entry lang="eng"> <pos>N</pos> <headword>weeds</headword> <translation lang="tha">เสื้อผ้าสีดำซึ่งเดิมเป็นชุดสวมใส่ของแม่ม่าย</translation> <translation-similar lang="tha">(คำโบราณ หรือทางวรรณคดี)</translation-similar> <lexitron id="80641"/> </entry>
จะเห็นว่าใน translation-similar ไม่มีคำแปลอะไรอยู่เลย มีแต่หมายเหตุ แบบนี้ แปลว่าหมายเหตุใน translation-similar ไม่ได้บ่งชี้ตัวคำแปลใน translation-similar .. แต่บ่งชี้คำศัพท์ (weeds) น่ะสิ ?? คิดแบบนี้ได้ไหม ?
หรือ ... แต่เนื่องจากเจอแบบนี้แค่อันเดียว ก็อาจจะถือว่ามันเป็นข้อผิดพลาด ไม่ต้องสนใจ จะได้ไหม?
นอกเรื่อง: ข้อมูล LEXiTRON ที่ให้ดาวน์โหลดได้* ซึ่งเอามาทำ YAiTRON (โดยวีร์ ผ่านทางทางคุณพูนลาภอีกที) มันเป็นรุ่นเมื่อหลายปีก่อน คือ 2.0 (หรือก่อนหน้านั้น) ส่วนรุ่นล่าสุดที่ใช้บนเว็บ คือ 2.2 เค้าไม่มีให้ดาวน์โหลด
Dictionary | Thai→English | English→Thai | ||
---|---|---|---|---|
Words | Senses | Words | Senses | |
LEXiTRON 2.1 | 35,000 | ? | 53,000 | ? |
LEXiTRON 2.2 | 51,000 | ? | 79,000 | ? |
YAiTRON | 32,350 | 40,854 | 53,534 | 83233 |
* ต้องสมัครสมาชิกก่อนถึงจะดาวน์โหลดได้ แต่หน้าเว็บสำหรับสมัครก็ดันบอก PHP error อีเมลไปตามที่อยู่ที่แจ้งไว้ ก็ตีกลับ ... - -"
2 comments:
น่าจะเป็นแบบ 2.2 นะ
ถ้าให้ครอบคลุมหมด ก็ต้องให้ attribute ancient เป็นสมาชิกของ element พวก headword, translation-similar, translation
นอกเรื่อง (พาเข้าป่า)
พูดไป คำว่า "คำโบราณ" มันต้องอ้างอิงกรอบเวลานะ,
แสดงว่าเราต้องคอย update YAiTRON
ใส่ attribute ancient ทุกๆ X ปี
แล้วเวลา parse เอกสารสมัยเก่า เราก็ต้องเอา
YaiTRON version ที่ถูกตามกรอบเวลาไปใช้ด้วยไหม?
ช่ายย คิดเหมือนกันเลยพี่ป็อก (ว่าจะไม่เข้าป่าแล้วนะ :D)
ทางหนึ่งจะทำได้ คือระบุไปเลย ว่าคำนี้ พบใช้ในช่วงเวลาไหนบ่อยแค่ไหน (ซึ่งจะดูได้จากคลังข้อมูลภาษา/corpus)
ก็จะตัดเรื่อง "โบราณ" หรือ "ไม่โบราณ" (สัมพัทธ์) ออกไปได้
เหลือเป็น "ช่วงไหน" (สัมบูรณ์)
Post a Comment