ย้ายบล็อกไปที่ bact.cc แล้วนะครับ

พ.ร.บ.คอมพิวเตอร์
หยุด ร่างพ.ร.บ.คอมพิวเตอร์
พื้นที่เก็บข้อมูลออนไลน์ ฟรี 2GB จาก Dropbox (sync กับ Windows, Linux, Mac, iPhone, Android ฯลฯ ได้)

2007-10-03

YAiTRON/LEXiTRON "ancient" word

ถามวีร์และคนอื่น ๆ

ตอนนี้พยายามทำความสะอาด YAiTRON (LEXiTRON ฉบับ XML) เพิ่มเติมอยู่

ผมลองสั่งหาคำว่า “(คำโบราณ)” ในอีลีเมนต์ translation-similar ใน YAiTRON เจองี้ (ถ้าหาในอีลีเมนต์ translation เฉย ๆ จะเจอเยอะกว่านี้)

$ cat yaitron.xml | grep -n -e \<translation-similar.*\(คำโบ
832513:  <translation-similar lang="tha">ชาวเรือ, กะลาสี (คำโบราณ)</translation-similar>
947329:  <translation-similar lang="tha">(คำโบราณ) (ทางวรรณคดี)</translation-similar>
952697:  <translation-similar lang="tha">(คำโบราณ หรือทางวรรณคดี)</translation-similar>

อยากรู้ว่า เจ้าหมายเหตุว่า “(คำโบราณ)” หรืออะไรประมาณนี้เนี่ย มันควรจะไปเก็บอยู่ตรงไหนดีครับ ที่ตัวอีลีเมนต์ entry (ซึ่งเป็นอีลีเมนต์แม่ของ translation-similar) หรือว่าจะไปเก็บเป็นแอตทริบิวต์ของอีลีเมนต์ translation-similar หรือว่าอย่างอื่น ??
(ในสเปคปัจจุบันของ YAiTRON แนะนำให้เก็บหมายเหตุพวกนี้ลงอีลีเมนต์ชื่อ note แต่อยากให้มัน machine-readable อ่ะ)

เช่น ปัจจุบันเป็นงี้

<entry lang="eng">
 <headword>seafarer</headword>
 <translation lang="tha">คนเดินเรือ</translation>
 <translation-similar lang="tha">ชาวเรือ, กะลาสี (คำโบราณ)</translation-similar>
 <lexitron id="63739"/>
</entry>

ที่เสนอแบบที่ 1 (“คำโบราณ” บ่งชี้ “seafarer”):

<entry lang="eng" >
 <ancient>true</ancient>
 <headword>seafarer</headword>
 <translation lang="tha">คนเดินเรือ</translation>
 <translation-similar lang="tha">ชาวเรือ</translation-similar>
 <translation-similar lang="tha">กะลาสี</translation-similar>
 <lexitron id="63739"/>
</entry>

ที่เสนอแบบที่ 2.1 (“คำโบราณ” บ่งชี้ทุกคำใน translation-similar):

<entry lang="eng">
 <headword>seafarer</headword>
 <translation lang="tha">คนเดินเรือ</translation>
 <translation-similar lang="tha" ancient="true">ชาวเรือ</translation-similar>
 <translation-similar lang="tha" ancient="true">กะลาสี</translation-similar>
 <lexitron id="63739"/>
</entry>

แบบที่ 2.2 (“คำโบราณ” บ่งชี้เฉพาะ “กะลาสี”):

<entry lang="eng">
 <headword>seafarer</headword>
 <translation lang="tha">คนเดินเรือ</translation>
 <translation-similar lang="tha">ชาวเรือ</translation-similar>
 <translation-similar lang="tha" ancient="true">กะลาสี</translation-similar>
 <lexitron id="63739"/>
</entry>

คือไม่แน่ใจว่า “คำโบราณ” ในหมายเหตุ (ในวงเล็บ) เนี่ย มันเป็นตัวบ่งชี้อะไร
ตัวบ่งชี้ คำศัพท์ (seafarer) หรือว่าตัวบ่งชี้คำแปล (ชาวเรือ, กะลาสี)

ใครมีความเห็นไรมั่งครับ ?

อีกอันที่น่าสนใจ เอาไว้พิจารณาประกอบก็คือ มันมี entry แบบนี้ด้วยอันนึง:

<entry lang="eng">
 <pos>N</pos>
 <headword>weeds</headword>
 <translation lang="tha">เสื้อผ้าสีดำซึ่งเดิมเป็นชุดสวมใส่ของแม่ม่าย</translation>
 <translation-similar lang="tha">(คำโบราณ หรือทางวรรณคดี)</translation-similar>
 <lexitron id="80641"/>
</entry>

จะเห็นว่าใน translation-similar ไม่มีคำแปลอะไรอยู่เลย มีแต่หมายเหตุ แบบนี้ แปลว่าหมายเหตุใน translation-similar ไม่ได้บ่งชี้ตัวคำแปลใน translation-similar .. แต่บ่งชี้คำศัพท์ (weeds) น่ะสิ ?? คิดแบบนี้ได้ไหม ?

หรือ ... แต่เนื่องจากเจอแบบนี้แค่อันเดียว ก็อาจจะถือว่ามันเป็นข้อผิดพลาด ไม่ต้องสนใจ จะได้ไหม?

นอกเรื่อง: ข้อมูล LEXiTRON ที่ให้ดาวน์โหลดได้* ซึ่งเอามาทำ YAiTRON (โดยวีร์ ผ่านทางทางคุณพูนลาภอีกที) มันเป็นรุ่นเมื่อหลายปีก่อน คือ 2.0 (หรือก่อนหน้านั้น) ส่วนรุ่นล่าสุดที่ใช้บนเว็บ คือ 2.2 เค้าไม่มีให้ดาวน์โหลด

Dictionary Thai→English English→Thai
WordsSenses WordsSenses
LEXiTRON 2.135,000?53,000?
LEXiTRON 2.251,000?79,000?
YAiTRON32,35040,85453,53483233

* ต้องสมัครสมาชิกก่อนถึงจะดาวน์โหลดได้ แต่หน้าเว็บสำหรับสมัครก็ดันบอก PHP error อีเมลไปตามที่อยู่ที่แจ้งไว้ ก็ตีกลับ ... - -"

technorati tags: , , ,

2 comments:

polawat phetra said...

น่าจะเป็นแบบ 2.2 นะ

ถ้าให้ครอบคลุมหมด ก็ต้องให้ attribute ancient เป็นสมาชิกของ element พวก headword, translation-similar, translation

นอกเรื่อง (พาเข้าป่า)
พูดไป คำว่า "คำโบราณ" มันต้องอ้างอิงกรอบเวลานะ,
แสดงว่าเราต้องคอย update YAiTRON
ใส่ attribute ancient ทุกๆ X ปี
แล้วเวลา parse เอกสารสมัยเก่า เราก็ต้องเอา
YaiTRON version ที่ถูกตามกรอบเวลาไปใช้ด้วยไหม?

bact' said...

ช่ายย คิดเหมือนกันเลยพี่ป็อก (ว่าจะไม่เข้าป่าแล้วนะ :D)

ทางหนึ่งจะทำได้ คือระบุไปเลย ว่าคำนี้ พบใช้ในช่วงเวลาไหนบ่อยแค่ไหน (ซึ่งจะดูได้จากคลังข้อมูลภาษา/corpus)

ก็จะตัดเรื่อง "โบราณ" หรือ "ไม่โบราณ" (สัมพัทธ์) ออกไปได้
เหลือเป็น "ช่วงไหน" (สัมบูรณ์)