ย้ายบล็อกไปที่ bact.cc แล้วนะครับ

พ.ร.บ.คอมพิวเตอร์
หยุด ร่างพ.ร.บ.คอมพิวเตอร์
พื้นที่เก็บข้อมูลออนไลน์ ฟรี 2GB จาก Dropbox (sync กับ Windows, Linux, Mac, iPhone, Android ฯลฯ ได้)
Showing posts with label YAiTRON. Show all posts
Showing posts with label YAiTRON. Show all posts

2007-10-03

YAiTRON/LEXiTRON "ancient" word

ถามวีร์และคนอื่น ๆ

ตอนนี้พยายามทำความสะอาด YAiTRON (LEXiTRON ฉบับ XML) เพิ่มเติมอยู่

ผมลองสั่งหาคำว่า “(คำโบราณ)” ในอีลีเมนต์ translation-similar ใน YAiTRON เจองี้ (ถ้าหาในอีลีเมนต์ translation เฉย ๆ จะเจอเยอะกว่านี้)

$ cat yaitron.xml | grep -n -e \<translation-similar.*\(คำโบ
832513:  <translation-similar lang="tha">ชาวเรือ, กะลาสี (คำโบราณ)</translation-similar>
947329:  <translation-similar lang="tha">(คำโบราณ) (ทางวรรณคดี)</translation-similar>
952697:  <translation-similar lang="tha">(คำโบราณ หรือทางวรรณคดี)</translation-similar>

อยากรู้ว่า เจ้าหมายเหตุว่า “(คำโบราณ)” หรืออะไรประมาณนี้เนี่ย มันควรจะไปเก็บอยู่ตรงไหนดีครับ ที่ตัวอีลีเมนต์ entry (ซึ่งเป็นอีลีเมนต์แม่ของ translation-similar) หรือว่าจะไปเก็บเป็นแอตทริบิวต์ของอีลีเมนต์ translation-similar หรือว่าอย่างอื่น ??
(ในสเปคปัจจุบันของ YAiTRON แนะนำให้เก็บหมายเหตุพวกนี้ลงอีลีเมนต์ชื่อ note แต่อยากให้มัน machine-readable อ่ะ)

เช่น ปัจจุบันเป็นงี้

<entry lang="eng">
 <headword>seafarer</headword>
 <translation lang="tha">คนเดินเรือ</translation>
 <translation-similar lang="tha">ชาวเรือ, กะลาสี (คำโบราณ)</translation-similar>
 <lexitron id="63739"/>
</entry>

ที่เสนอแบบที่ 1 (“คำโบราณ” บ่งชี้ “seafarer”):

<entry lang="eng" >
 <ancient>true</ancient>
 <headword>seafarer</headword>
 <translation lang="tha">คนเดินเรือ</translation>
 <translation-similar lang="tha">ชาวเรือ</translation-similar>
 <translation-similar lang="tha">กะลาสี</translation-similar>
 <lexitron id="63739"/>
</entry>

ที่เสนอแบบที่ 2.1 (“คำโบราณ” บ่งชี้ทุกคำใน translation-similar):

<entry lang="eng">
 <headword>seafarer</headword>
 <translation lang="tha">คนเดินเรือ</translation>
 <translation-similar lang="tha" ancient="true">ชาวเรือ</translation-similar>
 <translation-similar lang="tha" ancient="true">กะลาสี</translation-similar>
 <lexitron id="63739"/>
</entry>

แบบที่ 2.2 (“คำโบราณ” บ่งชี้เฉพาะ “กะลาสี”):

<entry lang="eng">
 <headword>seafarer</headword>
 <translation lang="tha">คนเดินเรือ</translation>
 <translation-similar lang="tha">ชาวเรือ</translation-similar>
 <translation-similar lang="tha" ancient="true">กะลาสี</translation-similar>
 <lexitron id="63739"/>
</entry>

คือไม่แน่ใจว่า “คำโบราณ” ในหมายเหตุ (ในวงเล็บ) เนี่ย มันเป็นตัวบ่งชี้อะไร
ตัวบ่งชี้ คำศัพท์ (seafarer) หรือว่าตัวบ่งชี้คำแปล (ชาวเรือ, กะลาสี)

ใครมีความเห็นไรมั่งครับ ?

อีกอันที่น่าสนใจ เอาไว้พิจารณาประกอบก็คือ มันมี entry แบบนี้ด้วยอันนึง:

<entry lang="eng">
 <pos>N</pos>
 <headword>weeds</headword>
 <translation lang="tha">เสื้อผ้าสีดำซึ่งเดิมเป็นชุดสวมใส่ของแม่ม่าย</translation>
 <translation-similar lang="tha">(คำโบราณ หรือทางวรรณคดี)</translation-similar>
 <lexitron id="80641"/>
</entry>

จะเห็นว่าใน translation-similar ไม่มีคำแปลอะไรอยู่เลย มีแต่หมายเหตุ แบบนี้ แปลว่าหมายเหตุใน translation-similar ไม่ได้บ่งชี้ตัวคำแปลใน translation-similar .. แต่บ่งชี้คำศัพท์ (weeds) น่ะสิ ?? คิดแบบนี้ได้ไหม ?

หรือ ... แต่เนื่องจากเจอแบบนี้แค่อันเดียว ก็อาจจะถือว่ามันเป็นข้อผิดพลาด ไม่ต้องสนใจ จะได้ไหม?

นอกเรื่อง: ข้อมูล LEXiTRON ที่ให้ดาวน์โหลดได้* ซึ่งเอามาทำ YAiTRON (โดยวีร์ ผ่านทางทางคุณพูนลาภอีกที) มันเป็นรุ่นเมื่อหลายปีก่อน คือ 2.0 (หรือก่อนหน้านั้น) ส่วนรุ่นล่าสุดที่ใช้บนเว็บ คือ 2.2 เค้าไม่มีให้ดาวน์โหลด

Dictionary Thai→English English→Thai
WordsSenses WordsSenses
LEXiTRON 2.135,000?53,000?
LEXiTRON 2.251,000?79,000?
YAiTRON32,35040,85453,53483233

* ต้องสมัครสมาชิกก่อนถึงจะดาวน์โหลดได้ แต่หน้าเว็บสำหรับสมัครก็ดันบอก PHP error อีเมลไปตามที่อยู่ที่แจ้งไว้ ก็ตีกลับ ... - -"

technorati tags: , , ,

2007-09-26

YAiTRON XSLT stylesheets

YAiTRON is a cleaned-up version of NECTEC's LEXiTRON in a well-formed XML format, created by Vee Satayamas. Its tag names are TEI-inspired.

technorati tags: , , , ,