จะเข้าเว็บ java.sun.com แต่ขี้เกียจพิมพ์จัดๆ
ก็เลยพิมพ์แค่ java ลงในช่อง search box ของ Firefox
กะว่ามันโผล่เป็นลิงก์แรกชัวร์ๆ แล้วจะกดเข้าไปดูต่อ
ปรากฏว่า Google โชว์แต่เว็บภาษาไทยเต็มไปหมด
เราก็ เอ้ย เดี๋ยวนี้ Google มันรู้ว่าเราเป็นคนไทย เลยโชว์แต่เว็บไทยให้ดูเลยเหรอ
อะไรมันจะเก่งขนาดนั้น
ปรากฏว่าไม่ใช่แฮะ
ดันพิมพ์ไม่ดีเอง
ไปพิมพ์ ่java
คือตอนพิมพ์ ไปกด ไม้เอก ก่อนที่จะกดตัว j
(ยังไม่ทันสลับภาษากลับ - สองตัวนี้อยู่ปุ่มเดียวกัน)
ผลลัพธ์มันเลยออกมามีแต่เว็บไทย
ก็คนชาติอื่นเค้าคงไม่พิมพ์ไม้เอกกันหรอก
และส่วนใหญ่ก็เป็นพวกเว็บบอร์ดด้วยน่ะ
แบบว่าพิมพ์ผิดกันทั้งบาง
ได้ 4 หน้าเชียวนะ (ประมาณ 57 เอกสาร)
นี่แค่ที่อยู่บนเน็ตและ Google หาเจอ
ไหนจะที่หาไม่เจอ หรือไม่ได้ออนไลน์อีก
เพียบแหง
sequence checking, normalization, spelling checking พวกนี้ก็สำคัญแฮะ
อีเมล อีเมล์ อี-เมล เวบ เว็บ เว็ป เค้ก เค็ก สาทร สาธร ช็อคโกเลต ช็อกโกแลต
นึกในหัวอย่างเดียวกัน แต่ใช้สัญลักษณ์ในการสื่อสารไม่ตรงกัน
คนนึงพิมพ์ใส่อย่าง อีกคนพิมพ์หาอีกอย่าง
หาไม่เจอหรอก
ใครทำเรื่อง information retrieval/extraction หรือ lexical chain, coreference resolution พวกนี้ ก็เอาไปคิดต่อกันเองนะครับ ;)
6 comments:
Sawasdee Krub Khun bact,
I am a regular (but not too often) browser of the Planet TLWG. Just today I encountered your comment, which hits my interest.
To quote part of your posting :-
" ใครทำเรื่อง information retrieval/extraction หรือ lexical chain, coreference resolution พวกนี้ ก็เอาไปคิดต่อกันเองนะครับ ;) "
I am interested in that, although I am not a programmer, rather a Molecular Biologist who just know a bit of Perl, some Java, just to play around with the "GATC" text of the genomes.
Can you kindly help me clarifying the terms "lexical chain, coreference resolution" a bit, or point me to some websites ? I am interested in Thai language since I see (continuous) similarity of the laguages of the genetic codes and Thai.
Thanks,
Burachai
burachais@yahoo.com
'lexical chain' is a kind of 'data structure' that try to represent a topic talking in a document na' krub.
by picking up one keyword and then finding for another word that related to the first one, link them together, and finding for next word .. in the end we will come up with a chain of related words. in other words, we can say that this chain represent a topic of interest in that document. there is possible, and normally it is, more than one chain for a given document.
just try to google "lexical chain" krub :)
----
litterally, "coreference resolution" is a technique to resolve 'coreferences'.
one normal type of coreferences is those of "he, she, it, they".
given two sentences:
I don't like winter. It is cold.
if we like to understand the second one,
we have to know what is "It".
--> so we will get "Winter is cold.".
this is what coreference resolution is for.
the case given above is quite simple
("It" = last noun seen),
but not for the two below:
John borrow a book from Tim. He don't have it.
John borrow a book from Tim. He don't use it.
How can we know that what "He" represents?
assume that both John and Tim are male.
He = John?
He = Tim?
... quite interesting? :)
There are also other coreferences more than "he, she, it..".
Like this example,
Arsenal denies Viera move. The team's manager said on ....
How can we know that "The team" is represent "Arsenal" ?
(we have to have a 'world knowledge' that Arsenal is a (football) team first.
then some English language knowledge that "The" is for referring to
the thing that you have mentioned before.)
or
Striker Emile Heskey was today forced to withdraw from the England squad.
The Birmingham forward took part in Monday's ...
How can we link "The Birmingham forward" with "Emile Heskey" ?
in this case we may able to use the clue "Striker" appears before "Emile Heskey",
but it still needs a knowledge of "Striker" = "Forward" (which lexical chain may helps) -- and still difficult.
anyway, in normal cases we don't even have such a clue.
again, just search it "coreference resolution"
or for a more specific case, "anaphora resolution" krub :)
ACL Anthology is a good resource
http://acl.ldc.upenn.edu/
:)
also SIGIR(lots of Bioinformatics applications here)
ผมเห็นคุณหนะ ชื่อตัวเอง ก็ พิมพ์ผิดประจำ
ิbact <-- มีสระอิติดมาประจำ
ไม่สังเกตให้ดี เลยเหรอ, เวลาพิมพ์ๆ หนะ.
- -'
ไม่เข้าใจ ว่าทำไมแค่นี้ ก็ไม่สังเกตเห็น.
----
อานนท์
หรือ คุณใช้ windows?
อืมๆๆ, ลองกับ windows แล้ว มันมองไม่เห็น สระลอย ที่พิมพ์เกินแฮะ.
----
อานนท์
เมื่อก่อนใช้วินโดวส์ครับ
แต่ถึงจะใช้ลีนุกซ์ก็พลาดได้เหมือนกัน
textfield ในไฟร์ฟ็อกซ์มันไม่แสดงสระ/วรรณยุกต์บน/ล่างตัวแรกครับ
Post a Comment