ย้ายบล็อกไปที่ bact.cc แล้วนะครับ

พ.ร.บ.คอมพิวเตอร์
หยุด ร่างพ.ร.บ.คอมพิวเตอร์
พื้นที่เก็บข้อมูลออนไลน์ ฟรี 2GB จาก Dropbox (sync กับ Windows, Linux, Mac, iPhone, Android ฯลฯ ได้)

2005-11-30

Analysing LEXiTRON data files, with Ruby

สุดสัปดาห์ที่ผ่านมา นั่งเรียน Ruby (กำลังฮิต mk ก็ทำอย่างเดียวกันโดยไม่ได้นัดหมาย)

ตอนแรกว่าจะลอง Ruby on Rails เลย ..

คืออาทิตย์ก่อนหน้านี้
(สังเกต: ใช้คำว่าว่า อาทิตย์ก่อนหน้า แต่ก็ใช้ สุดสัปดาห์ ... สุดอาทิตย์ ไม่มีใครใช้)
นั่งเขียน 'เว็บบอร์ด' ใหม่อยู่ (โครงการพันล้าน ทำ ๆ รื้อ ๆ มาหลายชาติ ตอนนี้ Google ออกเบต้าไปเรียบร้อยแล้ว :P)
ก็เขียนด้วย PHP ตามถนัดน่ะแหละ (ซึ่งผมว่า สำหรับเว็บเล็ก ๆ นะ PHP นี่แหละ เร็วสุดแล้ว หมายถึงสร้างนะ แต่ถ้าทำใหญ่ ๆ ก็รกง่ายมาก) แต่คราวนี้แทนที่จะทำอะไรเองหมด ก็ไปลองใช้พวกไลบรารีใน PEAR มั่ง
ซึ่งก็ง่ายดี และทำให้โค้ดสะอาดขึ้นเยอะ (อย่างตัว MDB2 นี่ก็ชอบ .. ถ้ามันใช้ utf-8 ได้นะ)

เขียนไปเขียนมา ก็นึกขึ้นมาได้ว่า เออ อยากลอง Rails มาตั้งนานแล้วนี่นา
งั้นทำไมไม่ลองเขียนด้วย Rails ไปเลยล่ะ ?
ประกอบกับได้ไปยืน/นั่ง/นอนอ่าน(ฟรี) หนังสือ Beyond Java ที่ร้านหนังสือมาสองรอบ (ไปอ่านมาสองรอบ ไม่ใช่อ่านจบสองครั้ง)
นึกได้ดังนั้น ก็เลยลง Ruby กะ Rails อีกรอบ
(หลังจากที่เคยลงและลบไปนานแล้ว เพราะไม่รู้จะลองอะไรดี)

ปรากฏว่า ลง Ruby ได้ แต่ Rails ไม่เวิร์กแฮะ
เซตกับ Apache (บน Windows) ไม่ได้ซะที ลองมันทุกวิธีละ
ก็นั่งทำอยู่ตั้งนาน ยังไงก็ไม่ได้
สุดท้ายเลยไปใช้ WEBrick แทน ที่ port 3000 (โง่อยู่ตั้งนาน โธ่)

เอาล่ะ มี Ruby ละ มี Rails ละ
ลอง Hello, World ไปโผล่ในเว็บเบราเซอร์ได้เรียบร้อยแล้ว
แต่ยังเขียน Ruby ไม่เป็นเลยนี่หว่า .. เอ้า

ก็เลยหัด Ruby ซะก่อน

ไม่รู้จะหัดกับอะไรดี นึกขึ้นมาได้ว่ากำลังอยากแปลงไฟล์ข้อมูล LEXiTRON อยู่
งั้นลองด้วย Ruby เลยละกัน
(เป็นประเภท ไม่ชอบเรียนกับหนังสือ ขี้เกียจทำตาม ชอบแก้ ๆ ผิด ๆ ถูก ๆ ไปเองเรื่อย ๆ มากกว่า ถ้าติดตรงไหนค่อยเปิดอ่าน/ค้นเว็บ)

ทำไปทำมา ตอนนี้ไม่ได้แตะ Rails แล้ว .. อ้าว

เพราะกำลังสนุกกับการ 'ทำความสะอาด' ข้อมูลใน LEXiTRON อยู่

ก็ใช้เขียน Ruby นี่แหละ ทำสคริปต์ช่วย พวกแปลงข้อความ/หาข้อความ

ทำไปทำมา จริง ๆ เหมือนเขียน regular expression เล่นมากกว่า :P

ถ้ามีพื้นฐาน Python มาแล้ว Ruby นี่วันเดียวก็เป็น ถ้าได้ลงมือโค้ดจริง ๆ
คอนเซปต์อย่าง closure นี่ ผมอ่าน ๆ แล้วก็ไม่เข้าใจเท่าไหร่
แต่พอได้ลงมือเองจริง ๆ แล้ว + อ่านโค้ดตัวอย่าง + ดีบัก แป๊บเดียวก็เข้าใจแล้ว

เท่าที่พบ ข้อมูลใน LEXiTRON ค่อนข้างจาก 'รก' ทีเดียว ...
ไม่ใช่ว่าแปลผิดนะ แต่หมายถึง ไม่ค่อยจะ..สม่ำเสมอ คือ ข้อมูลอย่างเดียวกัน แต่บันทึกไม่เหมือนกัน
เช่นในแท็ก <notes> (หมายเหตุ) ในไฟล์ telex นี่ เรา (โดยสคริปต์ Ruby สั้น ๆ) จะพบทั้ง

  • (บาลี/สันสกฤต) 819 ครั้ง
  • (บาลี, สันสกฤต) 63
  • (บาลี), (สันสกฤต) 21
  • (บาลี - สันสกฤต) 12
  • (บาลีและสันสกฤต) 11
  • บาลี-สันสกฤต 4
  • (บาลี-สันสกฤต) 2

ผมยังไม่ได้เข้าไปไล่ดูในตัวไฟล์คำแปลว่าจริง ๆ แล้ว ทั้งหมดนี้ มีความหมายเหมือนหรือต่างกันยังไง
แต่ยังไงก็ตาม มันน่าจะมีอย่างน้อยบางคู่ ที่มันมีความหมายเหมือนกันล่ะ (แต่บันทึกไม่เหมือน)

... สรุปว่า เริ่มจาก 'เว็บบอร์ด' แล้วไปลงที่ LEXiTRON ได้ไงเนี่ย - -

นี่มัน Ruby off Rails ชัด ๆ !

ป.ล. งานนี้ใช้ jEdit + Ruby plug-in และปลั้กอินอื่น ๆ ..
ทั้ง HTML, CSS, XML, PHP, Python, JavaScript และ Ruby เราทำมันทั้งหมดใน jEdit เย้!
(อ้อ อย่าลืมเซต -Xmx เยอะ ๆ ล่ะ ถ้าแก้ไฟล์ใหญ่มาก ๆ แล้วจะให้มัน parse structure ด้วย ไม่งั้นก็แก้ใน mode text ธรรมดาไปเลย
และระวังอย่าเปิดไฟล์ที่มีบรรทัดที่ยาว ๆ และไม่มี whitespace เลย ในขณะที่ใช้ปลั๊กอินอย่าง StructureBrowser ไม่งั้น jEdit มันจะค้างไปเลย อันนี้ลองกับไฟล์ XML ที่แปลงมาจากข้อมูล LEXiTRON ขนาด 20 Mb ทั้งไฟล์มีบรรทัดเดียว และไม่มี whitespace เลย ... ผลลัพธ์ เซต -Xmx640m ก็ไม่พอครับ (เครื่องผมแรม 1.5 Gb))

ป.ล. ๒ เดี๋ยวค่อยมาโพสต์เรื่องการแปลงข้อมูล และสคริปต์ที่ใช้จริง ๆ (ด้วยภาษา Ruby) กัน
ถ้าสนใจเรื่องนี้ และอยากอ่านตอนนี้เลย แนะนำให้ไปอ่านของคุณ poonlap ก่อน — เจาะข้อมูล LEXiTRON (Perl)

4 comments:

PPhetra said...

> แต่พอได้ลงมือเองจริง ๆ แล้ว + อ่านโค้ดตัวอย่าง + ดีบัก แป๊บเดียวก็เข้าใจแล้ว

เห็นด้วย พวก concept แปลกๆที่เราไม่รู้จักอย่างนี้
มันต้องลงมืออย่างเดียว
ถ้าให้ซาบซื้ง bact ลองไปเรียน scheme ดูด้วยนะ

ตอนนี้ผมกำลังหมกมุ่นกับศัพท์ที่ว่า Monad อยู่
ตอนนี้ก็เลยหัดภาษา Haskell เพิ่มอีกอัน
จะได้เข้าใจสักที

Anonymous said...

www.rubybox.net
เปิดมานานแล้วอ่ะครับทำอยู่คนเดียวไม่ค่อยว่าง เลยไม่ค่อยมีอะไรเท่าไหร่ อยากจะขอความรู้จากทุกท่านอ่ะครับ post ใน webboard ก็ดีนะครับ

Isriya said...

ยังไม่มีเวลาอ่านต่อเลย (ช่วงนี้เพื่อนเกิดกันทุกวัน วันไหนไม่ได้เกิดมันก็เกิดกันเอง) ค่ำๆ ไม่เคยว่าง

จริงๆ ภาษาพวกนี้มันจะให้ทูลสำหรับลองเล่นง่ายๆ อย่าง WEBrick พอใช้จริงค่อยเป็น Apache อีกที ตอนเขียน Mono นั้นใช้ XSP เหมือนกัน

ปลั้ก - ใช้ไม่ตรีไม่ใช่เหรอ

bact' said...

ท่าแก้ LEXiTRON ของวีร์