ย้ายบล็อกไปที่ bact.cc แล้วนะครับ

พ.ร.บ.คอมพิวเตอร์
หยุด ร่างพ.ร.บ.คอมพิวเตอร์
พื้นที่เก็บข้อมูลออนไลน์ ฟรี 2GB จาก Dropbox (sync กับ Windows, Linux, Mac, iPhone, Android ฯลฯ ได้)

2005-07-13

MediaWiki Bug 164 - Localized collation

ซอฟต์แวร์มีเดียวิกิ ที่วิกิพีเดียใช้ มันยังเรียงคำไทยไม่ถูก
คือมันเรียงตามค่าตัวอักษรเลย พวกคำที่ขึ้นต้นด้วย ไ ใ โ เ แ นี่ ก็จะไปโผล่หลัง ฮ
เช่น "ฮาโหล น้องสาว" จะมาก่อน "เยส โอ้ เยส"
(ที่ถูกคือ คำที่ใช้ ย.ยักษ์ ต้องมาก่อนคำที่ใช้ ฮ.นกฮูก)

ไม่ได้ผิดเฉพาะคำไทย แต่คำภาษาอื่น ๆ ก็เหมือนกัน พูดง่าย ๆ คือ มันไม่ได้คำนึงถึง ภาษา หรือ locale อะไรเลย
(แต่นึก ๆ ไป ถ้าพวกภาษาที่มีใช้ในหลาย ๆ ประเทศจะทำไง เพราะอย่างภาษาอังกฤษเนี่ย พวกคำที่มี hyphen "-" คั่นกลางนี่ บางประเทศอาจจะเรียงไม่เหมือนกัน วิกิพีเดียไม่ได้แบ่งประเทศซะด้วยสิ แต่แบ่งตามภาษา)

มีคนแจ้งบั๊กนี้ไว้แล้ว (Bug 164) ตั้งแต่ วิกิมีเดียรุ่น 1.3.0, ตอนนี้รุ่น 1.5 beta 1 แล้ว ก็ยังไม่มีใครเข้าไปแก้

4 comments:

NOI said...

เอ ผมว่ามันเรียงถูกแล้วนา ...

คือถ้าหากว่ามีสระนำเหมือนกัน แล้วพยัญชนะต่างกัน ก็จะเรียงตามตัวพยัญชนะอีกที

ลองค้นๆ อ้างอิงจากพจนานุกรมดีกว่าครับ ส่วนใหญ่เวลาที่เรียงเขาจะเรียก พยัญชนะล้วนก่อน แล้วค่อยเอาพวกที่มีสระหรือวรรณยุกต์ผสมมาเรียงต่ออีกที

นอกจากว่าเราต้องการให้จัดเรียงตามหมวดพยัญชนะ คือ หมวด ก นำทั้งหมดอยู่ด้วยกันเป็นต้น

bact' said...

เวลาเรียง ให้ถือ พยัญชนะ สำคัญกว่าครับ

กิน
โกง
ขวาน
แขวน
ควาย

ไม่ใช่

กิน
ขวาน
ควาย
แขวน
โกง

Thai Sorting Algorithms

NOI said...

แสดงว่าต้องการจัดให้อยู่ในหมวดหมู่ตัวอักษรเดียวกัน :)

bact' said...

แล้วพจนานุกรม/โทรศัพท์/ฯลฯ เค้าไม่ได้จัดตามหมวดหมู่อักษรเหรอครับ ?

ถ้าไม่เรียงตามตัวอักษร แล้วจะเรียงตามอะไรดี ?
(จำนวนตัวอักษร? :P)