ระบบค้นหาสืบค้น
เทคโนโลยีการสืบค้นข้อมูลเป็นหนึ่งในเทคโนโลยีที่ขาดไม่ได้ในยุคเทคโนโลยีสารสนเทศในปัจจุบัน ระบบสืบค้นข้อมูลช่วยให้ผู้ใช้คอมพิวเตอร์และเครือข่ายอินเตอร์เน็ตสามารถ เข้าถึงข้อมูลที่ต้องการได้อย่างรวดเร็ว โครงการนี้มีจุดประสงค์หลักเพื่อวิจัยและพัฒนาระบบสืบค้นข้อมูลที่มี ประสิทธิภาพสูงโดยเน้นการใช้งานสำหรับภาษาไทยเป็นหลัก ผลลัพธ์หลักที่ได้คือระบบสืบค้นข้อมูลบนอินเตอร์เน็ตสรรสารในเวอร์ชั่นใหม่ ซึ่งจะมีการปรับปรุงประสิทธิภาพจากเวอร์ชั่นเดิมหลายอย่าง เช่นการลดขนาดของดัชนีที่สร้างขึ้น รวมทั้งเพิ่มคุณสมบัติและความสามารถให้กับระบบเช่น การแนะนำคำที่ใช้ค้นคืน และการแสดงผลลัพธ์ของการค้นคืนแบบจัดกลุ่มและแบบเชิงความหมาย เป็นต้น และเพื่อให้การใช้งานของระบบสืบค้นข้อมูลในประเทศไทยเป็นไปอย่างแพร่หลายทางทีมจะเน้นการพัฒนาระบบในรูปแบบต้นรหัสเปิด (Open Source) รวมทั้งมีแผนในการจัดอบรมการนำเอาระบบที่ทางทีมพัฒนาขึ้นมาไปประยุกต์ใช้ ต่อยอดในระบบค้นคืนข้อมูลต่างๆ โดยที่ไม่ต้องเสียค่าธรรมเนียมการใช้โปรแกรม (License Fee) โครงการนี้ยังรวมถึงการวิจัยและพัฒนาระบบค้นคืนข้อมูลสำหรับอุปกรณ์พกพา เช่น คอมพิวเตอร์โน้ตบุ๊ค (Notebook computer) และอุปกรณ์พกพา (Handheld Devices) เป็นต้น เนื่องจากอุปกรณ์เหล่านี้มีข้อจำกัดทางฮาร์ดแวร์ ดังนั้นจึงต้องมีการออกแบบเพื่อให้ระบบค้นคืนข้อมูลสามารถทำงานได้อย่างไม่มีปัญหา
ผลลัพธ์ของโครงการ
ระบบต้นแบบ (Prototype)
1.1 ต้นแบบภาคสนาม (Field Prototype) สรรสาร ลุค: โปรแกรมสำหรับพัฒนาระบบค้นคืนข้อมูลภาษาไทย (Sansarn Look!: A Platform for Developing Thai-Language Information Retrieval Systems) สรรสาร ลุ๊ค เป็นโปรแกรมที่ใช้พัฒนาระบบค้นคืนข้อมูลทั่วๆไปเหมาะสำหรับการพัฒนาระบบค้นคืนเอกสารภายในองค์กร หรือบริษัทต่างๆ
1.2 ต้นแบบห้องปฏิบัติการ (Lab Prototype)
- โปรแกรมตัดคำภาษาไทยแบบอิงพจนานุกรม (LexTo) วิธีคือ แบบตัดคำที่ยาวที่สุดก่อน (Longest matching) โดยที่โปรแกรมตัดคำนี้ได้ถูกนำไปใช้พัฒนาต่อยอดในระบบสืบค้นข้อมูลสรรสาร ลุ๊คเพื่อใช้สำหรับตัดคำจากข้อความในเอกสารเพื่อสร้างดัชนี
- โปรแกรมทำนายคำ (i-key) โปรแกรมนี้ได้ถูกนำไปใช้พัฒนาต่อยอดในระบบสืบค้นข้อมูลสรรสาร ลุ๊ค ในส่วนของการแนะนำคำที่ใช้ค้นคืน (Query Suggestion) และยังสามารถประยุกต์ใช้ในอุปกรณ์อิเล็กทรอนิกส์แบบพกพาได้
- โปรแกรมระบุและสกัดคำที่ไม่ปรากฏในพจนานุกรมจากข้อความภาษาไทย (Thai unknown-word system) เป็นระบบที่ใช้ค้นหาและเก็บคำในภาษาไทยที่ไม่ปรากฏในพจนานุกรมมาก่อน เช่น คำทับศัพท์ ระบบนี้จะช่วยให้การตัดคำภาษาไทยมีความถูกต้องมากยิ่งขึ้น
1.1 ต้นแบบภาคสนาม (Field Prototype) สรรสาร ลุค: โปรแกรมสำหรับพัฒนาระบบค้นคืนข้อมูลภาษาไทย (Sansarn Look!: A Platform for Developing Thai-Language Information Retrieval Systems) สรรสาร ลุ๊ค เป็นโปรแกรมที่ใช้พัฒนาระบบค้นคืนข้อมูลทั่วๆไปเหมาะสำหรับการพัฒนาระบบค้นคืนเอกสารภายในองค์กร หรือบริษัทต่างๆ
1.2 ต้นแบบห้องปฏิบัติการ (Lab Prototype)
- โปรแกรมตัดคำภาษาไทยแบบอิงพจนานุกรม (LexTo) วิธีคือ แบบตัดคำที่ยาวที่สุดก่อน (Longest matching) โดยที่โปรแกรมตัดคำนี้ได้ถูกนำไปใช้พัฒนาต่อยอดในระบบสืบค้นข้อมูลสรรสาร ลุ๊คเพื่อใช้สำหรับตัดคำจากข้อความในเอกสารเพื่อสร้างดัชนี
- โปรแกรมทำนายคำ (i-key) โปรแกรมนี้ได้ถูกนำไปใช้พัฒนาต่อยอดในระบบสืบค้นข้อมูลสรรสาร ลุ๊ค ในส่วนของการแนะนำคำที่ใช้ค้นคืน (Query Suggestion) และยังสามารถประยุกต์ใช้ในอุปกรณ์อิเล็กทรอนิกส์แบบพกพาได้
- โปรแกรมระบุและสกัดคำที่ไม่ปรากฏในพจนานุกรมจากข้อความภาษาไทย (Thai unknown-word system) เป็นระบบที่ใช้ค้นหาและเก็บคำในภาษาไทยที่ไม่ปรากฏในพจนานุกรมมาก่อน เช่น คำทับศัพท์ ระบบนี้จะช่วยให้การตัดคำภาษาไทยมีความถูกต้องมากยิ่งขึ้น