ความรู้ เกร็ดความรู้ สารานุกรม สารานุกรมออนไลน์ ความรู้รอบตัว ความรู้ทั่วไป พจนานุกรม เกมส์ เพลงใหม่ เพลง

โปรแกรมรู้จำอักขระไทยด้วยแสง (ไทยโอซีอาร์), โปรแกรมรู้จำอักขระไทยด้วยแสง (ไทยโอซีอาร์) หมายถึง, โปรแกรมรู้จำอักขระไทยด้วยแสง (ไทยโอซีอาร์) คือ, โปรแกรมรู้จำอักขระไทยด้วยแสง (ไทยโอซีอาร์) ความหมาย, โปรแกรมรู้จำอักขระไทยด้วยแสง (ไทยโอซีอาร์) คืออะไร
| เปิดอ่าน 0 | ความคิดเห็น 0
โปรแกรมรู้จำอักขระไทยด้วยแสง (ไทยโอซีอาร์)

          เนื่องจากมีผู้ค้นคว้างานวิจัยไทยโอซีอาร์จำเป็นที่จะต้องมีความรู้และความเข้าใจในภาษาไทยมากพอสมควร  งานวิจัยในเรื่องนี้ที่ผ่านมาจึงได้รับการพัฒนาโดยคนไทยทั้งสิ้น  อย่างไรก็ตามมีนักศึกษาไทยในระดับปริญญาโทและปริญญาเอกในต่างประเทศทำวิจัยและพัฒนาระบบไทยโอซีอาร์ซึ่งในบางโครงการก็มีอาจารย์ที่ปรึกษาเป็นชาวต่างประเทศ  งานวิจัยเรื่องนี้เริ่มขึ้นมาประมาณปีพ.ศ.  ๒๕๓๐  โดยส่วนใหญ่เป็นการทำวิจัยในสถาบันการศึกษา  ซึ่งได้รับทุนในการค้นคว้าวิจัยจากหน่วยงานภาครัฐบาล  ทั้งนี้เพราะทุกฝ่ายเห็นความสำคัญของการมีระบบไทยโอซีอาร์เป็นอย่างยิ่ง

          งานวิจัยในสมัยแรกเริ่มนั้นใช้วิธีหลัก  ๒วิธี  เช่นเดียวกับโอซีอาร์ของภาษาอื่นๆ คือ  วิธีการจับคู่แผ่นแบบ  (Template  Matching  Methods)  และวิธีการวิเคราะห์โครงสร้าง  (Structure  Analysis Methods)  โดยแบ่งกระบวนการรู้จำ  (Recognition Process)  เป็น  ๒  ระดับ  ได้แก่  การแบ่งแยกอย่างหยาบ  (Rough  Classification)  เพื่อจัดกลุ่มตัวอักษรทั้งหมดออกเป็นกลุ่มย่อย  และส่งต่อไปยังส่วนการแบ่งแยกอย่างละเอียด  (Fine  Classification)  อีกทอดหนึ่ง  เพื่อให้ได้รหัสตัวอักษรออกมา  งานวิจัยที่ได้ให้ผลเป็นที่น่าพอใจระดับหนึ่งเท่านั้น  เพราะมีข้อจำกัดในการใช้งานค่อนข้างมาก  เช่น  ข้อจำกัดเรื่องฟอนต์ตัวอักษรไทย  ขนาดตัวอักษร  และคุณภาพของภาพเอกสารที่ได้จากเครื่องกราดตรวจ  (Scanner)  เป็นต้น

          การทำวิจัยยุคต่อมาในช่วงปี  พ.ศ.  ๒๕๓๕เป็นต้นมา  นักวิจัยเริ่มมองหาแนวทางใหม่ที่จะนำมาใช้เพื่อแก้ปัญหาไทยโอซีอาร์  ซึ่งในยุคนี้เทคโนโลยีด้านฮาร์ดแวร์ของระบบคอมพิวเตอร์ก้าวหน้าไปมาก  การประมวลผลข้อมูลปริมาณมากๆ สามารถทำได้ในเวลาอันรวดเร็ว  จึงได้มีการนำโครงข่ายประสาทเทียม  (Artificial  Neural Networks)  ซึ่งเป็นเทคโนโลยีใหม่ที่สามารถทำการคำนวณแบบขนานได้  และได้รับความสนใจมากมาใช้กับงานนี้อย่างแพร่หลาย  จนกระทั่งประสบผลสำเร็จสามารถผลิตเป็นซอฟต์แวร์ไทยโอซีอาร์ได้

          กระบวนการโดยทั่วๆ ไปในการพัฒนาระบบไทยโอซีอาร์ประกอบด้วย

          ๑.  กระบวนการก่อนการประมวลผล  (Preprocessing)  ใช้ในการเตรียมภาพตัวอักษรให้พร้อมสำหรับขั้นต่อไป  กระบวนการที่เกี่ยวข้องด้วย  ได้แก่  การทำความสะอาดสิ่งสกปรกบนภาพเอกสาร  การตัดภาพเอกสารออกเป็นภาพตัวอักษรกระบวนการทำบาง (Thinning  Process)  และกระบวนการทำภาพให้ไม่ชัด  (Blurring  Process) เป็นต้น

          ๒.  กระบวนการรู้จำ  (Recognition  Process)ซึ่งเป็นหัวใจของระบบไทยโอซีอาร์  ทำหน้าที่อ่าน  หรือรู้จำภาพตัวอักษรแต่ละตัว

          ๓.  กระบวนการหลังการประมวลผล (Postprocessing)  เป็นการปรับความถูกต้องของการรู้จำให้ดีขึ้น  โดยใช้กฎต่างๆ ของหลักภาษาไทย  และพจนานุกรมไทยเข้าช่วยตรวจสอบ

          ตัวอักษรไทยทั้งหมดประกอบด้วยพยัญชนะ๔๔  ตัว  สระ  ๓๒  รูป  วรรณยุกต์  ๔  รูป  เลขไทย ๑๐  ตัว  และสัญลักษณ์พิเศษ  ๔  ตัว  ซึ่งสระรูปประสมจะไม่ถูกนำมาพิจารณาในการรู้จำระบบไทยโอซีอาร์  เนื่องจากไม่มีความจำเป็น  เพราะการตัดแยกภาพเอกสารออกเป็นภาพตัวอักษรนั้นอาศัยหลักการการเชื่อมต่อกันของจุดภาพและช่องว่างระหว่างภาพ  ซึ่งจะส่งผลให้ภาพสระรูปประสมถูกตัดแยกออกเป็นภาพรูปสระโดด  เช่น สระ  "โ - ะ"  ถูกตัดแยกเป็นภาพสระ "โ"  และสระ " ะ "  สำหรับกรณีสระ " ะ "  นี้  จะถูกตัดแยกเป็นภาพไม้ผัด  ๒  รูปแทน  ดังนั้น  ตัวอักษรไทยที่ควรนำมาศึกษาและทำวิจัยในระบบโอซีอาร์ควรประกอบด้วยพยัญชนะ  ๔๔  ตัว  สระ  ๑๖ ตัววรรณยุกต์  ๔  ตัว  เท่านั้น  โดยอาจนำสัญลักษณ์พิเศษ
อื่นๆ มาศึกษาร่วมด้วย  เช่น  ฿,  $, + ,  /  เป็นต้นเพราะเอกสารในปัจจุบันมักจะมีการใช้สัญลักษณ์พิเศษเหล่านี้ร่วมด้วย  เอกสารในปัจจุบันมีแนว-โน้มที่จะใช้ภาษาไทยร่วมกับภาษาอังกฤษ  จึงน่าจะเป็นการเหมาะสมที่จะนำภาษาอังกฤษเข้ามาศึกษาและทำวิจัยในระบบไทยโอซีอาร์ด้วย

          ปัจจุบันนี้มีซอฟต์แวร์ประเภทไทยโอซีอาร์สำหรับตัวพิมพ์ไทยและอังกฤษด้วยฝีมือของคนไทยจำหน่ายในท้องตลาดอยู่  ๓  ซอฟต์แวร์ด้วยกัน  ได้แก่  ซอฟต์แวร์อ่านไทย  ซอฟต์แวร์ไทยโอซีอาร์  และซอฟต์แวร์ทีเร็ก  ซึ่งโครงข่ายประสาทเทียมนั้นได้ถูกเลือกใช้ในกระบวนการรู้จำของซอฟต์แวร์อ่านไทยและไทยโอซีอาร์  ส่วนในซอฟต์แวร์ทีเร็กนั้น  เลือกใช้การเปรียบเทียบ   ลักษณะตัวอักษรในกระบวนการรู้จำ  แต่ไทยโอซีอาร์สำหรับรายมือเขียนนั้นยังไม่มีจำหน่าย  มี
เพียงงานวิจัยออกมาเป็นระยะๆ คาดว่า  คงต้องใช้เวลาอีกนานพอสมควรในการพัฒนาระบบไทยโอซีอาร์สำหรับลายมือเขียน  เนื่องจากลายมือเขียนของแต่ละบุคคลจะมีลักษณะที่แตกต่างกันมาก

          อัตราการรู้จำของซอฟต์แวร์ประเภทนี้ขึ้นอยู่กับปัจจัยหลายอย่าง  ได้แก่  คุณภาพของเอกสารที่นำมากราดตรวจ  ระดับความละเอียดในการกราดตรวจ  ฟอนต์ที่ใช้ในเอกสาร  ความซับซ้อนของเอกสาร  ซึ่งโดยทั่วๆ ไป  อัตราการรู้จำที่ผู้ขายระบุมักเป็นอัตราการรู้จำที่ได้  เมื่อสภาพแวดล้อมสมบูรณ์ที่สุด  จึงเป็นการยากที่จะนำอัตราการรู้จำของแต่ละซอฟต์แวร์มาใช้ในการเปรียบเทียบประสิทธิภาพของแต่ละซอฟต์แวร์

          ในปัจจุบันนี้  มีการนำเทคโนโลยีสารสนเทศมาใช้เพื่อช่วยคนกลุ่มพิการมากยิ่งขึ้น  ดังเช่นโครงการเทคโนโลยีสารสนเทศเพื่อคนพิการ  โดยพระราชดำริสมเด็จพระเทพรัตนราชสุดาฯ  สยาม-บรมราชกุมารี  เพื่อให้คนพิการได้มีโอกาสใช้ประโยชน์จากเทคโนโลยีสารสนเทศ  เพื่อการเสริมสร้างโอกาส  ทักษะ  และความรู้ให้มีมากขึ้นระบบไทยโอซีอาร์ก็เป็นเทคโนโลยีสารสนเทศที่สามารถนำมาพัฒนาช่วยให้กลุ่มคนตาบอดได้มีโอกาสอ่านหนังสือทั่วๆ ไปที่ไม่ได้สร้างขึ้นด้วยอักษรเบรลล์ได้  โดยการนำระบบไทยโอซีอาร์มาพัฒนาร่วมกับระบบสังเคราะห์คำพูดไทย  (Thai Speech  Synthesis)  วิธีการใช้งานคือ  นำเอกสารมากราดตรวจผ่านเครื่องกราดตรวจ  และส่งภาพเอกสารเข้าไปยังระบบไทยโอซีอาร์  ซึ่งจะทำให้ได้แฟ้มข้อความออกมา  หลังจากนั้นนำแฟ้มข้อความนี้ส่งเข้าไปเป็นอินพุตแก่ระบบสังเคราะห์คำพูดไทย  ซึ่งจะทำการอ่านคำแต่ละคำ  แล้วเรียบเรียงออกมาเป็นประโยค  กลุ่มคนตาบอดจะสามารถรับทราบข้อมูลในหน้าเอกสารได้  โดยการรับฟังเสียงพูดที่ได้จากระบบสังเคราะห์คำพูดไทยนั่นเอง

          เมื่อเศรษฐกิจตกต่ำ  นักวิชาการหลายท่านกล่าวว่า  เป็นเพราะคนไทยไม่สร้างเทคโนโลยีของตัวเอง  ซอฟต์แวร์ประเภทไทยโอซีอาร์เป็นตัวอย่างหนึ่งของการสร้างเทคโนโลยีขึ้นใช้เองโดยกลุ่มนักวิจัยของคนไทย  นี่คงพอจะเป็นจุดเริ่มต้นที่ดีได้  ในอนาคต  คาดว่าจะมีการพัฒนาซอฟต์แวร์เพื่อใช้ในประเทศ  และส่งออกจำหน่ายในต่างประเทศด้วยฝีมือของคนไทยเพิ่มมากขึ้น

   

  ดูเพิ่มเติมเรื่อง การพัฒนาอักษรไทยในเครื่องคอมพิวเตอร์ เล่ม ๑๑ โครงข่ายประสาทเทียม และการพัฒนาซอฟต์แวร์ เล่ม ๒๕








โปรแกรมรู้จำอักขระไทยด้วยแสง (ไทยโอซีอาร์), โปรแกรมรู้จำอักขระไทยด้วยแสง (ไทยโอซีอาร์) หมายถึง, โปรแกรมรู้จำอักขระไทยด้วยแสง (ไทยโอซีอาร์) คือ, โปรแกรมรู้จำอักขระไทยด้วยแสง (ไทยโอซีอาร์) ความหมาย, โปรแกรมรู้จำอักขระไทยด้วยแสง (ไทยโอซีอาร์) คืออะไร

ร่วมเป็นแฟนเพจเรา บน Facebook..ได้ที่นี่เลย!!

บทความอื่น ของสารานุกรมไทยสำหรับเยาวชนฯ เล่มที่ 25

สารานุกรมเล่มอื่นๆ

คำยอดฮิต

Sanook.commenu