โอซีอาร์เป็นคำย่อของภาษาอังกฤษ คือ "Optical Character Recognition : OCR" แปลเป็นภาษาไทยได้ว่า "การรู้จำอักขระด้วยแสง" ซึ่งเป็นงานประยุกต์งานหนึ่งของสาขาวิทยาการคอมพิวเตอร์ ที่ได้รับความสนใจและพัฒนามานานกว่า ๗๐ ปีแล้ว โอซีอาร์เป็นการรู้จำรูปแบบตัวอักษร ซึ่งเป็นงานวิจัยในสาขาการรู้จำรูปแบบ(Pattern Recognition) เป็นเทคโนโลยีที่ส่งผลให้ระบบคอมพิวเตอร์สามารถระบุรูปแบบได้อย่างถูกต้อง เช่น สามารถบอกได้ว่า ภาพนั้นคือภาพอะไร ตัวอักษรนั้นคือตัวอักษรอะไร หรือเสียงนั้นคือเสียงของคำสั่งอะไร เป็นต้น
นักวิจัยเป็นจำนวนมากมีความสนใจงานโอซีอาร์ เพราะเป็นงานที่เกี่ยวข้องกับเอกสารซึ่งมีปริมาณมากมายมหาศาล การเก็บข้อมูลเหล่านี้ให้เป็นแฟ้มข้อความ (Text File) ไว้ในระบบคอมพิวเตอร์นั้น ต้องใช้บุคลากรในการจัดพิมพ์เอกสารนั้นๆ โดยใช้โปรแกรมพิมพ์และประมวลผลเอกสาร (Word Processing Program)ถึงแม้ว่าโปรแกรมประเภทนี้จะมีความสามารถและเป็นเครื่องมือที่ดี แต่ก็ต้องใช้บุคลากรในการพิมพ์งานซึ่งใช้เวลามากพอสมควร และยังเป็นงานที่จำเจสำหรับบุคลากรอีกด้วย ถ้าโอซีอาร์ประสบความสำเร็จ งานพิมพ์เอกสารต่างๆ เพื่อเก็บเป็นแฟ้มข้อความก็จะกลายเป็นหน้าที่ของระบบคอมพิวเตอร์แทน โดยทั่วไปแล้ว เวลาในการประมวลผลของโอซีอาร์จะเร็วกว่าการพิมพ์ด้วยมนุษย์โดยเฉลี่ยประมาณ ๕ เท่า และในบางระบบงานที่ได้จากโอซีอาร์จะมีความถูกต้องมากกว่า งานที่ได้จากการพิมพ์ของมนุษย์อีกด้วย จึงทำให้งานวิจัยด้านโอซีอาร์ได้รับความนิยมเป็นอย่างมาก
ประเทศไทยเริ่มจะมีงานวิจัยเรื่องโอซีอาร์สำหรับใช้งานกับเอกสารภาษาไทยในระยะเวลาประมาณ ๑๐ ปีที่ผ่านมานี้เท่านั้น และเพื่อความสะดวกในการกล่าวถึงงานวิจัยโอซีอาร์สำหรับภาษาไทย จึงเป็นที่นิยมโดยทั่วไปที่จะเรียกงานวิจัยในสาขานี้ว่า "ไทยโอซีอาร์" ซึ่งมีการทำวิจัยทั้งในหน่วยงานภาครัฐและภาคเอกชน ตัวอย่างการทำวิจัยในสาขานี้ของทางภาครัฐ เช่น สถาบันเทคโนโลยีพระจอมเกล้าเจ้าคุณทหารลาดกระบังโดย ดร. ชม กิ้มปาน สถาบันบัณฑิตพัฒน-บริหารศาสตร์ โดย ดร. พิพัฒน์ หิรัญวนิชกรจุฬาลงกรณ์มหาวิทยาลัย โดย ดร. ชิดชนก เหลือสินทรัพย์ และ ดร. สมชาย จิตตะพันธ์กุล ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติโดย ดร. ทวีศักดิ์ กออนันตกูล และ ดร. จุฬารัตน์ตันประเสริฐ เป็นต้น ส่วนทางภาคเอกชน ได้แก่บริษัทเอเทรียม เทคโนโลยี จำกัด และบริษัทเอ็นเอสที อิเลคทรอนิค พับลิชชิ่ง จำกัด
ซอฟต์แวร์ไทยโอซีอาร์เริ่มออกสู่ตลาดในปี พ.ศ. ๒๕๓๙ จนถึงปี พ.ศ. ๒๕๔๑ ในท้องตลาดมีซอฟต์แวร์ไทยโอซีอาร์อยู่ ๓ ซอฟต์แวร์ด้วยกัน ได้แก่ ซอฟต์แวร์ไทยโอซีอาร์ ของบริษัทเอเทรียม เทคโนโลยี จำกัด ซอฟต์แวร์อ่านไทย โดยความร่วมมือระหว่างศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ กับบริษัท ไทยซอฟท์ จำกัด และซอฟต์แวร์ทีเร็ก(T - rec) โดยบริษัทเอ็นเอสที อิเลคทรอนิคพับลิชชิ่ง จำกัด ความสามารถในการรู้จำของทั้ง ๓ ซอฟต์แวร์ มีความแตกต่างกันไปตามลักษณะของฟอนต์ตัวอักษรไทย และ / หรือลักษณะของเอกสาร ซึ่งในปัจจุบันนี้ถือว่า ความสามารถในการรู้จำของโอซีอาร์อยู่ในระดับพอใช้งานได้ แต่ยังต้องการการพัฒนาปรับปรุงเพิ่มประสิทธิภาพต่อไปอีกในอนาคต
เนื่องจากมีผู้ค้นคว้างานวิจัยไทยโอซีอาร์จำเป็นที่จะต้องมีความรู้และความเข้าใจในภาษาไทยมากพอสมควร งานวิจัยในเรื่องนี้ที่ผ่านมาจึงได้รับการพัฒนาโดยคนไทยทั้งสิ้น อย่างไรก็ตามมีนักศึกษาไทยในระดับปริญญาโทและปริญญาเอกในต่างประเทศทำวิจัยและพัฒนาระบบไทยโอซีอาร์ซึ่งในบางโครงการก็มีอาจารย์ที่ปรึกษาเป็นชาวต่างประเทศ งานวิจัยเรื่องนี้เริ่มขึ้นมาประมาณปีพ.ศ. ๒๕๓๐ โดยส่วนใหญ่เป็นการทำวิจัยในสถาบันการศึกษา ซึ่งได้รับทุนในการค้นคว้าวิจัยจากหน่วยงานภาครัฐบาล ทั้งนี้เพราะทุกฝ่ายเห็นความสำคัญของการมีระบบไทยโอซีอาร์เป็นอย่างยิ่ง
งานวิจัยในสมัยแรกเริ่มนั้นใช้วิธีหลัก ๒วิธี เช่นเดียวกับโอซีอาร์ของภาษาอื่นๆ คือ วิธีการจับคู่แผ่นแบบ (Template Matching Methods) และวิธีการวิเคราะห์โครงสร้าง (Structure Analysis Methods) โดยแบ่งกระบวนการรู้จำ (Recognition Process) เป็น ๒ ระดับ ได้แก่ การแบ่งแยกอย่างหยาบ (Rough Classification) เพื่อจัดกลุ่มตัวอักษรทั้งหมดออกเป็นกลุ่มย่อย และส่งต่อไปยังส่วนการแบ่งแยกอย่างละเอียด (Fine Classification) อีกทอดหนึ่ง เพื่อให้ได้รหัสตัวอักษรออกมา งานวิจัยที่ได้ให้ผลเป็นที่น่าพอใจระดับหนึ่งเท่านั้น เพราะมีข้อจำกัดในการใช้งานค่อนข้างมาก เช่น ข้อจำกัดเรื่องฟอนต์ตัวอักษรไทย ขนาดตัวอักษร และคุณภาพของภาพเอกสารที่ได้จากเครื่องกราดตรวจ (Scanner) เป็นต้น
การทำวิจัยยุคต่อมาในช่วงปี พ.ศ. ๒๕๓๕เป็นต้นมา นักวิจัยเริ่มมองหาแนวทางใหม่ที่จะนำมาใช้เพื่อแก้ปัญหาไทยโอซีอาร์ ซึ่งในยุคนี้เทคโนโลยีด้านฮาร์ดแวร์ของระบบคอมพิวเตอร์ก้าวหน้าไปมาก การประมวลผลข้อมูลปริมาณมากๆ สามารถทำได้ในเวลาอันรวดเร็ว จึงได้มีการนำโครงข่ายประสาทเทียม (Artificial Neural Networks) ซึ่งเป็นเทคโนโลยีใหม่ที่สามารถทำการคำนวณแบบขนานได้ และได้รับความสนใจมากมาใช้กับงานนี้อย่างแพร่หลาย จนกระทั่งประสบผลสำเร็จสามารถผลิตเป็นซอฟต์แวร์ไทยโอซีอาร์ได้
กระบวนการโดยทั่วๆ ไปในการพัฒนาระบบไทยโอซีอาร์ประกอบด้วย
๑. กระบวนการก่อนการประมวลผล (Preprocessing) ใช้ในการเตรียมภาพตัวอักษรให้พร้อมสำหรับขั้นต่อไป กระบวนการที่เกี่ยวข้องด้วย ได้แก่ การทำความสะอาดสิ่งสกปรกบนภาพเอกสาร การตัดภาพเอกสารออกเป็นภาพตัวอักษรกระบวนการทำบาง (Thinning Process) และกระบวนการทำภาพให้ไม่ชัด (Blurring Process) เป็นต้น
๒. กระบวนการรู้จำ (Recognition Process)ซึ่งเป็นหัวใจของระบบไทยโอซีอาร์ ทำหน้าที่อ่าน หรือรู้จำภาพตัวอักษรแต่ละตัว
๓. กระบวนการหลังการประมวลผล (Postprocessing) เป็นการปรับความถูกต้องของการรู้จำให้ดีขึ้น โดยใช้กฎต่างๆ ของหลักภาษาไทย และพจนานุกรมไทยเข้าช่วยตรวจสอบ
ตัวอักษรไทยทั้งหมดประกอบด้วยพยัญชนะ๔๔ ตัว สระ ๓๒ รูป วรรณยุกต์ ๔ รูป เลขไทย ๑๐ ตัว และสัญลักษณ์พิเศษ ๔ ตัว ซึ่งสระรูปประสมจะไม่ถูกนำมาพิจารณาในการรู้จำระบบไทยโอซีอาร์ เนื่องจากไม่มีความจำเป็น เพราะการตัดแยกภาพเอกสารออกเป็นภาพตัวอักษรนั้นอาศัยหลักการการเชื่อมต่อกันของจุดภาพและช่องว่างระหว่างภาพ ซึ่งจะส่งผลให้ภาพสระรูปประสมถูกตัดแยกออกเป็นภาพรูปสระโดด เช่น สระ "โ - ะ" ถูกตัดแยกเป็นภาพสระ "โ" และสระ " ะ " สำหรับกรณีสระ " ะ " นี้ จะถูกตัดแยกเป็นภาพไม้ผัด ๒ รูปแทน ดังนั้น ตัวอักษรไทยที่ควรนำมาศึกษาและทำวิจัยในระบบโอซีอาร์ควรประกอบด้วยพยัญชนะ ๔๔ ตัว สระ ๑๖ ตัววรรณยุกต์ ๔ ตัว เท่านั้น โดยอาจนำสัญลักษณ์พิเศษ
อื่นๆ มาศึกษาร่วมด้วย เช่น ฿, $, + , / เป็นต้นเพราะเอกสารในปัจจุบันมักจะมีการใช้สัญลักษณ์พิเศษเหล่านี้ร่วมด้วย เอกสารในปัจจุบันมีแนว-โน้มที่จะใช้ภาษาไทยร่วมกับภาษาอังกฤษ จึงน่าจะเป็นการเหมาะสมที่จะนำภาษาอังกฤษเข้ามาศึกษาและทำวิจัยในระบบไทยโอซีอาร์ด้วย
ปัจจุบันนี้มีซอฟต์แวร์ประเภทไทยโอซีอาร์สำหรับตัวพิมพ์ไทยและอังกฤษด้วยฝีมือของคนไทยจำหน่ายในท้องตลาดอยู่ ๓ ซอฟต์แวร์ด้วยกัน ได้แก่ ซอฟต์แวร์อ่านไทย ซอฟต์แวร์ไทยโอซีอาร์ และซอฟต์แวร์ทีเร็ก ซึ่งโครงข่ายประสาทเทียมนั้นได้ถูกเลือกใช้ในกระบวนการรู้จำของซอฟต์แวร์อ่านไทยและไทยโอซีอาร์ ส่วนในซอฟต์แวร์ทีเร็กนั้น เลือกใช้การเปรียบเทียบ ลักษณะตัวอักษรในกระบวนการรู้จำ แต่ไทยโอซีอาร์สำหรับรายมือเขียนนั้นยังไม่มีจำหน่าย มี
เพียงงานวิจัยออกมาเป็นระยะๆ คาดว่า คงต้องใช้เวลาอีกนานพอสมควรในการพัฒนาระบบไทยโอซีอาร์สำหรับลายมือเขียน เนื่องจากลายมือเขียนของแต่ละบุคคลจะมีลักษณะที่แตกต่างกันมาก
อัตราการรู้จำของซอฟต์แวร์ประเภทนี้ขึ้นอยู่กับปัจจัยหลายอย่าง ได้แก่ คุณภาพของเอกสารที่นำมากราดตรวจ ระดับความละเอียดในการกราดตรวจ ฟอนต์ที่ใช้ในเอกสาร ความซับซ้อนของเอกสาร ซึ่งโดยทั่วๆ ไป อัตราการรู้จำที่ผู้ขายระบุมักเป็นอัตราการรู้จำที่ได้ เมื่อสภาพแวดล้อมสมบูรณ์ที่สุด จึงเป็นการยากที่จะนำอัตราการรู้จำของแต่ละซอฟต์แวร์มาใช้ในการเปรียบเทียบประสิทธิภาพของแต่ละซอฟต์แวร์
ในปัจจุบันนี้ มีการนำเทคโนโลยีสารสนเทศมาใช้เพื่อช่วยคนกลุ่มพิการมากยิ่งขึ้น ดังเช่นโครงการเทคโนโลยีสารสนเทศเพื่อคนพิการ โดยพระราชดำริสมเด็จพระเทพรัตนราชสุดาฯ สยาม-บรมราชกุมารี เพื่อให้คนพิการได้มีโอกาสใช้ประโยชน์จากเทคโนโลยีสารสนเทศ เพื่อการเสริมสร้างโอกาส ทักษะ และความรู้ให้มีมากขึ้นระบบไทยโอซีอาร์ก็เป็นเทคโนโลยีสารสนเทศที่สามารถนำมาพัฒนาช่วยให้กลุ่มคนตาบอดได้มีโอกาสอ่านหนังสือทั่วๆ ไปที่ไม่ได้สร้างขึ้นด้วยอักษรเบรลล์ได้ โดยการนำระบบไทยโอซีอาร์มาพัฒนาร่วมกับระบบสังเคราะห์คำพูดไทย (Thai Speech Synthesis) วิธีการใช้งานคือ นำเอกสารมากราดตรวจผ่านเครื่องกราดตรวจ และส่งภาพเอกสารเข้าไปยังระบบไทยโอซีอาร์ ซึ่งจะทำให้ได้แฟ้มข้อความออกมา หลังจากนั้นนำแฟ้มข้อความนี้ส่งเข้าไปเป็นอินพุตแก่ระบบสังเคราะห์คำพูดไทย ซึ่งจะทำการอ่านคำแต่ละคำ แล้วเรียบเรียงออกมาเป็นประโยค กลุ่มคนตาบอดจะสามารถรับทราบข้อมูลในหน้าเอกสารได้ โดยการรับฟังเสียงพูดที่ได้จากระบบสังเคราะห์คำพูดไทยนั่นเอง
เมื่อเศรษฐกิจตกต่ำ นักวิชาการหลายท่านกล่าวว่า เป็นเพราะคนไทยไม่สร้างเทคโนโลยีของตัวเอง ซอฟต์แวร์ประเภทไทยโอซีอาร์เป็นตัวอย่างหนึ่งของการสร้างเทคโนโลยีขึ้นใช้เองโดยกลุ่มนักวิจัยของคนไทย นี่คงพอจะเป็นจุดเริ่มต้นที่ดีได้ ในอนาคต คาดว่าจะมีการพัฒนาซอฟต์แวร์เพื่อใช้ในประเทศ และส่งออกจำหน่ายในต่างประเทศด้วยฝีมือของคนไทยเพิ่มมากขึ้น