ความมุ่งหวังที่จะให้คอมพิวเตอร์สามารถประมวลผลภาษาไทยได้อย่างมีประสิทธิภาพนั้นมีปัญหาเบื้องต้นคือ ลักษณะการเขียนภาษาไทยจะเขียนติดต่อกันเป็นสายอักขระ โดยไม่มีเครื่องหมายวรรคตอนแสดงการแบ่งคำดังเช่นภาษาอังกฤษ ซึ่งเป็นอุปสรรคอย่างหนึ่งที่ต้องการการศึกษาวิจัยและพัฒนา เพื่อให้คอมพิวเตอร์สามารถคำนวณ เพื่อแบ่งสายอักขระไทยออกเป็นคำๆ ซึ่งจะส่งผลให้การทำงานของคอมพิวเตอร์ในการค้นหาคำใดๆ ทำได้อย่างถูกต้องและแม่นยำรวมถึงการจัดขอบขวาในโปรแกรมประมวลผลคำ(Word processor) เป็นต้น
ทำไมคอมพิวเตอร์ต้องรู้จักคำในภาษาไทย
ปัจจุบันนี้ มีการนำคอมพิวเตอร์เข้าไปใช้งานในด้านต่างๆ เป็นจำนวนมาก งานทางด้าน จัดการกับภาษาไทย ได้แก่ การแปลงข้อความเป็นเสียง (Text - To - Speech) การตรวจตัวสะกด(Spell checking) การแปลภาษาด้วยเครื่องคอมพิวเตอร์ (Machine Translation) ฯลฯ ก็เป็นงานอีกด้านหนึ่งที่ได้นำคอมพิวเตอร์เข้าไปช่วยในการทำงาน สิ่งแรกที่จะต้องจัดการคือ ต้องทำให้คอมพิวเตอร์รู้จักคำในภาษาไทยให้ได้ เช่น ถ้ามีข้อความว่า"ฉันนั่งตากลมที่หน้าบ้าน" จะต้องทำให้คอมพิวเตอร์รู้ว่าเป็น"ฉัน นั่ง ตาก ลม ที่ หน้า บ้าน" ไม่ใช่ "ฉัน นั่ง ตา กลม ที่ หน้า บ้าน"ลักษณะการเขียนภาษาไทยนั้น จะเขียนติดต่อกัน โดยไม่มีเครื่องหมายวรรคตอนคั่นระหว่างคำดังเช่นในภาษาอังกฤษ ซึ่งใช้ช่องว่าง(Space) คั่นระหว่างคำ จึงทำให้การโปรแกรมให้คอมพิวเตอร์รู้จักคำในภาษาไทยนั้นมีความยุ่งยากกว่าในภาษาอังกฤษดังนั้น เราจึงได้พัฒนาและค้นหาวิธีการต่างๆ ที่จะช่วยให้คอมพิวเตอร์รู้จักคำในภาษาไทยซึ่งในปัจจุบันก็มีอยู่หลายแนวคิด เช่น
๒. วิธีการตัดคำแบบสอดคล้องมากที่สุด(Maximal Matching)
วิธีการตัดคำแบบนี้เป็นการหาวิธีในการตัดคำที่สามารถจะเป็นไปได้ทั้งหมด เช่น เมื่อมีข้อความว่า "ไปหามเหสี" ก็จะตัดคำได้ ๒ แบบ คือ
๑. ไป หาม เห สี
๒. ไป หา มเหสี
วิธีการนี้จะให้เลือกข้อความที่แบ่งแล้วมีจำนวนคำน้อยที่สุดคือ แบบที่ ๒ ซึ่งมีจำนวนคำที่ตัดได้ ๓ คำ ในขณะที่แบบที่ ๑ มี ๔ คำ ส่วนในกรณีที่มีจำนวนคำที่เท่ากัน เราก็จะใช้วิธีการตัดคำแบบยาวที่สุด (Longest Matching) เข้ามาช่วย เช่น ข้อความว่า "ฉันนั่งตากลมที่หน้าบ้าน"ซึ่งจะสามารถแบ่งคำได้ ๒ แบบ คือ
๑. ฉัน นั่ง ตาก ลม ที่ หน้า บ้าน
๒. ฉัน นั่ง ตา กลม ที่ หน้า บ้าน
ทั้ง ๒ แบบมีจำนวนคำที่เท่ากัน จึงเลือกแบบที่ ๑ โดยเปรียบเทียบจากคำที่ต่างกันที่ตัดได้นั้น (ตา / ตาก) จะเห็นได้ว่า ตากมีตัวอักษรมากกว่า