OCR คืออะไร?
การรู้จำอักขระด้วยแสง (OCR) หมายถึงกระบวนการแปลงรูปภาพข้อความเป็นรูปแบบข้อความที่เครื่องอ่านได้ ตัวอย่างเช่น หากคุณสแกนแบบฟอร์มหรือใบเสร็จรับเงิน คอมพิวเตอร์จะบันทึกการสแกนเป็นไฟล์รูปภาพ คุณไม่สามารถแก้ไข ค้นหา หรือนับข้อความในไฟล์รูปภาพโดยใช้โปรแกรมแก้ไขข้อความ อย่างไรก็ตาม คุณสามารถใช้ OCR เพื่อแปลงรูปภาพเป็นเอกสารข้อความและจัดเก็บเนื้อหาเป็นข้อมูลข้อความได้

เหตุใด OCR จึงมีความสำคัญ
เวิร์กโฟลว์ทางธุรกิจส่วนใหญ่เกี่ยวข้องกับการเข้าถึงข้อมูลผ่านสื่อสิ่งพิมพ์ แบบฟอร์มกระดาษ ใบแจ้งหนี้ เอกสารทางกฎหมายที่สแกน และสัญญาที่พิมพ์ออกมาล้วนเป็นส่วนหนึ่งของกระบวนการทางธุรกิจ ต้องใช้เวลาและพื้นที่มากในการจัดเก็บและจัดการเอกสารขนาดใหญ่เหล่านี้ แม้จะมีแนวโน้มไปสู่การจัดการเอกสารแบบไร้กระดาษ แต่การสแกนเอกสารเป็นภาพยังคงเป็นสิ่งที่ท้าทาย กระบวนการนี้ต้องอาศัยการแทรกแซงของมนุษย์ ยุ่งยากและช้า
นอกจากนี้ การแปลงเนื้อหาเอกสารให้เป็นดิจิทัลอาจนำไปสู่ไฟล์รูปภาพที่มีข้อความซ่อนอยู่ โปรแกรมประมวลผลคำไม่สามารถประมวลผลข้อความในรูปภาพได้เช่นเดียวกับเอกสารข้อความ OCR แก้ปัญหานี้ด้วยการแปลงภาพข้อความเป็นข้อมูลข้อความที่สามารถวิเคราะห์ได้โดยซอฟต์แวร์เชิงพาณิชย์อื่นๆ จากนั้นคุณสามารถใช้ข้อมูลเพื่อวิเคราะห์ ปรับปรุงการดำเนินงาน ทำให้กระบวนการอัตโนมัติ และเพิ่มผลผลิต

OCR ทำงานอย่างไร
การได้มาของภาพ
เครื่องสแกนอ่านเอกสารและแปลงเอกสารเหล่านั้นเป็นข้อมูลไบนารี ซอฟต์แวร์ OCR จะวิเคราะห์รูปภาพที่สแกน โดยจัดประเภทพื้นที่สว่างเป็นพื้นหลัง และพื้นที่มืดเป็นข้อความ
การประมวลผลล่วงหน้า
ก่อนอื่นซอฟต์แวร์ OCR จะทำความสะอาดภาพและลบข้อผิดพลาดในการเตรียมพร้อมสำหรับการอ่าน ต่อไปนี้เป็นเทคนิคการทำความสะอาดบางส่วนที่ใช้:
การแก้ไขออฟเซ็ตเล็กน้อยหรือการเอียงของเอกสารที่สแกนระหว่างการสแกนเพื่อแก้ไขปัญหาการจัดตำแหน่ง
ลบจุดรบกวน ลบจุดออกจากภาพดิจิทัล หรือปรับขอบของภาพข้อความให้เรียบ
ทำความสะอาดเส้นขอบและเส้นในรูปภาพ
การรู้จำสคริปต์ด้วยเทคโนโลยี OCR หลายภาษา
การจดจำข้อความ
อัลกอริทึม OCR หรือกระบวนการซอฟต์แวร์หลักสองประเภทที่ใช้โดยซอฟต์แวร์ OCR สำหรับการจดจำข้อความคือการจับคู่รูปแบบและการดึงคุณสมบัติ
การจับคู่รูปแบบ
การจับคู่รูปแบบจะแยกภาพของอักขระ (เรียกว่าสัญลักษณ์) และเปรียบเทียบกับสัญลักษณ์ที่คล้ายกันที่เก็บไว้ การจับคู่รูปแบบจะทำงานก็ต่อเมื่อสัญลักษณ์ที่เก็บไว้มีแบบอักษรและขนาดใกล้เคียงกับสัญลักษณ์อินพุต วิธีนี้ใช้ได้ดีกับภาพสแกนของเอกสารที่ป้อนด้วยฟอนต์ที่รู้จัก
การสกัดคุณสมบัติ
ฟีเจอร์แยกส่วนหรือแยกย่อยสัญลักษณ์เป็นฟีเจอร์ต่างๆ เช่น เส้น วงปิด การวางแนวเส้น และการโฟกัสเส้น จากนั้นจะใช้คุณสมบัติเหล่านี้เพื่อค้นหาสิ่งที่ดีที่สุดหรือใกล้เคียงที่สุดในบรรดาร่ายมนตร์ที่เก็บไว้ต่างๆ
การประมวลผลภายหลัง
หลังจากการวิเคราะห์ ระบบจะแปลงข้อมูลที่เป็นข้อความที่แยกออกมาให้เป็นไฟล์คอมพิวเตอร์ ระบบ OCR บางระบบสามารถสร้างไฟล์ PDF ที่มีคำอธิบายประกอบด้วยเอกสารที่สแกนเวอร์ชันก่อนและหลังการสแกน


