เทคโนโลยี OCR ช่วยพัฒนาการแปลภาษา - ปากกาพจนานุกรม - ข่าว

OCR คืออะไร?

การรู้จำอักขระด้วยแสง (OCR) หมายถึงกระบวนการแปลงรูปภาพข้อความเป็นรูปแบบข้อความที่เครื่องอ่านได้ ตัวอย่างเช่น หากคุณสแกนแบบฟอร์มหรือใบเสร็จรับเงิน คอมพิวเตอร์จะบันทึกการสแกนเป็นไฟล์รูปภาพ คุณไม่สามารถแก้ไข ค้นหา หรือนับข้อความในไฟล์รูปภาพโดยใช้โปรแกรมแก้ไขข้อความ อย่างไรก็ตาม คุณสามารถใช้ OCR เพื่อแปลงรูปภาพเป็นเอกสารข้อความและจัดเก็บเนื้อหาเป็นข้อมูลข้อความได้

png

เหตุใด OCR จึงมีความสำคัญ

เวิร์กโฟลว์ทางธุรกิจส่วนใหญ่เกี่ยวข้องกับการเข้าถึงข้อมูลผ่านสื่อสิ่งพิมพ์ แบบฟอร์มกระดาษ ใบแจ้งหนี้ เอกสารทางกฎหมายที่สแกน และสัญญาที่พิมพ์ออกมาล้วนเป็นส่วนหนึ่งของกระบวนการทางธุรกิจ ต้องใช้เวลาและพื้นที่มากในการจัดเก็บและจัดการเอกสารขนาดใหญ่เหล่านี้ แม้จะมีแนวโน้มไปสู่การจัดการเอกสารแบบไร้กระดาษ แต่การสแกนเอกสารเป็นภาพยังคงเป็นสิ่งที่ท้าทาย กระบวนการนี้ต้องอาศัยการแทรกแซงของมนุษย์ ยุ่งยากและช้า

นอกจากนี้ การแปลงเนื้อหาเอกสารให้เป็นดิจิทัลอาจนำไปสู่ไฟล์รูปภาพที่มีข้อความซ่อนอยู่ โปรแกรมประมวลผลคำไม่สามารถประมวลผลข้อความในรูปภาพได้เช่นเดียวกับเอกสารข้อความ OCR แก้ปัญหานี้ด้วยการแปลงภาพข้อความเป็นข้อมูลข้อความที่สามารถวิเคราะห์ได้โดยซอฟต์แวร์เชิงพาณิชย์อื่นๆ จากนั้นคุณสามารถใช้ข้อมูลเพื่อวิเคราะห์ ปรับปรุงการดำเนินงาน ทำให้กระบวนการอัตโนมัติ และเพิ่มผลผลิต

7d9be6872456af033802d073206010b

OCR ทำงานอย่างไร

การได้มาของภาพ

เครื่องสแกนอ่านเอกสารและแปลงเอกสารเหล่านั้นเป็นข้อมูลไบนารี ซอฟต์แวร์ OCR จะวิเคราะห์รูปภาพที่สแกน โดยจัดประเภทพื้นที่สว่างเป็นพื้นหลัง และพื้นที่มืดเป็นข้อความ

การประมวลผลล่วงหน้า

ก่อนอื่นซอฟต์แวร์ OCR จะทำความสะอาดภาพและลบข้อผิดพลาดในการเตรียมพร้อมสำหรับการอ่าน ต่อไปนี้เป็นเทคนิคการทำความสะอาดบางส่วนที่ใช้:

การแก้ไขออฟเซ็ตเล็กน้อยหรือการเอียงของเอกสารที่สแกนระหว่างการสแกนเพื่อแก้ไขปัญหาการจัดตำแหน่ง

ลบจุดรบกวน ลบจุดออกจากภาพดิจิทัล หรือปรับขอบของภาพข้อความให้เรียบ

ทำความสะอาดเส้นขอบและเส้นในรูปภาพ

การรู้จำสคริปต์ด้วยเทคโนโลยี OCR หลายภาษา

การจดจำข้อความ

อัลกอริทึม OCR หรือกระบวนการซอฟต์แวร์หลักสองประเภทที่ใช้โดยซอฟต์แวร์ OCR สำหรับการจดจำข้อความคือการจับคู่รูปแบบและการดึงคุณสมบัติ

การจับคู่รูปแบบ

การจับคู่รูปแบบจะแยกภาพของอักขระ (เรียกว่าสัญลักษณ์) และเปรียบเทียบกับสัญลักษณ์ที่คล้ายกันที่เก็บไว้ การจับคู่รูปแบบจะทำงานก็ต่อเมื่อสัญลักษณ์ที่เก็บไว้มีแบบอักษรและขนาดใกล้เคียงกับสัญลักษณ์อินพุต วิธีนี้ใช้ได้ดีกับภาพสแกนของเอกสารที่ป้อนด้วยฟอนต์ที่รู้จัก

การสกัดคุณสมบัติ

ฟีเจอร์แยกส่วนหรือแยกย่อยสัญลักษณ์เป็นฟีเจอร์ต่างๆ เช่น เส้น วงปิด การวางแนวเส้น และการโฟกัสเส้น จากนั้นจะใช้คุณสมบัติเหล่านี้เพื่อค้นหาสิ่งที่ดีที่สุดหรือใกล้เคียงที่สุดในบรรดาร่ายมนตร์ที่เก็บไว้ต่างๆ

การประมวลผลภายหลัง

หลังจากการวิเคราะห์ ระบบจะแปลงข้อมูลที่เป็นข้อความที่แยกออกมาให้เป็นไฟล์คอมพิวเตอร์ ระบบ OCR บางระบบสามารถสร้างไฟล์ PDF ที่มีคำอธิบายประกอบด้วยเอกสารที่สแกนเวอร์ชันก่อนและหลังการสแกน