OCR là gì?

OCR là viết tắt của Optical Character Recognition, tạm dịch là Nhận dạng ký tự quang học. Đây là công nghệ được áp dụng để nhận dạng ký tự trên định dạng hình ảnh hoặc pdf và chuyển nó thành định dạng file có thể xử lý, như Word, excel, text hoặc nhập trực tiếp vào phần mềm khác. Thường gọi tắt là phần mềm OCR

OCR là công nghệ, nó không phải là một phần mềm độc lập. Nó thường được tích hợp vào các phần mềm khác để nhận dạng ký tự, nhập dữ liệu tự động, chuyển định dạng file

Hiện nay, các phần mềm có ứng dụng OCR được gọi tắt là phần mềm OCR. Xin giới thiệu một số phần mềm OCR phổ biến tại Việt nam

Phần mềm OCR của Abbyy

Abbyy là công ty của Nga, đã giới thiệu công nghệ OCR vào Việt nam từ rất lâu. Bằng các hợp tác với công ty Đông Kinh, họ đã triển khai được khá nhiều dự án về tự động nhận dạng ký tự OCR tại Việt nam. Điểm mạnh trong các giải pháp OCR của Abbyy là chuyển hình ảnh, pdf sang Word, Excel rất tốt. Abbyy đang là công ty số một tại Việt nam về OCR. Sản phẩm nổi tiếng nhất của họ là Abbyy FineReader

công nghệ nhận dạng OCR
Nhận dạng ký tự với Abbyy

Ưu điểm:

  • Hỗ trợ rất nhiều ngôn ngữ
  • Nhận dạng tiếng Việt chữ in khá tốt (có thể lên đến 95%)
  • Chuyển định dạng văn bản, tài liệu sang Word, Excel… rất tốt, các form, bảng biểu đều giữ nguyên được định dạng

Nhược điểm:

  • Các sản phẩm bán lẻ khá đắt, không có miễn phí
  • Tích hợp với các phần mềm thứ ba khá khó khăn do phải đưa về hãng làm
  • Chi phí để tùy chỉnh nhận dạng các loại văn bản đặc thù rất đắt, thời gian lâu
  • Nhận dạng chữ viết tay không tốt

Phần mềm OCR của Nuance

Nuance là công ty của Mỹ, đã giới thiệu công nghệ OCR vào Việt nam từ khoảng năm 2018. Được đánh giá là giải pháp số một về OCR, tuy nhiên, chưa phổ biến ở Việt nam. Một số sản phẩm của Nuance như OmniPage, PaperPort được đánh giá khá tốt. Nuance chưa có dự án OCR được triển khai tại Việt nam

phần mềm ocr, phần mềm ocr miễn phí, phần mềm ocr online, phần mềm ocr tốt nhất, phần mềm ocr tiếng Việt
Nhận dạng văn bản với Nuance

Ưu điểm:

  • Nhận dạng tiếng Việt chữ in khá tốt (có thể lên đến 90%)
  • Chuyển hình ảnh, pdf sang Office rất tốt, các form, bảng biểu đều giữ nguyên được định dạng
  • Có giải pháp nén dữ liệu file pdf để tiết kiệm dung lượng
  • Không miễn phí

Nhược điểm:

  • Chưa được triển khai nhiều tại Việt nam
  • Tích hợp với các phần mềm thứ ba khá khó khăn do phải đưa về hãng làm
  • Chi phí để customzise nhận dạng các loại văn bản rất đắt, thời gian lâu
  • Nhận dạng chữ viết tay kém

Phần mềm OCR miễn phí

Hầu hết các phần mềm OCR miễn phí đều phát triển trên nền tảng OCR mã nguồn mở Tesserct của Google. Nổi tiếng có: FreeOCR, Free-OCR. Tesserct cũng được một số công ty tại Việt nam khai thác, xây dựng nên các sản phẩm OCR của riêng mình.

công nghệ nhận dạng OCR

 

Hầu hết các phần mềm OCR miễn phí đều nhận dạng tiếng Việt kém, kể cả với chữ in. Khi chuyển đổi định dạng thường không giữ được nguyên form, bảng biểu

Ưu điểm:

  • Miễn phí
  • Có thể được sử dụng để phát triển nhận dạng các loại tài liệu theo nhu cầu

Nhược điểm:

  • Chuyển đổi văn bản có bảng biểu chưa tốt
  • Thường có một số giới hạn, như số lần sử dụng, kích thước file xử lý…
  • FreeOCR chỉ nhận dạng được các văn bản đơn giản, tiếng Việt không tốt
  • Nhận dạng chữ viết tay kém



1 COMMENT

LEAVE A REPLY

Please enter your comment!
Please enter your name here