OCR là gì?

OCR là viết tắt của Optical Character Recognition, tạm dịch là Nhận dạng ký tự quang học. Đây là công nghệ được áp dụng để nhận dạng ký tự từ dạng hình ảnh hoặc pdf và chuyển nó thành định dạng file có thể xử lý, như Word, excel, text hoặc nhập trực tiếp vào phần mềm khác.

OCR là công nghệ, không phải là một phần mềm độc lập. Nó thường được tích hợp vào các phần mềm khác

Như khi chúng ta có một file hình ảnh, chúng ta sẽ không chọn được text, chỉ có thể gõ lại thủ công. Khi ứng dụng OCR, phần mềm có OCR sẽ tự động nhận các ký tự để có thể xử lý cho chúng ta

công nghệ nhận dạng OCR

Cài đặt OCR

OCR thường được cài đặt như một dịch vụ kèm theo phần mềm, cài đặt trực tiếp trên máy chủ, tích hợp vào phần cứng (cụ thể là máy Scanner) hoặc được thiết lập như một dịch vụ trực tuyến. Sau khi nhận dạng tự động, OCR sẽ trả dữ liệu về.

OCR để làm gì?

OCR là một công nghệ, hiện nay nó thường được sử dụng để thực hiện một số công việc sau:

  • Chuyển định dạng văn bản: thường là chuyển đổi pdf, hình ảnh sang word, excel
  • Trích xuất thông tin: nhận dạng ký tự trên tài liệu, lấy các trường thông tin theo yêu cầu
  • Nhập liệu tự động: nhập thông tin chỉ định từ tài liệu cứng/mềm vào phần mềm

Tỷ lệ nhận dạng ký tự OCR

Các chương trình OCR có thể đạt tỷ lệ chính xác trên 90% đối với chất lượng hình ảnh rõ nét và font chữ thông thường. Đối với nhận dạng chữ viết tay thì kết quả cho ra không cao, chỉ đạt dưới 30%.

Đối với nhận dạng tiếng Việt thì tỷ lệ phần trăm chính xác khoảng 80%. Nếu tập trung OCR cho dạng văn bản cụ thể, tỷ lệ sẽ cao hơn, khoảng trên 90%

Cùng với AI, chất lượng công nghệ OCR ngày càng được cải thiện nhiều hơn. Văn bản nghiêng, lệch, chất lượng kém đều có thể sửa, riêng chữ viết tay thì gần như không thể

Một số ứng dụng OCR tại Việt Nam

Như hình ảnh trên, OCR được ứng dụng để bóc tách các trường thông tin chỉ định. Nó thậm chí có thể bóc tách cụm con dấu và chữ ký

OCR được ứng dụng rất rộng rãi trong ngành ngân hàng, bảo hiểm, tài chính, nhà nước. Hầu hết đều áp dụng OCR vào để tự động nhập dữ liệu. OCR sẽ tiết kiệm rất nhiều thời gian, công sức để nhập dữ liệu. Sau đây là các ứng dụng của OCR tại Việt nam đang được triển khai hiện nay:

  • Trích xuất dữ liệu chứng minh thư, hộ chiếu
  • Nhận dạng bằng lái xe, đăng ký xe, bảo hiểm xe
  • Nhập dữ liệu tự động phiếu khám chữa bệnh, phiếu trả kết quả
  • Bóc tách thông tin trong các văn bản nhà nước như: quyết định, tờ trình, công văn…
  • Trích xuất thông tin sổ đỏ, hộ khẩu, đăng ký kinh doanh
  • Nhận dạng ký tự từ các tài liệu để phục vụ số hóa
nhận dạng ký tự OCR, phần mềm OCR
Một số ứng dụng của OCR

Trong thời chuyển đổi số hóa hiện nay, OCR đặc biệt quan trọng trong việc nhập dữ liệu từ các tài liệu cũ của nhà nước để phục vụ số hóa. Với số lượng khổng lồ về tài liệu cũ, nếu không có OCR, việc nhập dữ liệu sẽ cực kỳ tốn thời gian và nhân lực. Các dự án số hóa hay phần mềm quản lý văn bản hiện nay đều áp dụng công nghệ OCR