Công nghệ

Các công nghệ nhận dạng, công nghệ xử lý ảnh của DocPro là thành quả của sự hợp tác giữa các kỹ sư tài năng đến từ nước Nga và Việt Nam, giúp cho DocPro trở thành phần mềm quản lý tài liệu được ưu chuộng nhất

Công nghệ nhận dạng chữ in OCR

Công nghệ nhận dạng chữ in OCR

Công nghệ OCR phép chuyển đổi tài liệu dạng ảnh (các ảnh đầu ra của máy quét, máy ảnh, file PDF dạng ảnh ...) thành tài liệu có thể biên tập được (file text, file Word...), xử lý ngôn ngữ tự nhiên và bóc tách thông tin.Việc áp dụng các công nghệ này vào hệ thống giúp công việc quản lý, biên soạn lại các tài liệu dạng ảnh, tìm kiếm tài liệu trở nên đơn giản và thuận tiện.

Tính năng ưu việt của công nghệ:

- Bóc tách và nhận dạng tự động thông tin: Tài liệu khi đưa lên hệ thống, người dùng chọn lựa loại tài liệu (công văn, báo cáo, quyết định, hoặc 1 số dạng khác …), Tài liệu sau đó được nhận dạng OCR chuyển sang dạng text và tự động bóc tách các trường thông tin cần thiết

- Bóc tách và nhận dạng theo form mẫu do người dùng định nghĩa: Người dùng định nghĩa các vùng cần bóc tách, sau đó lưu lại thành. Khi đưa tài liệu lên hệ thống người dùng chọn mẫu tài liệu tương ứng Sau đó hệ thống sẽ tự động nhận dạng và trích xuất thông tin tại các vùng được đánh dấu trong mẫu

- Bóc tách và nhận dạng trực tiếp trên file tài liệu: Người dùng chọn file cần bóc tách thông tin sau đó lựa chọn vùng ảnh và gán vùng ảnh đó với trường thông tin cụ thể, hệ thống sẽ nhận dạng và tự động đưa vào các trường thông tin tương ứng đó

Công nghệ nhận dạng chữ viết tay ICR

Công nghệ nhận dạng chữ viết tay ICR

Công nghệ nhận dạng chữ viết tay ICR (Intelligent Character Recognition) là bản dịch từ các ký tự viết tay sang dạng văn bản với ký tự mà máy tính có thể đọc được. Công nghệ ICR là sự phát triển ở mức cao hơn từ công nghệ nhận dạng chữ in (OCR). Đối tượng nhận dạng của công nghệ ICR là chữ viết tay và cả chữ in. Công nghệ ICR tương tự như nhận dạng ký tự quang học (OCR) và đôi khi sử dụng kết hợp với OCR trong hình thức xử lý.

Công nghệ nhận dạng chữ viết tay thường được sử dụng trong việc nhận dạng thông tin từ các tài liệu dạng biểu mẫu. Trên các tài liệu dạng này, một số thông tin được điền bằng tay tại các vị trí cố định (tờ khai, phiếu đăng ký, bài kiểm tra, v..v…).

Tính năng ưu việt của công nghệ:

- Chất lượng dữ liệu nhập vào đảm bảo: do thông tin được xử lý bằng công nghệ ICR, nên giảm thiểu sai sót do người nhập tin gây ra, chất lượng dữ liệu tốt hơn nhập tin bằng bàn phím

- Rút ngắn thời gian xử lý dữ liệu so với nhập tin truyền thống

- Có khả năng cung cấp kết quả sớm theo từng phần: với công nghệ ICR, ta có thể chia việc kiểm tra số liệu nhận dạng thành những giai đoạn khác nhau, mỗi giai đoạn chỉ kiểm tra một số trường nhất định. Điều này tạo khả năng cung cấp sớm kết quả theo từng nhóm chỉ tiêu một cách mềm dẻo, hiệu quả

- Giảm bớt chi phí kho/mặt bằng chứa phiếu, kệ/giá chứa phiếu và cả nhân lực quản lý, bảo quản phiếu: Các tập phiếu sau khi quét xong đã được lưu giữ đầy đủ dưới dạng ảnh. Vì thế không nhất thiết phải lưu giữ phiếu một thời gian dài sau khi nhập tin. Ngoài khu vực của máy quét, những người kiểm tra dữ liệu chỉ làm việc với máy tính chứ không cần có các phiếu bên cạnh nên yêu cầu mặt bằng ít hơn, giảm bớt các căng thẳng do thiếu mặt bằng làm việc trong các cuộc tổng điều tra.

Các tập phiếu không phải bàn giao, chuyển tiếp giữa các khâu khác nhau nên không nhất thiết phải tổ chức các kệ /giá chứa phiếu cho dễ tìm kiếm, không phải tổ chức bảo quản phiếu riêng theo từng công đoạn. Nhân công để bảo quản, sắp xếp, bàn giao phiếu cũng giảm bớt đi rất nhiều.

Công nghệ nhận dạng đánh dấu OMR

Công nghệ nhận dạng đánh dấu OMR

Công nghệ nhận dạng đánh dấu OMR (OMR - Optical Mark Recognition): Là công nghệ nhận biết dấu quang học trên trang giấy theo một định dạng nhất định. Công nghệ này có thể xác định các dấu hiệu đặc biệt đã được đánh dấu trên trang giấy tại các vị trí định trước bằng quang học.

Nó cho phép điều khiển một số loại máy quét ảnh, nhập tự động và số hóa các dữ liệu ảnh theo biểu mẫu được thiết kế phù hợp, kiểm tra, điều chỉnh điểm chọn  trực quan trên ảnh quét và kết xuất ra báo cáo dạng text dễ truy nhập vào các phần mềm xử lý dữ liệu khác.

Công nghệ này thường được áp dụng để xử lý các dữ liệu từ phiếu điều tra hay các bài thi trắc nghiệm

Tính năng ưu việt của công nghệ:

- Công nghệ có thể nhận biết các kích cỡ đánh dấu khác nhau với độ chính xác và linh hoạt cao.

- Điều chỉnh hình ảnh được scan để bù lại chất lượng thấp của máy scan

- Sử dụng được với nhiều loại công cụ viết (bút chì, bút bi, bút nhớ,…)

- Dễ dàng kiểm tra lại câu trả lời thông qua việc dùng xóa hoặc đánh dấu với kích cỡ lớn hơn

- Để tránh việc đọc sai hình ảnh, công nghệ OMR đọc dựa trên đánh dấu thời gian nên bù đắp được các lỗi kỹ thuật của máy scan

- Giúp tiết kiệm thời gian và chi phí

Công nghệ nhận dạng văn bản ADRT

Công nghệ nhận dạng văn bản ADRT

ADRT (Adaptive Document Recognition Technology) là một bước tiến lớn trong công nghệ nhận dạng tài liệu

ADRT được dùng để nhận dạng các cấu trúc logic, cách dàn trang cũng như các định dạng khác nhau trong tài liệu nhiều trang, ví dụ như: mục lục, đầu trang, chân trang, chú thích, chú thích bảng, chú thích ảnh, số trang v..v…

Khi kết quả nhận dạng được lưu dưới dạng Microsoft Word, các định dạng trên được nhìn nhận như những đối tượng tương ứng trong Word chứ không đơn thuần chỉ là các khối văn bản. 

Để đạt được tính chính xác trong việc phân tích dàn trang, cấu trúc logic cũng như các định dạng trong tài liệu là do ADRT xem xét và xử lý các tài liệu nhiều trang như là một đối tượng tổng thể chứ không phải là tập hợp các trang riêng biệt. Với công nghệ ADRT, người dùng sẽ không mất, hoặc mất rất ít thời gian cho việc biên tập lại kết quả nhận dạng. 

Hãy dùng thử ngay để trải nghiệm sức mạnh quản trị thông tin, tài liệu của DOCPRO !