Trích xuất văn bản trong tài liệu thì bạn có thể dùng Snipping Tool để chụp hình và thực hiện. Nhưng nếu bạn muốn trích xuất văn bản trong một tài liệu hàng trăm trang thì sao? OCR Scanner with LEADTOOLS SDK có thể giúp bạn. Công cụ này không hỗ trợ tiếng Việt nhưng nó lại hữu ích khi bạn cần sao chép văn bản trong một file tài liệu như PDF, Docx/Doc nhanh chóng.
OCR Scanner with LEADTOOLS SDK hiện đã có sẵn trên Microsoft Store, bạn vào đây hay theo liên kết bên dưới > bấm Install > Get để cài đặt.
Mở OCR Scanner with LEADTOOLS SDK, bạn làm theo như sau để thực hiện trích xuất văn bản trong tài liệu.
Bước 1: Bạn bấm nút dấu cộng > Add để chọn các tập tin tài liệu (pdf, docx, doc).
OCR Scanner with LEADTOOLS SDK sẽ hiển thị từng trang của file tài liệu để bạn duyệt xem hay gỡ bỏ bớt khi thực hiện trích xuất hàng loạt.
Bước 2: Bạn sử dụng các công cụ có sẵn để chỉnh sửa thêm.
– 3D Deskew: Hiển thị khung viền chọn vùng văn bản muốn trích xuất hoặc bạn có thể bấm biểu tượng ngón tay để kích hoạt.
– Invert: Đổi màu nền và phông chữ của trang, thí dụ trang có màu nền trắng và phông chữ màu đen thì nó sẽ đổi thành nền đen, chữ trắng.
– Rotate: Nếu trang tài liệu nằm theo chiều khó nhìn thì bạn sử dụng tính năng để điều chỉnh lại.
Bước 3: Bạn bấm nút OCR và chọn.
– Extract text from current page: Trích xuất văn bản từ trang gần đây.
– OCR current page to PDF: Nhận dạng ký tự quang học trang gần đây sang PDF.
– OCR all pages to PDF: Nhận dạng ký tự quang học cho toàn bộ trang sang PDF
– Change output format: Định dạng lưu mặc định là PDF, bạn có thể thay đổi sang nhiều thể loại PDF khác, Doc, RTF, Txt.
Bước 4: Trong giao diện Extracted Results, bạn xem lại kết quả trích xuất, sao chép, nghe đọc hay chia sẻ.
Ứng dụng không hỗ trợ lưu cho nên bạn có thể dùng sao chép và lưu vào file nào đó hoặc bấm biểu tượng chia sẻ > đặt tên và gửi vào hộp thư của mình để lưu.
Lưu ý: Việc trích xuất cùng lúc hàng trăm trang tiêu tốn nhiều tài nguyên máy tính.