Cách Chuyển Hình Ảnh Thành Văn Bản (OCR Miễn Phí, Không Tải Lên)

Đừng gõ lại văn bản bị kẹt trong ảnh chụp màn hình, ảnh chụp hay bản quét. Đây là cách trích xuất chữ từ mọi hình ảnh bằng OCR — chính xác, với 12 ngôn ngữ và hoàn toàn trong trình duyệt của bạn.

Cập nhật 25 tháng 6, 2026

Đừng gõ lại văn bản từ một bức ảnh

Bạn có một ảnh chụp màn hình của một địa chỉ, một bức ảnh hóa đơn, hay một trang đã quét — và thứ duy nhất bạn thực sự cần là văn bản bên trong nó. Không có OCR, lựa chọn duy nhất là nheo mắt nhìn hình ảnh và gõ lại từng chữ bằng tay, việc này chậm và dễ sai ở những con số dài hay cách viết lạ lẫm.

Nhận dạng ký tự quang học làm việc đó thay bạn. Thả vào một hình ảnh, và nó đọc các ký tự ra thành văn bản có thể chỉnh sửa mà bạn có thể sao chép, tìm kiếm và dán bất cứ đâu. Không gõ lại, không dịch vụ chép lại, và không tài khoản.

OCR thực sự làm gì

OCR — nhận dạng ký tự quang học — biến bức ảnh của văn bản thành văn bản thật. Màn hình của bạn hiển thị chữ cái theo cả hai cách, nhưng với máy tính thì một hình ảnh chỉ là các điểm ảnh màu; các chữ không thể chọn hay tìm kiếm được cho đến khi có thứ gì đó nhận ra các hình dạng là ký tự. OCR chính là bước đó: nó định vị các vùng văn bản trong một hình ảnh, đối chiếu các hình dạng với bộ ký tự của một ngôn ngữ, và xuất ra một chuỗi mà bạn có thể chỉnh sửa.

Đó cũng là công nghệ đứng sau các tính năng "chọn văn bản trong ảnh", tìm kiếm tài liệu quét và số hóa sách cũ. Công cụ Nhận Dạng Văn Bản OCR chạy nó trên bất kỳ hình ảnh nào bạn đưa vào — một PNG, JPG, ảnh chụp màn hình hay ảnh chụp — và trả lại các chữ cùng với điểm tin cậy để bạn biết nó chắc chắn đến mức nào.

Ba bước để trích xuất văn bản từ một hình ảnh

  1. Mở hình ảnh. Thả ảnh chụp màn hình, ảnh chụp hay bản quét của bạn vào công cụ Nhận Dạng Văn Bản OCR. Nó được đọc cục bộ, nên hình ảnh không bao giờ được tải lên — ngay cả trước khi nhận dạng bắt đầu.
  2. Chọn ngôn ngữ và nhận dạng. Chọn ngôn ngữ của văn bản trong hình ảnh để bộ máy tải đúng bộ ký tự, rồi nhấp Nhận Dạng Văn Bản. Công cụ quét hình ảnh và trả về các chữ đã trích xuất cùng với điểm tin cậy phản ánh việc đọc sạch đến mức nào.
  3. Sao chép văn bản. Lấy văn bản đã nhận dạng và dán vào tài liệu, email, bảng tính hay ghi chú của bạn. Đó là toàn bộ quy trình — không có bước xuất, không có hình mờ, không cần đăng nhập.

Lần chạy đầu tiên cho một ngôn ngữ nhất định tải mô hình của nó một lần; sau đó việc nhận dạng nhanh và hoạt động ngay cả khi ngoại tuyến.

Cách nhận kết quả sạch và chính xác

Độ chính xác của OCR chủ yếu nằm ở hình ảnh bạn đưa vào, không phải ở công cụ. Một vài thói quen tạo ra khác biệt lớn:

  • Dùng hình ảnh sắc nét nhất bạn có. Độ phân giải cao hơn nghĩa là hình dạng ký tự rõ hơn. Một ảnh chụp màn hình trực tiếp tốt hơn ảnh chụp một màn hình; một bản quét máy quét phẳng vượt trội so với một bức ảnh chụp tay.
  • Tối đa hóa tương phản. Chữ tối trên nền sáng đọc tốt nhất. Tránh ánh sáng chói, bóng đổ và nền rối phía sau văn bản.
  • Làm thẳng. Cắt sát văn bản và xoay sao cho các dòng nằm ngang — văn bản nghiêng hay bị xoay làm khó việc nhận dạng.
  • Khớp ngôn ngữ. Chọn sai ngôn ngữ buộc bộ máy phải đoán bằng bộ ký tự sai. Điều này quan trọng nhất với các hệ chữ viết không phải Latinh.

Văn bản in được nhận dạng đáng tin cậy hơn nhiều so với chữ viết tay. Nếu một kết quả trả về lộn xộn, một phiên bản sạch hơn, tương phản cao hơn của cùng hình ảnh đó thường sẽ khắc phục.

Công cụ bao gồm mười hai ngôn ngữ trên nhiều hệ chữ viết — tiếng Anh, tiếng Trung Giản thể và Phồn thể, tiếng Nhật, tiếng Hàn, tiếng Tây Ban Nha, tiếng Pháp, tiếng Đức, tiếng Bồ Đào Nha, tiếng Ả Rập, tiếng Nga và tiếng Hindi — nên nó xử lý được văn bản Latinh, CJK, Ả Rập, Kirin và Devanagari, không chỉ tiếng Anh.

Tại sao nên chạy OCR trong trình duyệt của bạn

Những hình ảnh bạn muốn chuyển thành văn bản nhất thường là riêng tư nhất: một giấy tờ tùy thân đã quét, một phiếu lương, một thư y tế, một hóa đơn có số thẻ của bạn, một ảnh chụp màn hình cuộc trò chuyện riêng tư. Tải chúng lên một dịch vụ OCR đám mây có nghĩa là giao bản gốc cho một máy chủ bạn không kiểm soát.

Một công cụ dựa trên trình duyệt tránh được điều đó hoàn toàn. Việc nhận dạng chạy trên tesseract.js, một bộ máy OCR WebAssembly thực thi bên trong trang; mô hình ngôn ngữ được tải xuống một lần và lưu vào bộ nhớ đệm, còn hình ảnh của bạn được xử lý ngay trên thiết bị của bạn. Không có gì được truyền đi trong quá trình nhận dạng, và một khi mô hình đã được lưu đệm thì nó tiếp tục hoạt động ngoại tuyến. Cùng một logic riêng tư đó chạy xuyên suốt phần còn lại của một quy trình tài liệu — trích xuất văn bản từ một hình ảnh, rồi một PDF, rồi dọn dẹp nó: nếu tệp không bao giờ rời khỏi máy bạn, thì chẳng có gì để rò rỉ.

Danh sách kiểm tra nhanh

  • Thả hình ảnh vào công cụ — nó được đọc cục bộ, không tải lên.
  • Dùng phiên bản sắc nét nhất, tương phản cao nhất bạn có.
  • Chọn ngôn ngữ khớp với văn bản trước khi nhận dạng.
  • Nhấp Nhận Dạng Văn Bản và kiểm tra điểm tin cậy.
  • Sao chép kết quả — và nhớ rằng tất cả đã diễn ra trên thiết bị của bạn.

Các bước nhanh

  1. 1Mở công cụ Nhận Dạng Văn Bản OCR và thả hình ảnh của bạn vào. Không có gì được tải lên — hình ảnh được đọc cục bộ trong trình duyệt của bạn.
  2. 2Chọn ngôn ngữ của văn bản trong hình ảnh, rồi nhấp Nhận Dạng Văn Bản. Công cụ quét hình ảnh và trả về các chữ cùng với điểm tin cậy.
  3. 3Sao chép văn bản đã trích xuất và dán vào bất cứ nơi nào bạn cần. Hình ảnh không bao giờ rời khỏi thiết bị của bạn, nên ngay cả ảnh chụp màn hình của một tài liệu riêng tư cũng nằm yên trên máy bạn.

Câu hỏi thường gặp

OCR hoạt động tốt nhất với hình ảnh rõ nét, tương phản cao của văn bản in: ảnh chụp màn hình, tài liệu quét, hóa đơn, trang sách, slide và ảnh chụp biển hiệu hay nhãn. Hình ảnh sắc nét, đủ sáng với chữ thẳng, tối trên nền sáng cho kết quả chính xác nhất. Phông chữ cách điệu, độ phân giải thấp, ánh sáng chói và chữ viết tay khó hơn và có thể cần một hình ảnh sạch hơn.

Mười hai ngôn ngữ trên nhiều hệ chữ viết — tiếng Anh, tiếng Trung Giản thể và Phồn thể, tiếng Nhật, tiếng Hàn, tiếng Tây Ban Nha, tiếng Pháp, tiếng Đức, tiếng Bồ Đào Nha, tiếng Ả Rập, tiếng Nga và tiếng Hindi. Hãy chọn ngôn ngữ khớp với văn bản trong hình ảnh trước khi chạy nhận dạng để bộ máy dùng đúng bộ ký tự.

Độ chính xác gần như hoàn toàn phụ thuộc vào hình ảnh. Một bản quét sắc nét của văn bản in được nhận dạng rất đáng tin cậy; một ảnh chụp điện thoại bị mờ hay một hóa đơn mờ nhạt thì khó hơn. Công cụ hiển thị điểm tin cậy với mỗi kết quả, và bạn luôn có thể cải thiện độ chính xác bằng cách dùng hình ảnh sắc nét hơn, tương phản cao hơn.

Không. Việc nhận dạng chạy trên tesseract.js, một bộ máy OCR WebAssembly hoạt động bên trong trình duyệt của bạn. Mô hình ngôn ngữ được tải xuống một lần và lưu vào bộ nhớ đệm, còn hình ảnh của bạn được xử lý cục bộ — không có gì được gửi đến máy chủ, nên các tài liệu riêng tư như giấy tờ tùy thân, hóa đơn và hồ sơ y tế hay tài chính vẫn nằm trên thiết bị của bạn.

Công cụ dùng trong hướng dẫn này