文字識別工具OCR

什麼是OCR (Optical Character Recognition)?

簡單的說它是一個文字識別的工具, 也就是它可將圖片上的文字(screen capture or scanned images)轉換成可編輯的文字, 節省打字的時間。

Google docs推出OCR的功能, 重灌狂人詳細介紹了操作方法

不過它似乎只適用於中文windows的環境下。測試了英文版Windows XP or Vista, 它無法識別中文字, 即使將Google docs的語言選項, 設定為中文, 它仍無法顯示中文字。

2009年連老師介紹過JCOR和它的用法. Office 2003, 及2007也都附送了OCR。

英文Window XP + Office 2003的環境下, 必需加裝"Microsoft Office 2003 Multilingual User Interface Pack", 只要有了Chinese Traditional MUI, 則JOCR就不會出現bad language加上【在Office Tools → Microsoft Office Document Imaging → Tools → Options → OCR Language】的錯誤信息。on

jocr err msgs

雖然錯誤信息解決了, 但自OCR轉出文字卻送到了notepad中, 只剩一串串的問號. 可能整個系統可能也要換成中文才行。(not an option for me) 不知道怎麼將轉出的文字送到wordpad或word上去。

怎麼才能讓notepad的default encoding變成utf-8? 搜尋的結果是無解, notepad沒有這樣的選擇。它只能在存檔時, 選擇要存utf-8.

Free ocr提供線上轉換的功能, 語言的選擇也很多, 不幸的事是沒有中文服務。 :-(

COCR2是一個中文的辨識小工具, 但是它的使用方式太辛苦了些, 得先調整方塊的大小, 然後逐字辨認, 還會有辨認不出時, 還不如我重打來得快呢!

在PDF檔案中的圖片怎麼轉成可編輯的字呢? 免費的pdfocr只能轉英文的部分, 無法轉中文字。

目前還沒有找到能在英文windows下操作, 免費又好的中文字識別工具。只能說Acrobat professional的中文識別能力, 非常強大。

2015-05
免費線上文字識別/圖轉字的工具, Online OCR轉出來的結果還不錯。

No comments :