FC2ブログ

Tesseract OCR:読取革命 Lite より良さそう

2020-04-15 :  PCクリニック
前回(2020-04-08)の記事:
QuickOCR:シンプルな OCR ツール」では、

  ・・・・・
  ・・・・・
  をダウンロードした。

  インストール不要(?)、展開しただけで実行できる。

  まあまあ、使えるかな?
  ・・・・・
  ・・・・・

と書いた。


ところで、このソフトを見つけた、
「k本的に無料ソフト・フリーソフト」の記事には、

  「Capture2Text

もあったので、見に行ってみた。

  日本語も読み取れる OCR ソフト!「Capture2Text」。

  画面内に映っている文字列を、テキストとしてコピーできるようにする OCR 。
  あらゆるアプリケーションウインドウ内に映っている文字列を、クリップボードに
  コピーしたり、ポップアップウインドウ内に送ったりすることができます。

  「Capture2Text」は、画面内のテキストを読み取ってくれる OCR ソフト です。

  マウス操作で囲んだ領域内にあるテキストを、クリップボードに送ってくれる ※1
  というテキスト読み取りツールで、日本語のテキストや縦書きのテキストにも
  対応しているところが大きな特徴。

  ※1 テキストは、“無地背景&はっきりと読み取れるテキスト”でないと、
     まともに読み取ることはできない。
     (文字のサイズが小さくても厳しい)
     そのため、あくまでも(テキストを書き出す際の)補助的なツールとして…


何はともあれ、ダウンロードしてみた:
  「Capture2Text_v4.6.2_64bit.zip」 2017-10-23 付 60.6MB

中には多数のファイルがあるが、(インストールしないで)展開しただけで動いた。

キャプチャは、[Win]+[Q]
認識処理には、若干時間が掛かる
対象範囲を広げると、文字バケが起こる?

認識精度が悪く? 些か操作性も悪い?


ところで、tesseract400.dll が含まれている。

これは、何?

ウィキペディアによると、

  Tesseract(テッセラクト)は光学文字認識のエンジン。

とある。


そこで、
「Tesseract OCR」検索を行った。

Tesseract OCR をWindowsにインストールする方法
が見つかった。

  OCRをPythonで操作できれば大量の紙資料の読み取りも自動化できます。
  特に郵便番号・・・などの番号を読み取る作業は代表的な活用例です。

  普段のオフィスワークではOCRソフトウェアを用いるのが一般的です。
  しかし、こららのソフトウェアはPythonから操作できません。
  そこで、OCRエンジンのみを利用してPythonから操作します。

  代表的なOCRエンジンにGoogleがオープンソースで開発している
  「Tesseract」があります。

  今回はPythonでOCRを操作するための準備として、
  このTesseractをWindowsにインストールする手順を説明します。

  本記事の目次
  ・ Tesseractのダウンロード
  ・ Tesseractのインストール
  ・ OCRの動作テスト
  ・ 次のステップ

  ・・・・・
  ・・・・・

と云うことで、

2020-02-13時点の5.0.0-alphaをダウンロード:
  「tesseract-ocr-w64-setup-v5.0.0-alpha.20191030.exe」 42.3MB

上記の記事に沿って、インストール:
  例によって、D/TOOL/Tesseract-OCR/ にインストール。
そして、
  追加スクリプトデータの選択
  追加言語データの選択


前々回(2020-04-01)の記事:
PDF の文字列がコピー出来ない!
で導入した「PDF Shaper Free」で、PDF から、変換した PNG ファイルを入力して、
OCR処理を実行した。

「読取革命 Lite」よりよさそうダ?



次は、「Tesseract OCR」の学習と、「PyOCR」の導入?



本日はここまで。


日本語OCRツールの学習は続く。


見ていただいた序でとは厚かましい限りですが、
お帰りに投票して頂けるとなお嬉しいです。 ⇒

200213
関連記事
スポンサーサイト



コメントの投稿

管理者にだけ表示を許可する

人気blog Ranking



最新記事
カレンダー
06 | 2021/07 | 08
- - - - 1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
月別アーカイブ
カテゴリ
最新コメント
検索フォーム
リンク
プロフィール

<紙>

Author:<紙>
ようこそ。
「パソコンヲタクの雑記帳」
もろもろなことを綴っています。
パソコン ヲタクってねくら?
画像は kami でなく kani です。

FC2 / i2i / Google




Google Analytics
ブックマーク