FC2ブログ

gImageReader:Tesseract OCR の GUI 版

2020-04-29 :  PCクリニック
前回(2020-04-22)の記事:
Windows 版 PDFimages を導入」では、

  「PDFimages」で、PDF から PNG に変換して、
  「Tesseract OCR」で、OCR処理を実行する。

と云った手順で、
「PDF」ファイルから「txt」ファイルに変換する方式を確立?した。



更に「Tesseract OCR」で検索していたら、
第577回 Tesseract OCRで文字認識をする:Ubuntu Weekly Recipe
を見つけた。

  今回はオープンソースでマルチプラットフォームのOCRエンジンである
  Tesseract OCRを使用し,読み取り精度を確認してみます。


  Ubuntu で OCR?

  「日本語でOCR」と聞くと,プロプライエタリの牙城というか,高価なソフトを
  購入しないと実用に耐えないというイメージがあるかもしれません。
  あるいはないかもしれませんが,いずれにせよ日本語の文字は難しいので
  OCRで高い精度を出すのはなかなか難しそうに思えます。

  少なくとも筆者はそう考えていたので,OCRで高精度の結果を出すのは困難,
  ましてやオープンソースで……と考えていました。そんなところに,
  Tesseract OCRのバージョン4.0以降では日本語でもかなりの高精度で認識する
  という話を小耳に挟みました。実際に試してみると想定していた以上の結果
  だったので,ここで紹介することにします。


  Tesseract OCRとgImageReader

  Tesseract OCRはOCRエンジンのみです。コマンドラインのフロントエンドも
  用意されていますが,やはりGUIフロントエンドがほしいところです。
  そのようなことを考える人が多いからか,Tesseract OCR自体がマルチプラット
  フォームであることもあり,たくさんのGUIフロントエンドが開発されています。

  そのなかで現在も継続して開発が進んでおり,かつUbuntuのリポジトリにある
  ものということでgImageReaderを選択しました。
  なお,今回はTesseract OCRの精度を確認することを主旨としているため,
  gImageReaderのさまざまな機能には触れません(※1)。

  ※1
  具体的にはLibreOffice Writerの形式(ODT形式)やPDFで保存できたりしますが,
  一部うまく動かないところもありました。

  ・・・・・
  ・・・・・


順番が逆?になるが、gImageReader は Windows で動くのか?

「Windows gImageReader」で検索してみた。

GUIs and Other Projects using Tesseract OCR
の1番目に載っている:
  「A Gtk-Qt front-end to tesseract-ocr

このページの、
  Installation:
の、
  Windows: Download from the releases page
から、
  「gImageReader_3.3.1_qt5_x86_64.exe」 Jul 28 2019 付 32.0MB
をダウンロードした。

早速、例の D:/TOOL/ にインストールした。

そして、
テスト実行用に、E:/ZZZZ/ に、'gImageReader' フォルダを作り、
ここで、「PDF」ファイルから、GUI で、「txt」ファイルに変換してみた。

どうも、1文字ごとに、半角空白が入る様ダ?


もう少し、検証してみよう。


最初に見つけたページ:
第577回 Tesseract OCRで文字認識をする:Ubuntu Weekly Recipe
の他に、
マニュアル・ページ:
gImageReader 3.2.3 Manual
もブックマークした。



本日はここまで。


日本語OCRツールの学習は続く。


見ていただいた序でとは厚かましい限りですが、
お帰りに投票して頂けるとなお嬉しいです。 ⇒

200222
関連記事
スポンサーサイト



コメントの投稿

管理者にだけ表示を許可する

人気blog Ranking



最新記事
カレンダー
07 | 2021/08 | 09
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31 - - - -
月別アーカイブ
カテゴリ
最新コメント
検索フォーム
リンク
プロフィール

<紙>

Author:<紙>
ようこそ。
「パソコンヲタクの雑記帳」
もろもろなことを綴っています。
パソコン ヲタクってねくら?
画像は kami でなく kani です。

FC2 / i2i / Google




Google Analytics
ブックマーク