フォルダ内の画像の文字を一括でまとめて読み取って文字起こしするツールを作った

つぶやき

最近何かとPDF上のテキストがデータとして必要になったり、画像の文字が必要になったりしているます。 もしかして、自分と同じ業界の人は案外同じことで悩んでいるのかも?思い作ってみました。 Pythonを使用して作りました。

文字起こしの使用例

例えば、こんな画像を用意します。

引用元:https://www.kulhaiya.com/manoranjan-film/machli-jal-ki-rani-hai

これはインドでは超の付くほど有名なポエムです。この画像の文字を起こしたいので、適当なフォルダにぶち込みます。 取り合えず、ソフトをダブルクリックで立ち上げてみます。 立ち上がりが遅いのでしばらく(30秒くらい?)こんな黒い画面が出ていますが、気長に待ってください。 画面が立ち上がったら、読み取りたい画像に書いてある言葉を選択します。 今回はヒンディー語なので「02‗ヒンディー語 / Hindi」を選択。 上から二つ目の枠に、読み込みたい画像ファイルの入っているフォルダパスを記入します。以下の感じで記入してください。 読み取り言語とファイルパスを記入したら、実行を押します。すると結果が出てきます。 いい感じ! しかも結果は一応コピペできます。

フォルダ内の複数の画像から一括で文字起こし

本題はこちら。 ウェブにある文字起こしツールは一枚一枚のものが多くて面倒くさい。 また、私はPDFからWord文書とかに変換してくれるソフトできれいに変換できなかった時にこのツールを使う予定なので、PDFのような枚数の多いものでちゃんと動かないと意味がありません。 今回は⼀般社団法⼈ ⽇本環境感染学会がネットで公開している、「医療機関における新型コロナウイルス感染症への対応ガイド 第 3 版」というPDFを使ってみたいと思います。 このPDFの出典:http://www.kankyokansen.org/uploads/uploads/files/jsipc/COVID-19_taioguide3.pdf 1.ILovePDFとかで、PDFをJPG変換する 画像なら何でもいいから、最悪手作業でスクショもあり。やりたくはないけどね。 で、ILovePDFでPDFからJPGに変換すると以下のようにZIPファイルに1ページずつ入った状態でダウンロードできます。 画像を適当なフォルダに移して、そのフォルダのファイルパスをさっきのファイルパス欄に記入します。 ちなみに、このフォルダ内の画像の文字をすべて書き出すので、ほかの画像が入っていると、それも読み込んでしまいます。 実行を押すと文章が読み込まれていきます。 ちなみに、そこそこ分量があったので、少し時間がかかりました。 一番最初のページだけ、とか一番最後のページだけ、とかでなくきちんと全部読まれています! やった~! とまあ、個人的には結構便利だとは思いますので、是非皆さん使ってみてください。 ただ、初めてデスクトップアプリの作成をしてみて結構いい出来だと思うので、是非利用してください。

対応言語

00_日本語 / Japanese
01_英語 / English
02_ヒンディー語 / Hindi
03_韓国語 / Korea
04_中国語(simple) / Chinese (simple)
05_中国語(traditional) / Chinese (traditional)
06_アッサム語 / Assamese
07_ウルドゥー語 / Urdu
08_カンナダ語 / Kannada
09_グジャラート語 / Gujarati
010_シンハラ語 / Sinhala
011_タミル語 / Tamil
012_テルグ語 / Telugu
013_パンジャーブ語 / Punjabi
014_マラーティー語 / Marathi
015_マラヤーラム語 / Malayalam
016_アイルランド語 / Ireland
017_アゼルバイジャン語 / Azerbaijani
018_アムハラ語 / Amharic
019_アラビア語 / Arabic
020_イタリア語 / Italy
021_イディッシュ語 / Yiddish
022_イヌイット語;エスキモー語 / Inuit; Eskimo
023_インドネシア語 / Indonesia
024_ウイグル語 / Uyghur
025_ウクライナ語 / Ukraine
026_エストニア語 / Estonian
027_エスペラント語 / Esperanto
028_オック語 / Occitan
029_オリヤー語 / Odia
030_カタロニア語 / Catalan
031_ガリシア語 / Galician
032_カンボジア語;クメール語 / Cambodian; Khmer
033_キルギス語 / Kyrgyz
034_キルギス語 / Kyrgyz
035_ケチュア語 / Quechua
036_コルシカ語 / Corsican
037_サンスクリット語 / Sanskrit
038_シリア語 / Syriac
039_シンド語 / Sindhi
040_スウェーデン語 / Swedish
041_スペイン語;カスティーヤ語 / Spanish; Castile
042_スロベニア語 / Slovenian
043_スワヒリ語 / Swahili
044_スンダ語 / Sundanese
045_セブアノ語 / Cebuano
046_ゾンカ語;ブータン語 / Dzongkha; Bhutanese
047_タイ語 / Thai
048_タジク語 / Tajik
049_タタール語 / Tatar
050_チェロキー語 / Cherokee
051_ティグリニア語 / Tigrinya
052_ディベヒ語;モルジブ語 / Dhivehi; Maldivian
053_デンマーク語 / Danish
054_トルコ語 / Turkish language
055_トンガ語(トンガ諸島) / Tongan (Tongan Islands)
056_ネパール語 / Nepali
057_ノルウェー語 / Norwegian
058_ハイチ語;ハイチ・クレオール語 / Haitian; Haitian Creole
059_パシュトー語 / Pashto
060_ハンガリー語;マジャル語 / Hungarian; Magyar
061_フィリピノ語;ピリピノ語 / Filipino; Pilipino
062_フィンランド語 / Finnish
063_フェーロー語 / Faroese
064_フリジア語;西フリジア語 / Frisian; West Frisian
065_ブルガリア語 / Bulgarian
066_ブルトン語 / Breton
067_ベトナム語 / Vietnamese
068_ヘブライ語 / Hebrew
069_ベンガル語 / Bengali
070_ポーランド語 / Polish
071_ボスニア語 / Bosnian
072_ポルトガル語 / Portuguese
073_マルタ語 / Maltese
074_ヨルバ語 / Yoruba
075_ラトビア語 / Latvian
076_ルクセンブルク語 / Luxembourgish
077_ロシア語 / Russian
078_中期フランス語 / Middle french
079_中期英語 / Middle English
080_古代ギリシア語 / Ancient Greek
081_満州語;モンゴル語 / Manchu; Mongolian
082_高地スコットランド・ゲール語 / Highlands Scottish Gaelic
083_白ロシア語;ベラルーシ語 / White Russian; Belarusian

導入方法

とりあえず、購入してくださった場合、「ImageTranscription.zip」をダウンロードして、解凍してしてください。 解凍中に、こちらからOCRツールのインストーラーをダウンロードしてください。 https://github.com/UB-Mannheim/tesseract/wiki 32ビット版でも64ビット版でもどちらでも大丈夫です。 インストーラーを起動します。 この辺はNextとか、適当で大丈夫です。 次のここで注意です。この画面になったら、すべてのチェックボックスにチェックを入れてください。 あとは全部適当にYesかInstallを押せば大丈夫です。 その後、環境変数の設定で、Pathにこのフォルダを追加して、パソコンを再起動してください。 Pathの追加の参考サイト↓ Windows 10でPath環境変数を設定/編集する そのあとはダウンロードしていただいた、ImageTranscription.exeを起動していただいて使うだけです。   実はこれ、私のプログラムは単にTesseractの動作をサポートしているだけで、ちょっとコマンドプロンプトとかがいじれる人的には「こんなもん作って草」って感じのものだと思います。 ただ、PCがあまり得意じゃない人にも使いやすいかなという点では結構いいかなと思っています。

購入は以下から

以下から、ダウンロードできるURL(firestorage)とZIPファイルのパスワードを閲覧できます。  
  https://firestorage.com/download/18717b79639a3912f6f2a3d1b95016d8d7dd3ffa

download password :0tj8eqnb また、

Zipファイルのパスワード:Lakshmi です。