最近何かとPDF上のテキストがデータとして必要になったり、画像の文字が必要になったりしているます。 もしかして、自分と同じ業界の人は案外同じことで悩んでいるのかも?思い作ってみました。 Pythonを使用して作りました。
文字起こしの使用例
例えば、こんな画像を用意します。
引用元:https://www.kulhaiya.com/manoranjan-film/machli-jal-ki-rani-hai
これはインドでは超の付くほど有名なポエムです。この画像の文字を起こしたいので、適当なフォルダにぶち込みます。 取り合えず、ソフトをダブルクリックで立ち上げてみます。 立ち上がりが遅いのでしばらく(30秒くらい?)こんな黒い画面が出ていますが、気長に待ってください。 画面が立ち上がったら、読み取りたい画像に書いてある言葉を選択します。
今回はヒンディー語なので「02‗ヒンディー語 / Hindi」を選択。 上から二つ目の枠に、読み込みたい画像ファイルの入っているフォルダパスを記入します。以下の感じで記入してください。
読み取り言語とファイルパスを記入したら、実行を押します。すると結果が出てきます。
いい感じ! しかも結果は一応コピペできます。
フォルダ内の複数の画像から一括で文字起こし
本題はこちら。 ウェブにある文字起こしツールは一枚一枚のものが多くて面倒くさい。 また、私はPDFからWord文書とかに変換してくれるソフトできれいに変換できなかった時にこのツールを使う予定なので、PDFのような枚数の多いものでちゃんと動かないと意味がありません。 今回は⼀般社団法⼈ ⽇本環境感染学会がネットで公開している、「医療機関における新型コロナウイルス感染症への対応ガイド 第 3 版」というPDFを使ってみたいと思います。 このPDFの出典:http://www.kankyokansen.org/uploads/uploads/files/jsipc/COVID-19_taioguide3.pdf 1.ILovePDFとかで、PDFをJPG変換する 画像なら何でもいいから、最悪手作業でスクショもあり。やりたくはないけどね。 で、ILovePDFでPDFからJPGに変換すると以下のようにZIPファイルに1ページずつ入った状態でダウンロードできます。 画像を適当なフォルダに移して、そのフォルダのファイルパスをさっきのファイルパス欄に記入します。
ちなみに、このフォルダ内の画像の文字をすべて書き出すので、ほかの画像が入っていると、それも読み込んでしまいます。 実行を押すと文章が読み込まれていきます。 ちなみに、そこそこ分量があったので、少し時間がかかりました。
一番最初のページだけ、とか一番最後のページだけ、とかでなくきちんと全部読まれています! やった~!
とまあ、個人的には結構便利だとは思いますので、是非皆さん使ってみてください。 ただ、初めてデスクトップアプリの作成をしてみて結構いい出来だと思うので、是非利用してください。
対応言語
00_日本語 / Japanese |
01_英語 / English |
02_ヒンディー語 / Hindi |
03_韓国語 / Korea |
04_中国語(simple) / Chinese (simple) |
05_中国語(traditional) / Chinese (traditional) |
06_アッサム語 / Assamese |
07_ウルドゥー語 / Urdu |
08_カンナダ語 / Kannada |
09_グジャラート語 / Gujarati |
010_シンハラ語 / Sinhala |
011_タミル語 / Tamil |
012_テルグ語 / Telugu |
013_パンジャーブ語 / Punjabi |
014_マラーティー語 / Marathi |
015_マラヤーラム語 / Malayalam |
016_アイルランド語 / Ireland |
017_アゼルバイジャン語 / Azerbaijani |
018_アムハラ語 / Amharic |
019_アラビア語 / Arabic |
020_イタリア語 / Italy |
021_イディッシュ語 / Yiddish |
022_イヌイット語;エスキモー語 / Inuit; Eskimo |
023_インドネシア語 / Indonesia |
024_ウイグル語 / Uyghur |
025_ウクライナ語 / Ukraine |
026_エストニア語 / Estonian |
027_エスペラント語 / Esperanto |
028_オック語 / Occitan |
029_オリヤー語 / Odia |
030_カタロニア語 / Catalan |
031_ガリシア語 / Galician |
032_カンボジア語;クメール語 / Cambodian; Khmer |
033_キルギス語 / Kyrgyz |
034_キルギス語 / Kyrgyz |
035_ケチュア語 / Quechua |
036_コルシカ語 / Corsican |
037_サンスクリット語 / Sanskrit |
038_シリア語 / Syriac |
039_シンド語 / Sindhi |
040_スウェーデン語 / Swedish |
041_スペイン語;カスティーヤ語 / Spanish; Castile |
042_スロベニア語 / Slovenian |
043_スワヒリ語 / Swahili |
044_スンダ語 / Sundanese |
045_セブアノ語 / Cebuano |
046_ゾンカ語;ブータン語 / Dzongkha; Bhutanese |
047_タイ語 / Thai |
048_タジク語 / Tajik |
049_タタール語 / Tatar |
050_チェロキー語 / Cherokee |
051_ティグリニア語 / Tigrinya |
052_ディベヒ語;モルジブ語 / Dhivehi; Maldivian |
053_デンマーク語 / Danish |
054_トルコ語 / Turkish language |
055_トンガ語(トンガ諸島) / Tongan (Tongan Islands) |
056_ネパール語 / Nepali |
057_ノルウェー語 / Norwegian |
058_ハイチ語;ハイチ・クレオール語 / Haitian; Haitian Creole |
059_パシュトー語 / Pashto |
060_ハンガリー語;マジャル語 / Hungarian; Magyar |
061_フィリピノ語;ピリピノ語 / Filipino; Pilipino |
062_フィンランド語 / Finnish |
063_フェーロー語 / Faroese |
064_フリジア語;西フリジア語 / Frisian; West Frisian |
065_ブルガリア語 / Bulgarian |
066_ブルトン語 / Breton |
067_ベトナム語 / Vietnamese |
068_ヘブライ語 / Hebrew |
069_ベンガル語 / Bengali |
070_ポーランド語 / Polish |
071_ボスニア語 / Bosnian |
072_ポルトガル語 / Portuguese |
073_マルタ語 / Maltese |
074_ヨルバ語 / Yoruba |
075_ラトビア語 / Latvian |
076_ルクセンブルク語 / Luxembourgish |
077_ロシア語 / Russian |
078_中期フランス語 / Middle french |
079_中期英語 / Middle English |
080_古代ギリシア語 / Ancient Greek |
081_満州語;モンゴル語 / Manchu; Mongolian |
082_高地スコットランド・ゲール語 / Highlands Scottish Gaelic |
083_白ロシア語;ベラルーシ語 / White Russian; Belarusian |
導入方法
とりあえず、購入してくださった場合、「ImageTranscription.zip」をダウンロードして、解凍してしてください。 解凍中に、こちらからOCRツールのインストーラーをダウンロードしてください。 https://github.com/UB-Mannheim/tesseract/wiki 32ビット版でも64ビット版でもどちらでも大丈夫です。 インストーラーを起動します。
この辺はNextとか、適当で大丈夫です。 次のここで注意です。この画面になったら、すべてのチェックボックスにチェックを入れてください。
あとは全部適当にYesかInstallを押せば大丈夫です。 その後、環境変数の設定で、Pathにこのフォルダを追加して、パソコンを再起動してください。 Pathの追加の参考サイト↓ Windows 10でPath環境変数を設定/編集する そのあとはダウンロードしていただいた、ImageTranscription.exeを起動していただいて使うだけです。 実はこれ、私のプログラムは単にTesseractの動作をサポートしているだけで、ちょっとコマンドプロンプトとかがいじれる人的には「こんなもん作って草」って感じのものだと思います。 ただ、PCがあまり得意じゃない人にも使いやすいかなという点では結構いいかなと思っています。
ダウンロードは以下から
以下から、ダウンロードできます。無料です。
https://chidabeaglesolutions.in/ja/products/