「UbuntuにOCRを導入して、文字認識を行いたい」
「Ubuntu 22.04 LTSに最新版のTesseractをインストールしたい」
このような場合には、この記事の内容が参考となります。
この記事では、Ubuntu 22.04 LTSに最新版Tesseractをインストールする方法を解説しています。
本記事の内容
- Ubuntu 22.04におけるOS標準のTesseract
- Ubuntu 22.04への最新Tesseractのインストール
- Ubuntu 22.04におけるTesseractの動作確認
それでは、上記に沿って解説していきます。
Ubuntu 22.04におけるOS標準のTesseract
今回は、次のOSにおいてTesseractのインストールを進めていきます。
$ cat /etc/lsb-release DISTRIB_ID=Ubuntu DISTRIB_RELEASE=22.04 DISTRIB_CODENAME=jammy DISTRIB_DESCRIPTION="Ubuntu 22.04 LTS"
現時点(2022年5月)でのTesseractの最新バージョンは、5.1.0となります。
この最新バージョンは、2022年3月2日にリリースされています。
しかし、Ubuntu 22.04では Tesseract 4.1.1がOS標準となっています。
$ sudo apt info tesseract-ocr Package: tesseract-ocr Version: 4.1.1-2.1build1 Priority: optional Section: universe/graphics Source: tesseract Origin: Ubuntu Maintainer: Ubuntu Developers <ubuntu-devel-discuss@lists.ubuntu.com> Original-Maintainer: Alexander Pozdnyakov <almipo@mail.ru> Bugs: https://bugs.launchpad.net/ubuntu/+filebug Installed-Size: 926 kB Depends: libarchive13 (>= 3.2.1), libc6 (>= 2.34), libcairo2 (>= 1.2.4), libfontconfig1 (>= 2.12.6), libgcc-s1 (>= 3.3.1), libglib2.0-0 (>= 2.12.0), libicu70 (>= 70.1-1~), liblept5 (>= 1.75.3), libpango-1.0-0 (>= 1.37.2), libpangocairo-1.0-0 (>= 1.22.0), libpangoft2-1.0-0 (>= 1.14.0), libstdc++6 (>= 11), libtesseract4 (= 4.1.1-2.1build1), tesseract-ocr-eng (>= 4.00~), tesseract-ocr-osd (>= 4.00~) Replaces: tesseract-ocr-data Homepage: https://github.com/tesseract-ocr/ Download-Size: 236 kB APT-Sources: http://archive.ubuntu.com/ubuntu jammy/universe amd64 Packages Description: Tesseract command line OCR tool Tesseract is an open source Optical Character Recognition (OCR) Engine. It can be used directly, or (for programmers) using an API to extract printed text from images. It supports a wide variety of languages. This package includes the command line tool.
Tesseract 4.1.1は、2019年12月27日にリリースされています。
結構、古いですね。
もう少し新しいバージョンのモノをOS標準にすることはできなかったのでしょうかね。
これは言っても仕方がありません。
したがって、自力で新しいTesseract を手に入れましょう。
以上、Ubuntu 22.04におけるOS標準のTesseract についての説明でした。
次は、Ubuntu 22.04への最新Tesseract のインストールを説明します。
Ubuntu 22.04への最新Tesseractのインストール
PPAを利用して最新版のパッケージを利用します。
PPAは、非公式リポジトリになります。
この場合の公式とは、Ubuntu公式のことです。
これを先ほどから、OS標準と言っています。
ただ、PPAと言っても、Tesseract公認のパッケージを利用します。
PPAのリポジトリを利用するには、以下のコマンドを実行します。
sudo add-apt-repository ppa:alex-p/tesseract-ocr5 sudo apt-get update
上記コマンドを実行したら、再度パッケージを確認してみましょう。
$ sudo apt info tesseract-ocr Package: tesseract-ocr Version: 5.1.0-1ppa1~jammy1 Priority: optional Section: graphics Source: tesseract Maintainer: Alexander Pozdnyakov <almipo@mail.ru> Installed-Size: 1,125 kB Depends: libarchive13 (>= 3.2.1), libc6 (>= 2.34), libcairo2 (>= 1.2.4), libcurl4 (>= 7.16.2), libfontconfig1 (>= 2.12.6), libgcc-s1 (>= 3.3.1), libglib2.0-0 (>= 2.12.0), libharfbuzz0b (>= 1.2.6), libicu70 (>= 70.1-1~), liblept5 (>= 1.75.3), libpango-1.0-0 (>= 1.44.3), libpangocairo-1.0-0 (>= 1.22.0), libstdc++6 (>= 11), libtesseract5 (= 5.1.0-1ppa1~jammy1), tesseract-ocr-eng (>= 4.9.9~), tesseract-ocr-osd (>= 4.9.9~) Replaces: tesseract-ocr-data Download-Size: 365 kB APT-Sources: https://ppa.launchpadcontent.net/alex-p/tesseract-ocr5/ubuntu jammy/main amd64 Packages Description: Tesseract command line OCR tool Tesseract is an open source Optical Character Recognition (OCR) Engine. It can be used directly, or (for programmers) using an API to extract printed text from images. It supports a wide variety of languages. This package includes the command line tool.
最新版のTesseractが、パッケージとして確認できています。
この最新版となるTesseractのインストールは、以下のコマンドで行います。
sudo apt install -y tesseract-ocr
インストールが完了したら、確認を行います。
$ tesseract --version tesseract 5.1.0 leptonica-1.82.0 libgif 5.1.9 : libjpeg 8d (libjpeg-turbo 2.1.1) : libpng 1.6.37 : libtiff 4.3.0 : zlib 1.2.11 : libwebp 1.2.2 : libopenjp2 2.4.0 Found AVX2 Found AVX Found SSE4.1 Found OpenMP 201511 Found libarchive 3.6.0 zlib/1.2.11 liblzma/5.2.5 bz2lib/1.0.8 liblz4/1.9.3 libzstd/1.4.8 Found libcurl/7.81.0 OpenSSL/3.0.2 zlib/1.2.11 brotli/1.0.9 zstd/1.4.8 libidn2/2.3.2 libpsl/0.21.0 (+libidn2/2.3.2) libssh/0.9.6/openssl/zlib nghttp2/1.43.0 librtmp/2.3 OpenLDAP/2.5.11
最新版となるバージョンが、確認できます。
これでTesseractのインストールは、完了です。
以上Ubuntu 22.04への最新Tesseractのインストールを説明しました。
次は、Ubuntu 22.04におけるTesseractの動作確認を説明します。
Ubuntu 22.04におけるTesseractの動作確認
Tesseractの使い方は、ヘルプで確認できます。
$ tesseract --help Usage: tesseract --help | --help-extra | --version tesseract --list-langs tesseract imagename outputbase [options...] [configfile...] OCR options: -l LANG[+LANG] Specify language(s) used for OCR. NOTE: These options must occur before any configfile. Single options: --help Show this help message. --help-extra Show extra help for advanced users. --version Show version information. --list-langs List available languages for tesseract engine.
サンプルとして、次の画像が用意されています。
eurotext.png
この画像をOCRの動作確認として利用します。
オプションを指定せずに読み取った場合の結果は、以下。
$ tesseract eurotext.png - The (quick) [brown] {fox} jumps! Over the $43,456.78 <lazy> #90 dog & duck/goose, as 12.5% of E-mail from aspammer@website.com is spam. Der ,.schnelle” braune Fuchs springt tiber den faulen Hund. Le renard brun «rapide» saute par-dessus le chien paresseux. La volpe marrone rapida salta sopra il cane pigro. El zorro marron rapido salta sobre el perro perezoso. A raposa marrom rapida salta sobre 0 cao preguigoso.
普通にOCRとしては機能していますね。
とりあえず、Tesseractの動作確認としてはこれで十分でしょう。
なお、英語であればデフォルトで対応できます。
日本語の文字認識を行う場合は、別途設定が必要となります。
以上、Ubuntu 22.04におけるTesseractの動作確認の説明でした。