Ubuntu 22.04 LTSへの最新版Tesseractのインストール

Ubuntu 22.04 LTSへの最新版Tesseractのインストール サーバー

「UbuntuにOCRを導入して、文字認識を行いたい」
「Ubuntu 22.04 LTSに最新版のTesseractをインストールしたい」

このような場合には、この記事の内容が参考となります。
この記事では、Ubuntu 22.04 LTSに最新版Tesseractをインストールする方法を解説しています。

本記事の内容

  • Ubuntu 22.04におけるOS標準のTesseract
  • Ubuntu 22.04への最新Tesseractのインストール
  • Ubuntu 22.04におけるTesseractの動作確認

それでは、上記に沿って解説していきます。

Ubuntu 22.04におけるOS標準のTesseract

今回は、次のOSにおいてTesseractのインストールを進めていきます。

$ cat /etc/lsb-release 
DISTRIB_ID=Ubuntu  
DISTRIB_RELEASE=22.04  
DISTRIB_CODENAME=jammy  
DISTRIB_DESCRIPTION="Ubuntu 22.04 LTS"

現時点(2022年5月)でのTesseractの最新バージョンは、5.1.0となります。
この最新バージョンは、2022年3月2日にリリースされています。

しかし、Ubuntu 22.04では Tesseract 4.1.1がOS標準となっています。

$ sudo apt info tesseract-ocr 
Package: tesseract-ocr 
Version: 4.1.1-2.1build1 
Priority: optional 
Section: universe/graphics 
Source: tesseract 
Origin: Ubuntu 
Maintainer: Ubuntu Developers <ubuntu-devel-discuss@lists.ubuntu.com> 
Original-Maintainer: Alexander Pozdnyakov <almipo@mail.ru> 
Bugs: https://bugs.launchpad.net/ubuntu/+filebug 
Installed-Size: 926 kB 
Depends: libarchive13 (>= 3.2.1), libc6 (>= 2.34), libcairo2 (>= 1.2.4), libfontconfig1 (>= 2.12.6), libgcc-s1 (>= 3.3.1), libglib2.0-0 (>= 2.12.0), libicu70 (>= 70.1-1~), liblept5 (>= 1.75.3), libpango-1.0-0 (>= 1.37.2), libpangocairo-1.0-0 (>= 1.22.0), libpangoft2-1.0-0 (>= 1.14.0), libstdc++6 (>= 11), libtesseract4 (= 4.1.1-2.1build1), tesseract-ocr-eng (>= 4.00~), tesseract-ocr-osd (>= 4.00~) 
Replaces: tesseract-ocr-data 
Homepage: https://github.com/tesseract-ocr/ 
Download-Size: 236 kB 
APT-Sources: http://archive.ubuntu.com/ubuntu jammy/universe amd64 Packages 
Description: Tesseract command line OCR tool 
 Tesseract is an open source Optical Character Recognition (OCR) 
 Engine. It can be used directly, or (for programmers) using an API to 
 extract printed text from images. It supports a wide variety of 
 languages. This package includes the command line tool.

Tesseract 4.1.1は、2019年12月27日にリリースされています。
結構、古いですね。

もう少し新しいバージョンのモノをOS標準にすることはできなかったのでしょうかね。
これは言っても仕方がありません。

したがって、自力で新しいTesseract を手に入れましょう。

以上、Ubuntu 22.04におけるOS標準のTesseract についての説明でした。
次は、Ubuntu 22.04への最新Tesseract のインストールを説明します。

Ubuntu 22.04への最新Tesseractのインストール

PPAを利用して最新版のパッケージを利用します。
PPAは、非公式リポジトリになります。

この場合の公式とは、Ubuntu公式のことです。
これを先ほどから、OS標準と言っています。

ただ、PPAと言っても、Tesseract公認のパッケージを利用します。
PPAのリポジトリを利用するには、以下のコマンドを実行します。

sudo add-apt-repository ppa:alex-p/tesseract-ocr5
sudo apt-get update

上記コマンドを実行したら、再度パッケージを確認してみましょう。

$ sudo apt info tesseract-ocr 
Package: tesseract-ocr 
Version: 5.1.0-1ppa1~jammy1 
Priority: optional 
Section: graphics 
Source: tesseract 
Maintainer: Alexander Pozdnyakov <almipo@mail.ru> 
Installed-Size: 1,125 kB 
Depends: libarchive13 (>= 3.2.1), libc6 (>= 2.34), libcairo2 (>= 1.2.4), libcurl4 (>= 7.16.2), libfontconfig1 (>= 2.12.6), libgcc-s1 (>= 3.3.1), libglib2.0-0 (>= 2.12.0), libharfbuzz0b (>= 1.2.6), libicu70 (>= 70.1-1~), liblept5 (>= 1.75.3), libpango-1.0-0 (>= 1.44.3), libpangocairo-1.0-0 (>= 1.22.0), libstdc++6 (>= 11), libtesseract5 (= 5.1.0-1ppa1~jammy1), tesseract-ocr-eng (>= 4.9.9~), tesseract-ocr-osd (>= 4.9.9~) 
Replaces: tesseract-ocr-data 
Download-Size: 365 kB 
APT-Sources: https://ppa.launchpadcontent.net/alex-p/tesseract-ocr5/ubuntu jammy/main amd64 Packages 
Description: Tesseract command line OCR tool 
 Tesseract is an open source Optical Character Recognition (OCR) 
 Engine. It can be used directly, or (for programmers) using an API to 
 extract printed text from images. It supports a wide variety of 
 languages. This package includes the command line tool.

最新版のTesseractが、パッケージとして確認できています。
この最新版となるTesseractのインストールは、以下のコマンドで行います。

sudo apt install -y tesseract-ocr

インストールが完了したら、確認を行います。

$ tesseract --version 
tesseract 5.1.0 
 leptonica-1.82.0 
  libgif 5.1.9 : libjpeg 8d (libjpeg-turbo 2.1.1) : libpng 1.6.37 : libtiff 4.3.0 : zlib 1.2.11 : libwebp 1.2.2 : libopenjp2 2.4.0 
 Found AVX2 
 Found AVX 
 Found SSE4.1 
 Found OpenMP 201511 
 Found libarchive 3.6.0 zlib/1.2.11 liblzma/5.2.5 bz2lib/1.0.8 liblz4/1.9.3 libzstd/1.4.8 
 Found libcurl/7.81.0 OpenSSL/3.0.2 zlib/1.2.11 brotli/1.0.9 zstd/1.4.8 libidn2/2.3.2 libpsl/0.21.0 (+libidn2/2.3.2) libssh/0.9.6/openssl/zlib nghttp2/1.43.0 librtmp/2.3 OpenLDAP/2.5.11

最新版となるバージョンが、確認できます。
これでTesseractのインストールは、完了です。

以上Ubuntu 22.04への最新Tesseractのインストールを説明しました。
次は、Ubuntu 22.04におけるTesseractの動作確認を説明します。

Ubuntu 22.04におけるTesseractの動作確認

Tesseractの使い方は、ヘルプで確認できます。

$ tesseract --help 
Usage: 
  tesseract --help | --help-extra | --version 
  tesseract --list-langs 
  tesseract imagename outputbase [options...] [configfile...] 
OCR options: 
  -l LANG[+LANG]        Specify language(s) used for OCR. 
NOTE: These options must occur before any configfile. 
Single options: 
  --help                Show this help message. 
  --help-extra          Show extra help for advanced users. 
  --version             Show version information. 
  --list-langs          List available languages for tesseract engine.

サンプルとして、次の画像が用意されています。

eurotext.png

この画像をOCRの動作確認として利用します。
オプションを指定せずに読み取った場合の結果は、以下。

$ tesseract eurotext.png - 
The (quick) [brown] {fox} jumps! 
Over the $43,456.78 <lazy> #90 dog 
&amp; duck/goose, as 12.5% of E-mail 
from aspammer@website.com is spam. 
Der ,.schnelle” braune Fuchs springt 
tiber den faulen Hund. Le renard brun 
«rapide» saute par-dessus le chien 
paresseux. La volpe marrone rapida 
salta sopra il cane pigro. El zorro 
marron rapido salta sobre el perro 
perezoso. A raposa marrom rapida 
salta sobre 0 cao preguigoso.

普通にOCRとしては機能していますね。
とりあえず、Tesseractの動作確認としてはこれで十分でしょう。

なお、英語であればデフォルトで対応できます。
日本語の文字認識を行う場合は、別途設定が必要となります。

以上、Ubuntu 22.04におけるTesseractの動作確認の説明でした。

タイトルとURLをコピーしました