OCRサーバーの構築-MYNT Blog

画像からテキスト文字を読みだす技術はそんなに新しくない技術で、スキャナ機などに付属でソフトウェアが付いている事もありますが、そんなOCRという技術は、オープンソースでも沢山の種類が出まわっており、機械学習や人工知能などと合わせる事により、無限大の使い方がありそうなので、はじめの一歩の構築を行なってみました。

OCRとは？

Optical character recognition の略で、「光学式文字認識」が直訳なようです。 wikipedia 個人的にはImage to Textという方がしっくり来ると思うんだが、OCRの方が一般的ですね。

たくさん公開されているOCR

MOONGIFT 上記サイトでもリストアップされているが、このサイトでは15種類も紹介されています。

サーバモジュール	tesseract-ocr	Google製のOCRソフト。	https://github.com/tesseract-ocr
JavaScript	Ocrad.js	日本語認識はできないようです・・・orz	http://antimatter15.com/ocrad.js/demo.html
JAVA	Eye	JavaベースのOCRですが、これも日本語はダメなようです。	http://eyeocr.sourceforge.net/
webサービス	NHocr	手書きもいけるみたい。	http://appsv.ocrgrid.org/nhocr/index-j.html

やはり、妥当なのは「tesseract-ocr」だと判断。

各種サーバーにインストール

各環境でリポジトリさえしっかり押せていれば、簡単に導入できるっぽいですね。ただ、日本語変換のインストールがやっかいなようです。

Ubuntu , debian

「/etc/apt/source.list」に以下を追記 deb http://ftp.de.debian.org/debian sid main

## ライブラリインストール
$ sudo apt-get install libpng-dev
$ sudo apt-get install libjpeg-dev
$ sudo apt-get install libtiff-dev

## 本体インストール
$ sudo apt-get install tesseract-ocr
$ sudo apt-get install tesseract-ocr-jpn

CentOS

$ sudo yum install tesseract

使い方

ベーシックな使い方は以下のようにコマンド叩くだけです。 $ tesseract ***.jpg out-text 日本語で認識させたい時は $ tesseract ***.jpg out-text -l jpn どうやらこのモジュールスグレモノで機械学習でどんどん認識率がましていくようです。この辺は、次回にレポートしたいと思います。

OCRの用途イメージ

・FAXをテキストデータに変換・スマホで撮影した写真から感光看板などをテキスト化・本や雑誌などのページを簡単テキスト化（本屋さんでやっちゃダメだよ）

OCRサーバーの構築

OCRとは？

たくさん公開されているOCR

各種サーバーにインストール

Ubuntu , debian

CentOS

使い方

OCRの用途イメージ

人気の投稿

このブログを検索

ごあいさつ

ブログアーカイブ

ラベル

OCRサーバーの構築

OCRとは？

たくさん公開されているOCR

各種サーバーにインストール

Ubuntu , debian

CentOS

使い方

OCRの用途イメージ

人気の投稿

このブログを検索

ごあいさつ

ブログ アーカイブ

ラベル

ブログアーカイブ