OCRサーバーの構築

deceive-1299043_1280
LINEで送る
Share on GREE
Share on LinkedIn

画像からテキスト文字を読みだす技術はそんなに新しくない技術で、スキャナ機などに付属でソフトウェアが付いている事もありますが、そんなOCRという技術は、オープンソースでも沢山の種類が出まわっており、機械学習や人工知能などと合わせる事により、無限大の使い方がありそうなので、はじめの一歩の構築を行なってみました。

OCRとは?

Optical character recognition
の略で、「光学式文字認識」が直訳なようです。

wikipedia

個人的にはImage to Textという方がしっくり来ると思うんだが、OCRの方が一般的ですね。

たくさん公開されているOCR

MOONGIFT
上記サイトでもリストアップされているが、このサイトでは15種類も紹介されています。

サーバモジュール tesseract-ocr Google製のOCRソフト。 https://github.com/tesseract-ocr
JavaScript Ocrad.js 日本語認識はできないようです・・・orz http://antimatter15.com/ocrad.js/demo.html
JAVA Eye JavaベースのOCRですが、これも日本語はダメなようです。 http://eyeocr.sourceforge.net/
webサービス NHocr 手書きもいけるみたい。 http://appsv.ocrgrid.org/nhocr/index-j.html

やはり、妥当なのは「tesseract-ocr」だと判断。

各種サーバーにインストール

各環境でリポジトリさえしっかり押せていれば、簡単に導入できるっぽいですね。
ただ、日本語変換のインストールがやっかいなようです。

Ubuntu , debian

「/etc/apt/source.list」に以下を追記
deb http://ftp.de.debian.org/debian sid main

CentOS

使い方

ベーシックな使い方は以下のようにコマンド叩くだけです。

日本語で認識させたい時は

どうやらこのモジュールスグレモノで機械学習でどんどん認識率がましていくようです。
この辺は、次回にレポートしたいと思います。

OCRの用途イメージ

・FAXをテキストデータに変換
・スマホで撮影した写真から感光看板などをテキスト化
・本や雑誌などのページを簡単テキスト化(本屋さんでやっちゃダメだよ)

Leave a Reply

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です


*