ICTイノベート
  • FAX(PDF)のデータ抽出【試IT203】

  • FAX(PDF)のデータ抽出【試IT203】
  • 公開2020/07/03  更新2022/06/23

デモの概要について

FAXのPDF画像からOCR技術を活用してテキストデータを抽出し、CSV出力する入力作業支援のお試しIT活用iiモデルです。
作業員がPDF画像をもとにデータを再入力している職場に用いて、作業を効率化する用途が考えられます。
なお、手書きFAXの読み取りについては、AI技術が欠かせず今回のコンセプトに合わないので対象外としています。

【備考】(特非)モノづくり応援隊in大田区として、第24回 おおた工業フェア(2020年)に出展

デモ動画の視聴

[動画の所要時間 1分39秒(音声なし)]

動画の内容(構成)は以下になります。

  1. イントロダクション [0:00-0:05]
  2. FAX-OCRアプリ画面の操作 [0:06-1:34]
  3. 処理結果のデータ出力(CSV) [1:35-1:39]

デモの構成について

デモの構成図

デモの構成を図示しました。デモを構成する主なハードウェア[H]とソフトウェア[S]についての補足情報は以下となります。

デモについての解説

使用に関して

Raspberry Pi(ラズベリーパイ)に対しては、使用するPCや複合機と同じネットワーク(LAN等)に接続する準備(Wi-Fi設定またはイーサネット接続)を済ませておけば、使用する際には電源に接続するだけです。特に操作の必要はありません。

使用するPCに対しては、インストール等の環境変更は必要ありません。ブラウザからRaspberry PiのNode-REDで作成したアプリ画面にアクセスします。(Raspberry Piと同じネットワークに接続している前提)

今回のデモ構成においては、前提としているオフィス環境があります。FAX機能付きの複合機をネットワーク上で共有している環境です。加えて、受信したFAXデータをPDF形式の電子ファイルとして共有フォルダに蓄積するといった、ペーパーレス対応機能を持った複合機を想定しています。

またFAX受信するのは、業務アプリケーション等から印刷した定型の帳票であることを想定しています。

デモ動画におけるアプリ画面の「受注処理」は、複合機による共有フォルダ上のPDFファイルを読み込んで処理を行います。画面上でPDFファイル(FAX帳票)の内容を確認することができます。

そして読み取りボタンを押すと、FAX帳票から文字情報を抽出してテキストデータとして表示します。データ化されているので画面上で編集することが可能です。誤った読み取り結果を見つけたら画面上で修正します。

画面表示されている各項目(データ)に問題がなければ、CSV書き込みボタンを押すとデータをCSVファイルに出力します。このCSVファイルはRaspberry Pi上のファイルになりますが、PC側から共有フォルダのファイルのように扱うことができます。

仕組みに関して

今回のデモ構成では、安価な機器であるRaspberry piを追加するだけで、既存の業務用PCに変更を加えることなく利用できることを狙っています。

また、FAX帳票上の文字情報をテキストデータに変換するにあたり、OCR(Optical Character Recognition / 光学文字認識)の技術を活用しています。

なお、アプリ画面から出力するCSVファイルについては、日付毎にファイルを作成します。つまり、1日の間の作業結果はファイルに追記されることになります。