Qualcomm QCS5430搭載の評価ボード「RB3 Gen2 Lite」上で、オープンソースOCRエンジン「EasyOCR」の日本語モデルを動作させました。
AIアクセラレーター(NPU)を活用し、クラウド接続なしでデバイス上のみで日本語OCR処理を実現しています。
・対応文字数:漢字・ひらがな・カタカナ・英数字(計2,214文字)
・NPU推論時間:Detector 159 ms + Recognizer 22 ms
・クラウド不要 — デバイス上で処理が完結
なぜエッジでOCRを動かすのか
OCR(Optical Character Recognition)は、画像中の文字を認識してテキストデータに変換する技術です。
製造業における検品作業、物流での伝票読み取り、オフィスでの書類電子化など、幅広い分野で活用されています。
近年ではクラウドベースのOCRサービスが充実していますが、以下のようなケースではデバイス上で処理を完結させる「エッジAI」が求められます。
・セキュリティ要件 — 機密文書や個人情報を含む書類をクラウドに送信できない
・通信環境の制約 — 工場・倉庫・建設現場など、安定したネットワークが確保できない環境
・リアルタイム性 — ライン上での検品など、低遅延での処理が求められる場面
・ランニングコスト — クラウドAPIの従量課金を避け、固定費で運用したい
使用したAIモデル
今回使用したEasyOCRは、JaidedAIが開発したオープンソースのOCRエンジンで、80以上の言語に対応しています。Qualcomm AI Hubでもモデルが公開されており、テキスト領域の検出(Detector)と文字の認識(Recognizer)の2段階パイプラインで構成されています。
AI Hub(※1)で公開されているEasyOCRモデル(※2)は英語のみ対応のため、本デモではEasyOCRの日本語重みを適用した上でQualcomm SoCに対応したモデルフォーマットへ変換を行い、漢字・ひらがな・カタカナを含む2,214文字に対応させました。
※1). Qualcomm AI Hubの概要と会員登録
Qualcomm AI Hub - 半導体事業 - マクニカ
※2). Qualcomm AI Hub EasyOCRモデルページ
EasyOCR - Qualcomm AI Hub
処理パイプライン
・Detector(CRAFT) ー 入力画像からテキスト領域を検出し、バウンディングボックスを出力
・テキスト領域の切り出し ー 検出された各領域を個別の画像として切り出し
・Recognizer ー 切り出された画像から文字を認識し、テキストと信頼度スコアを出力
本デモでは、AI Hubのベースモデルに日本語の重み(漢字・ひらがな・カタカナ・英数字 計2,214文字)を適用し、Qualcomm AI Runtime SDKで量子化・最適化を行いました。
※Qualcomm AI Runtime SDK (QAIRT SDK)はQualcomm社が提供するエッジAI開発向けのソフトウェア開発ツールです。
テスト環境
・評価ボード:Qualcomm QCS5430搭載「RB3 Gen2 Lite」
・AIアクセラレーター(NPU):HTP (Hexagon Tensor Processor)
・ホストPC:Ubuntu 22.04 (WSL2)
・Qualcomom AI Runtime SDK:v2.44
・対応言語:日本語 + 英語
エッジAIへの実装
EasyOCRのPyTorchモデルをQualcommのNPUで高速推論するために、モデルの変換・量子化・最適化を実施しました。
モデル最適化の流れ
PyTorch (.pth) → ONNX (.onnx) → QNN変換 / w8a8量子化 → Context Binary (.bin) → デバイスデプロイ
QNN SDKを使用し、重み・活性化ともにINT8 (w8a8)で量子化しています。量子化に必要なキャリブレーションデータには、実際の日本語テキストを含む画像を使用しました。
動作結果
実際にRB3 Gen2 Lite上で日本語テキストを含む画像に対してOCR処理を実行しました。
認識結果
出典:Wikipedia「マクニカ」
左図のようなテキストが書かれた画像を推論対象とし、EasyOCRのデモを実行しています。
画像の緑色のバウンディングボックスがテキスト領域検出結果、ターミナルが文字認識の結果(テキスト+信頼度)を示しています。
推論時間(NPU使用時)
・Detector:159 ms
・Recognizer:22 ms
・合計:181 ms
同一入力画像で複数回計測した平均値。NPUによるハードウェアアクセラレーションにより、エッジデバイス上でリアルタイム処理に十分な速度を実現しています。
まとめ
本記事では、Qualcomm QCS5430搭載の評価ボード上でEasyOCRの日本語モデルをNPUアクセラレーションで動作させるデモをご紹介しました。
・オープンソースのOCRエンジン (EasyOCR)をQualcomm SoC上でエッジ推論
・Qualcomm AI Runtime SDKによるINT8量子化でモデルを最適化し、NPUで高速推論を実現
・日本語を含む2,214文字に対応、クラウド接続なしでデバイス上のみで処理が完結
・エッジデバイス上でリアルタイム処理に十分な推論速度を達成
お問い合わせ
本ページの内容に関するご質問や製品詳細情報をご希望の方はこちらからお問い合わせください。