レイアウト非依存な 実時間カメラベース文字認識 岩村雅一 辻 智彦 堀松 晃 黄瀬浩一. IMP Web カメラ 文書 リアルタイム に 認識結果を出 力 キャプチャ 実時間カメラベース文字認識システム 1 秒間に 200 ~ 250 文字程度認識可能.

Slides:



Advertisements
Similar presentations
3D Wand による 3 次 元形状計測. 3次元形状計測装置  3D Wand(テクノドリーム 21 社 製)  構成 3D Wand 本体: 7 つの発光ダイオー ドとラインレーザー発光装置が一体となっ た手に持って移動できる電池駆動の装置.
Advertisements

SPSSによるHosmer-Lemeshow検定について
物理演算を利用したビデオエフェクタの 作成 浅野益弘. 研究内容 経緯 NiVE ( Nico Visual Effects )用のエフェ クトプラグインの作成 本プラグインにより動画作成にかかる 時間と手間の短縮と省力化を目指す.
東京工科大学 コンピュータサイエンス 亀田弘之
1 7.時間限定チューリングマシンと クラス P. 2 7 -1.入力サイズ チューリングマシンの入力記号 の長さ を 入力サイズという。 名称:合成数の問題 インスタンス:整数n 問:nは合成数か? 通常は、入力サイズとしてはもっとも短い表現での 長さが利用される。 例えば、次のような合成数の問題における入力サイズは、
7.n次の行列式   一般的な(n次の)行列式の定義には、数学的な概念がいろいろ必要である。まずそれらを順に見ていく。
9.線形写像.
時間的に変化する信号. 普通の正弦波 は豊富な情報を含んでいません これだけではラジオのような複雑な情報 を送れない 振幅 a あるいは角速度 ω を時間的に変化 させて情報を送る.
情報処理A 第10回 Excelの使い方 その3.
5.連立一次方程式.
音当て Game 時田 大樹 飛山 雄太郎. 作品の目的 入力として、スイッチを押すと音がスピー カーから流れ、スイッチを離すと、音が止 まる仕組みとなっている。
―本日の講義― ・平均と分散 -代表値 -ぱらつき(分散・標準偏差等) ・Excelによる演習
ノイズ. 雑音とも呼ばれる。(音でなくても、雑 音という) 入力データに含まれる、本来ほしくない 成分.
青森大学 5 号館の 模型の設計と製作 ソ 小山 内 拓真
素数判定法 2011/6/20.
フーリエ係数の性質. どこまで足す? 理想的には無限大であるが、実際に はそれは出来ない これをフーリエ解析してみる.
地球温暖化と 天候の関係性 ~温暖化は天候のせいなのではないのか~. 目的課題 地球温暖化現象 ただの気象条件によるものではないのか? 地球温暖化現象に天候は関係しているの か?
公開鍵暗号系 2011/05/09.
1章 行列と行列式.
本宮市立白岩小学校. 1 はじめに 2 家庭学習プログラム開発の視点 ① 先行学習(予習)を生かした 確かな学力を形成する授業づく り ② 家庭との連携を図った家庭学習の習慣化.
カメラ撮影文字の 事例に基づく実時間認識 岩村雅一 辻 智彦 黄瀬浩一.
フーリエ級数. 一般的な波はこのように表せる a,b をフーリエ級数とい う 比率:
3.エントロピーの性質と各種情報量.
9.通信路符号化手法1 (誤り検出と誤り訂正の原理)
Excelによる積分.
1 6.低次の行列式とその応用. 2 行列式とは 行列式とは、正方行列の特徴を表す一つのスカ ラーである。すなわち、行列式は正方行列からスカ ラーに写す写像の一種とみなすこともできる。 正方行列 スカラー(実数) の行列に対する行列式を、 次の行列式という。 行列 の行列式を とも表す。 行列式と行列の記号.
計算のスピードアップ コンピュータでも、sin、cosの計算は大変です 足し算、引き算、掛け算、割り算は早いです
線形符号(10章).
1 0章 数学基礎. 2 ( 定義)集合 集合については、 3セメスタ開講の「離散数学」で詳しく扱う。 集合 大学では、高校より厳密に議論を行う。そのために、議論の 対象を明確にする必要がある。 ある “ もの ” (基本的な対象、概念)の集まりを、 集合という。 集合に含まれる “ もの ” を、集合の要素または元という。
10.PとNP完全問題との境界.
複素数.
4.プッシュダウンオートマトンと 文脈自由文法の等価性
1 0章 数学基礎. 2 ( 定義)集合 集合については、 3セメスタ開講の「離散数学」で詳しく扱う。 集合 大学では、高校より厳密に議論を行う。そのために、議論の 対象を明確にする必要がある。 ある “ もの ” (基本的な対象、概念)の集まりを、 集合という。 集合に含まれる “ もの ” を、集合の要素または元という。
信号測定. 正弦波 多くの場合正弦波は 0V の上下で振動する しかし、これでは AD 変換器に入れら れないので、オフ セットを調整して データを取った.
1 9.線形写像. 2 ここでは、行列の積によって、写像を 定義できることをみていく。 また、行列の積によって定義される写 像の性質を調べていく。
通信路(7章).
3.プッシュダウンオートマトンと 文脈自由文法
6.符号化法(6章).
ビット. 十進数と二進数 十進数  0から9までの数字を使って 0、1、2、3、4、5、6、7、8、9、 10、11、12 と数える 二進数  0と1を使って 0、1、10、11、100、101、11 0、111 と数える.
創成C PROGRAMMING PROJECT 中部大学工学部情報工学科:創成Cインタラクティブデザイン( アプリ名: ZIP 2 GPS 作成者: EP00000 藤吉 弘亘.
重不況の経済学 第2章第2節 山下 真弘. 不均等成長 不均等成長=市場の特定の製品または特定の国・ 地域で付加価値の縮小が生じること 要因は2つ 製品別の「生産性向上速度の差」 付加価値総額の天井(=需要制約)
カメラ付きAndroid端末で 博物館などの展示物情報を 提供する手法
正弦波.
3.正方行列(単位行列、逆行列、対称行列、交代行列)
様々な情報源(4章).
レイアウトとデザインの基本 情報処理演習2.
プログラミング演習B ML編 第3回 2010/6/15 (コミ) 2010/6/16 (情報・知能) 住井 ~sumii/class/proenb2010/ml3/
名古屋工業大学 電気電子工学科 岩波・岡本研究室 野々村嘉人
論理回路 第1回. 今日の内容 論理回路とは? 本講義の位置づけ,達成目標 講義スケジュールと内容 受講時の注意事項 成績の評価方法.
トランスフォームロボット の設計と製作 矢萩研究室 ソ 神貴浩 創作ゼミナールⅠ 計画発表.
Bar-TOP における光の 群速度伝播の解析 名古屋大学 高エネルギー物理研究室 松石 武 (Matsuishi Takeru)
ベイズ基準による音声認識のための 事前分布推定法の検討 情報工学専攻 徳田・李研究室 橋本 佳. 2 背景  音声認識技術の普及  カーナビゲーションシステム  携帯電話 ⇒ さらなる認識性能の改善が必要  隠れマルコフモデルによる音声のモデル化  性能改善のためにはモデルの高精度化が必要.
1 高い時間分解能を持った マルチアノード型光電子増倍管の開発 名古屋大学 高エネルギー研究室 概要 光電子増倍管 L16 の開発目的 L16 の特徴 Multi-channel-photon-hit 時の時間分解能の悪化 Cross-talk 対策と対策成果 Summary ~ cross-talk.
データベース入門 日進高等学校 情報化推進委員会. 表計算ソフトとの比較 表計算ソフト (Excel) データベース ( Access ) 編集 二人目はデータの編集が ロックされる 複数の人が同時にデータ を 編集できる 信頼性 ファイルの数だけ データが存在する データは一つ データ処理 自由.
実装の流れと 今後のスケジュール 03k0014 岸原 大祐. システム概要 天気データをもとに、前向き推論をし ていき、親の代わりに子供に服装、持 ち物、気をつけることなどを教える。
3.多項式計算アルゴリズム べき乗の計算 多項式の計算.
Automatic Language Acquisition, an Interactive Approach † Robert J. Martin † 大西昇 ‡ 山村毅 † 名古屋大学 ‡ 愛知県立大学.
HSPによる学習機能付き シューティングゲームの製作
物体識別のための Adaboost を用いた入力特徴の評価 物体識別のための Adaboost を用いた 入力特徴の評価 情報工学科 藤吉研究室 EP02132 土屋成光.
リファクタリング支援のための コードクローンに含まれる識別子の変更内容分析 井上研究室 工藤 良介 1.
二次元、三次元空間の座標表現 点のベクトル表現と行列による変換 点、線、面の数理表現 図形の変換 投影、透視変換
メニューに戻る メニューに戻る | 前表示スライド 前表示スライド G*power 3 の web ページ Windows はこちら Mac はこちら ダウンロード後,実行してインストール.
実験5 規則波 C0XXXX 石黒 ○○ C0XXXX 杉浦 ○○ C0XXXX 大杉 ○○ C0XXXX 高柳 ○○ C0XXXX 岡田 ○○ C0XXXX 藤江 ○○ C0XXXX 尾形 ○○ C0XXXX 足立 ○○
プログラミング演習( 1 組) 第 8 回
オセロの思考アルゴリズムについて 1103072 岩間 隆浩.
音の変化を視覚化する サウンドプレイヤーの作成
Self-efficacy(自己効力感)について
Photometric Stereo for Lambertian Surface Robert J. Woodham, "Photometric method for determining surface orientation from multiple shading images", Optical.
IIR 輪講復習 #18 Matrix decompositions and latent semantic indexing.
地球儀と様々な地図. 1 球体としての地球 こうした現象はあることをイ メージすると理解できる。
Presentation transcript:

レイアウト非依存な 実時間カメラベース文字認識 岩村雅一 辻 智彦 堀松 晃 黄瀬浩一

IMP Web カメラ 文書 リアルタイム に 認識結果を出 力 キャプチャ 実時間カメラベース文字認識システム 1 秒間に 200 ~ 250 文字程度認識可能

応用例 Car-free mall 視覚障害者への音声案内 翻訳システム 環境中の全ての文字を認識して、 必要な情報のみを提供することができ る 環境中の全ての文字を認識して、 必要な情報のみを提供することができ る 『押ボタン信号 があります』 ♪ ♪

デザイン文字や ピクトグラムも認識可 能 デザイン文字や ピクトグラムも認識可 能 1:高速 ・ 200 文字を 1 秒以内に認識 1:高速 ・ 200 文字を 1 秒以内に認識 2:射影歪みに頑健 ・斜め 45 度から撮影しても 8 割以上の認識率 2:射影歪みに頑健 ・斜め 45 度から撮影しても 8 割以上の認識率 3:レイアウトフリー 提案手法の特長 下記 3 要件を同時に実現した 初めての手法 下記 3 要件を同時に実現した 初めての手法

従来手法と問題点 1. 実時間認識可能だが、行を成す文字しか認識できない 2. 複雑なレイアウトも認識可能だが、実時間で認識でき ない 認識可能 認識不可能

従来手法 vs 提案手法 Kusachi 2004 Li 2008 Myers 2004 Proposed method 文字単位の認識 1:高 速 2:射 影歪み 3:レイア ウトフリー 実時間処理

DEMO

目次 1. 背景 2. 提案手法のアプローチ 3. 輪郭版 GH 4. 提案手法 1. 輪郭版 GH の高速化 2. 分離文字の認識 3. 姿勢推定 5. 実験 6. まとめ

提案手法のアプローチ1  連結成分単位の認識  問題設定  文字は同一平面上に存在  文字は二値化で簡単に抽出可能 S c h o o l 3:レイアウトフ リー の実現 i 後処理へ 切り出した後の文字を高速処理に特 化

A 提案手法のアプローチ2  アフィン不変な認識  同一の3点が選択できれば、照合可能 入力画像 参照画像 正規化 2:射影歪み に頑健な認識の実現

提案手法のアプローチ2 輪郭版 GH のアイディア A 特徴点数: P 特徴点の配置の照合図形の照合 従来手法: Geometric Hashing (GH) 従来手法: Geometric Hashing (GH) 輪郭版 GH 提案手法の出発点 連結成分に GHを適用

提案手法のアプローチ3 輪郭版 GH が作る3点の配置  P 点から3点を選択する全ての組み合わせを試す P 1st 2nd3rd (P-2)(P-1) ××= O(P3)O(P3) Database パターン数

提案手法のアプローチ3 提案手法が作る3点の配置  存在しない組み合わせを計算しない 11 P ××= O(P)O(P) 1st 2nd3rd Database P =100 の場合 輪郭版 GH 提案手法 970, 実時間認識を実現 パターン数 O(P3)O(P3) の実現 1:高 速

目次 1. 背景 2. 提案手法のアプローチ 3. 輪郭版 GH 4. 提案手法 1. 輪郭版 GH の高速化 2. 分離文字の認識 3. 姿勢推定 5. 実験 6. まとめ

輪郭版 GH  GH との違い  特徴点を外側の輪郭から抽出  照合に図形の特徴を使用 A 特徴点数: P

A 輪郭版 GH ― 図形の照合  特徴ベクトルの計算 1. 正規化 2. 領域分割 3. 黒画素の割合のヒストグラム作成 4. 量子化 特徴ベクトル

輪郭版 GH ― 登録  特徴ベクトルをハッシュテーブルに登録 A A A Hash table … Hash ID : 1 Hash ID : 5 Hash ID : 2

輪郭版 GH ― 検索(認識) 1. 特徴ベクトルを作成 2. 字種に投票 A B...R … Result A A ID : 1ID : 5 ID : 2 Hash table

目次 1. 背景 2. 提案手法のアプローチ 3. 輪郭版 GH 4. 提案手法 1. 輪郭版 GH の高速化 2. 分離文字の認識 3. 姿勢推定 5. 実験 6. まとめ

A 提案手法1:輪郭版 GH の高速化 パターンを削減する原理  面積比  3 点の配置  面積比 S1S1 S’ 1 = S1S0S1S0 S’ 0 S0S0 通常の方法 面積比 アフィン不変量

提案手法1:輪郭版 GH の高速化 パターンを削減する原理  面積比  2 点の配置 + 面積比  3 点目の位置 通常とは逆の方法 A S1S1 S’ 1 = S1S0S1S0 S’ 0 S0S0 面積比 アフィン不変量

提案手法1:輪郭版 GH の高速化 提案手法のパターンの生成方法  1 点目:図形の重心 ( アフィン歪みに不変 )  2 点目:輪郭上の任意の点  3 点目:面積比によって決定 A 特徴点数: P

目次 1. 背景 2. 提案手法のアプローチ 3. 輪郭版 GH 4. 提案手法 1. 輪郭版 GH の高速化 2. 分離文字の認識 3. 姿勢推定 5. 実験 6. まとめ

 分離文字テーブルを作成 面積 : 5 面積 : 40 j j i i 登録 提案手法2:分離文字の認識

目次 1. 背景 2. 提案手法のアプローチ 3. 輪郭版 GH 4. 提案手法 1. 輪郭版 GH の高速化 2. 分離文字の認識 3. 姿勢推定 5. 実験 6. まとめ

提案手法3 : 姿勢推定  対応する3点からアフィン変換パラメータを推定 A アフィン変換 パラメータ 独立変倍 シアー 回転 拡大・縮小 紙面の姿勢文字の姿勢

目次 1. 背景 2. 提案手法のアプローチ 3. 輪郭版 GH 4. 提案手法 1. 輪郭版 GH の高速化 2. 分離文字の認識 3. 姿勢推定 5. 実験 6. まとめ

認識対象 236 文字 3フォント

認識実験  3 方向から撮影した画像を認識  計算サーバー( Opteron 2.6GHz )を使用 撮影角度: 45 度撮影角度: 0 度撮影角度: 30 度

実験条件  アフィン変換を受けると類似する文字は同一クラス とした 0 O o 6 9 C c I l S s u n W w X x N Z z p d q b 7 L V v

実験結果  高い認識率と高速性を実現  S: 精度と速さをコントロールするパラメータ 高精度高速 1秒間に約200文 字

目次 1. 背景 2. 提案手法のアプローチ 3. 輪郭版 GH 4. 提案手法 1. 輪郭版 GH の高速化 2. 分離文字の認識 3. 姿勢推定 5. 実験 6. まとめ

IMP Web カメラ 文書 リアルタイム に 認識結果を出 力 キャプチャ 実時間カメラベース文字認識システム 1 秒間に 200 ~ 250 文字程度認識可能

今後の課題  漢字への対応  切り出し方法の改良  連結成分の欠損への対応  着色された文字への対応

レイアウト非依存な 実時間カメラベース文字認識 岩村雅一 辻 智彦 堀松 晃 黄瀬浩一