59cbd15dc686a697fa3cce6f53c4b888.ppt
- Количество слайдов: 68
視覚情報処理論 ・ 三次元画像処理特論
概要 n 今週と次週の2回 画像ベース物体認識に関する最近の論文 n 今週のテーマ n n 最近の物体認識手法の基本的なアイデア 20Qと対比 CVPR 2007 の論文から1件
物体認識とは? 古典的な定義 「あらかじめ与えられた物体Aが、入力画 像Xの中に存在するか否か、存在するとす ればどこにあるか、を自動的に決定するこ と」 n 究極の問題(未解決) 「入力画像Xのみを与えて、そのXがどうい う画像であるかを自動的に決定すること」 n
古典的な問題の例 n この車は何だ? n あらかじめ教えた車のどれだ?
究極問題の例 n これは何だ? n 一般道、片側4車線、左側通行、分離帯、信号交差点…
認識と検出とは違う n 認識の例:生体認証 n n 検出の例:侵入者検知 n n 顔等から個人を特定 温度が37度程度の物体に反応 検出の進化したものが認識
認識対象の変化 n 特定の1つの物体(位置不明、邪魔あり) 特定の性質をもつ物体 n 不特定の性質をもつ物体 n n (特定:必要な情報が入手可能なもの)
特定物体の認識 n 「お手本」(特定物体)を用意する モデルを作る n 入力画像から「お手本」を探す n
古典的な問題でも大変 左の物体は右の画像のどこにある?
特定物体のモデルの作り方 n 物体の特徴量から恣意的に生成 古典的、カメラによらない「特徴量」が必要 →環境に応じた調整が必要 →現在は非主流 n n 画像の見え方から自動生成 n n 主成分分析等演繹的手法 ニューロ、GA等帰納的手法
モデルに要求される条件 n n n 物体の平行移動によらない 物体の姿勢(回転)によらない 物体の大きさによらない 物体の置かれている環境によらない 下に行くほど難しい 下に行くほど「一般的」「大雑把」
モデルの考え方 n n 1つの特徴ですべてを表すのは無理 多くの特徴をすべて有する、という形で表 現するのが現代流
20Q(閑話休題) n n 好きなものを思い浮かべると、20の質問 でそれをあてるもの http: //www. 20 q. net/
20 Q と物体認識 n n あらかじめ人が思いつく言葉を用意 言葉を区別する質問を用意 言葉が認識対象 n 1つの質問が特徴 n 多くの特徴の共通部分が認識対象 (Yes, No だけでも220≒ 100万, 240≒ 11兆 広辞苑第 5版23万語、OED 30万語 世界の人口: 60億ー 70億) n
余談 n ちなみに、20 Qの必勝法は、言葉を辞書式 順序に並べて二分法で質問すること n n 20 Qはこのような必勝法があることをわかった 上でわざと異なる質問をしてゲーム性を表現 これは、物体認識の言葉で言えば、1次元 の情報ですべての物体が区別できることを 意味する n ビジョンの世界では、こうした特徴をいかにみ つけるかがポイントの1つ
物体認識の考え方と困難性 n n あらかじめ認識対象は用意する その特徴をたくさん抽出する n n n 20 Qでいう、Yes, No (確率)で答えられる質問 質問は事前に決まっている(非対話的) 答は入力画像との演算で得られるもの n どのような質問をどんな順序で行うか? n 状況証拠の積み重ね
屋内と屋外との環境の違い n 屋外の方が一般に複雑 n 照明 n n n 屋内は制御可能:一定にできる 屋外は制御不可能 障害物 n n 屋内は制御可能:邪魔な物体は排除可能 屋外は何がどこにあるか予測不可能
屋外の問題点
技術論基礎(1) (復習) 画像は 1次元ベクトルで表現。カラーの場合は一 点が RGB の3つで表現される n 256 x 256 で 8 bit モノクロ画像の場合、理論的に は (2^8)^(256*256) 通りの画像の可能性があ る:約10^(16万)次元ベクトル空間の点となる (全宇宙の原子数: 10^80程度) n したがって、認識物体の画像をそのまま持ってい ることは物理的に不可能 n モデル低次元化の必要性 n
技術論基礎(2) n 静止画か動画か? n 動画なら複数フレームによる情報量大 静止画で可能な手法は動画でもできる 静止画の方がカメラの性能がよい n 近年は動画を使うのが一般的 n n n 動画の連続性 複数画像による「多数決」原理 状況証拠が増える
技術論基礎(3) n カメラは固定か移動か? n 固定なら、カメラ位置姿勢は既知か? 移動なら、カメラの運動は既知か? n 固定カメラ、カメラ位置姿勢既知が容易 n n 対象物体の条件は変化するか? n n 移動するか(スケール、回転、平行移動)? 光源環境は制御可能か否か?
技術論基礎(4) n あらかじめ用意するデータベース n n n モデルの次元:小さいほどいい 探索方法:モデルの次元大⇒長時間 学習が必要か? n n 必要ならデータベース作成に長時間を要す 実データを使って人間が教え込む必要がない 方が望ましい
技術論基礎(5) n 20 Qで1つに絞れなかったらどうするか? n n n 20 Qはあくまでも候補を選択するもの 候補を絞って、与えられた候補内から最適 のものを探す(予選・決勝) 候補を絞る n n モデルの次元を下げる:よいモデルの作成 探索方法の高速化:効率の良い探索方法
近年の探索方法(1) n 質問を単純化 n Bag-of-Features n n n Ada boost n n n 特徴量ヒストグラムの相関 多数の特徴量を1つにまとめる 簡単な質問を多数用意 20 Qでやったように数が増えれば状況証拠が増える 数で勝負!
近年の探索方法 (2) n Deep Learning n n 昔のニューラルネットワーク登場時の熱気 当時は中間層は1つだけ 本格的ニューラルネットワーク 計算機の進歩により多数の中間層 n n 「正解」ではなく「近似解」を探す なぜかわからないが動く
近年/今後の認識対象 n Big data n n n モデルの次元が高いままか、低くするか Deep Learning により探索が可能に Point cloud(2 D画像→ 3 D距離画像) n n n 3次元カメラ「距離」画像 パノラマと同じで 1枚では物体を表現出来ず 大規模(街レベル)ならどうなるか
論文紹介(1) n n PEET: Prototype Embedding and Embedding Transition for Matching Vehicles over Disparate Viewpoints Yanlin Guo Ying Shan Harpreet Sawhney Rakesh Kumar Sarnoff Corporation (USA) CVPR 2007
最終目的 n 左図のようないろ いろな環境で撮ら れた同じ車両を同 じものとして認識 する手法PEETの 提案
仮定 n n n 固定カメラから画像列を取得 画像列から車を 1台 1台トラッキングできる 車種データはあらかじめCGで所持 (暗黙の仮定) n カメラと道路の位置関係は既知 n 車両はどのカメラの前もほぼ等速で走行 n 車両の軌跡は既知(車線変更なし)
提案手法PEETの概要 n PE(Prototype Embedding) n n ET(Embedding Transition) n n N 1個のモデルをカメラ2の画像列に変換 Model-to-image: 候補者選出 n n カメラ1の画像列から既知3Dモデルから上位 N 1位算出 ETで得た画像列に最適なN 2の画像列を算出 最適候補の算出 n N 1*N 2の組み合わせから最適なものをとる
概要
モデルの作り方 n 画像列の違いを K フレーム分並べたもの 対象物体iのカメラj におけるkフレーム 目の画像と元画像と の差を di, j, k とする i, j を固定して k を動かした K次元ベクトル空間の点を モデルとする
このモデルの特徴 n 画像サイズに比べて K は十分小さい n n n 実際には、原画像でなくエッジを利用 n n n 1秒で通過すればK=30 車両領域は 10 x 10であっても 100 色の違いは一般に区別しない 一般に車両との対応は 1対 1ではない しかし、似ている車両の特徴は似ている
このモデルによる類似
このモデルによる認識? カメラと道路の位置関係が近いなら可能 n カメラ1とカメラ2との2つの画像列の質問 カメラ1の物体iとカメラ2の物体jについて 「di, 1, 1 と dj, 2, 1 は似ているか?」 「di, 1, 2 と dj, 2, 2 は似ているか?」 n 「di, 1, K と dj, 2, K は似ているか?」(K-Q) ※Kはすべてのカメラ、物体について共通
この認識の問題点 n 走行車両台数(m)分の比較が必要 2つのカメラ間で見えが違うと困る(照明条 件や背景の違い) n カメラの姿勢が異なると全く認識できない n n カメラ1が車両正面、カメラ2が車両の後だと ?
認識できない例
PE(Prototype Embedding) n n n あらかじめ車両の3Dモデル(CG)を用意 CGはエッジが出やすいようにパーツごと に色分けしておく カメラと道路の位置関係は既知 CG車両の di, j が取得可能 この di, j を PE と呼ぶ
CGとそのエッジ取得例
ET(Embedding Transition) n カメラ位置が既知の2つのカメラ カメラ1のImage→CG (PE) CGとカメラ2のImageとのマッチング n PEを介して2つの di, j と di’, j’が比較可能 n n
PEの考え方
PEによるクラス認識
PEの正当性
対称性を考慮した改良 n 今までの流れ n n n これに加えて、上でえられた候補について n n カメラ 1のimage →CGモデル →カメラ2のimage 一方通行! 候補→CGモデル→カメラ1のimage この結果、元のカメラ1のimageがでるもの 結果はかなり改善される
対称性が利用できない場合 n カメラ1とカメラ2が同じ解像度(認識対象 物体の外接長方形の大きさがほぼ同じ)な ら前述の改良方法は有効 n 解像度が異なる場合(あるいは、対象物体 のスケールがことなる場合)は無効
複数カメラの解像度が異なる時
説明 n n カメラ1:高解像度、カメラ2:低解像度 カメラ1のモデルを「変形」したのがカメラ2 変形度合いを関数で表現するのが RBF (Radical Basis Function): CGモデル からカメラ2で得られるであろうデータを利 用して取得
いい加減な説明 K次元空間 RBF 低解像度 高解像度
(おまけ)クラス認識の概念 n n RBFの考え方 20 Qの考え方 (SVM) 境界のどっち? 同じクラス
PEETのポイント n n あらかじめ用意するのは車両CGのみ 特徴量は、K次元ベクトル空間の点 n n 1枚の画像を 1次元にしてしまう 1台カメラの1物体で考えればK-Q 1 -Q (1画像)では頼りなくても画像列で勝負 2台カメラ間の対応が容易 n 一般には面倒
2台カメラ間での対応(ET)
2台カメラ間での対応(一般)
PEET の応用例 n PE によるクラス認識 n n n 高解像度カメラの場合 低解像度カメラの場合 複数カメラ間でのマッチング
実験内容 n n n 4 km 2内に散らばった交通監視カメラ 道路は片側2-3車線 30分間のデータを利用(交通量 200台) 高解像度:カメラから近い車線 低解像度:カメラから遠い車線(0. 5 -0. 9)
PEによるクラス認識(高解像度) n Image→model
PEによるクラス認識(高解像度) n 結果(データセット1) TD=(Siだった車両数)/(Siと判定された車両数) MD=(Siと判定されなかった車両数)/(全車両数) S 1: セダン S 2: ミニバン S 3: ワンボックス S 4: ピックアップ S 3, S 4は台数が少ない
PEによるクラス認識(高解像度) n 結果(データセット2) TD=(Siだった車両数)/(Siと判定された車両数) MD=(Siと判定されなかった車両数)/(全車両数) S 1: セダン S 2: ミニバン S 3: ワンボックス S 4: ピックアップ S 3, S 4は台数が少ない
PEによるクラス認識(低解像度) n Image→model + RBF
PEによるクラス認識(低解像度) n 結果 TD=(Siだった車両数)/(Siと判定された車両数) MD=(Siと判定されなかった車両数)/(全車両数) S 1: セダン S 2: ミニバン S 3: ワンボックス S 4: ピックアップ S 3, S 4は台数が少ない
複数カメラ間でのマッチング n Image→model→image & v. v.
マッチング例(1)
マッチング例(2)
マッチング結果
この論文で出てきたポイント n 屋外でのモデリング n n 画像列の処理 n n 1枚の画像を1つに数値にする 解像度の異なるカメラ間での対応 n n エッジベースにした 見えの変化をRBFで定式化 姿勢の異なるカメラ間での対応 n CGモデルを介して可能とした
20 Qとの対応 n エッジベースにした屋外モデリング n n 1枚の画像を1つに数値にする n n 質問の自動生成 見えの変化をRBFで定式化 n n 質問の答が確実に返るようにした あいまいな返答を定式化 姿勢の異なるカメラ間での対応 n 複数の質問の返答から効率よく答を絞る
余談 n 2地点間の車両マッチングには「車群列」の マッチング手法もある n 本論文の手法は「特定車両」を認識するに は精度が悪いと思われる n ナンバープレート読取りや通信を利用する 手法が実用化されている
まとめ n n 物体認識の一般論 20 Qに例えて n n 多くの性質を同時に有するモノは少ない いかに認識に効率のよい性質を用意するか ? その性質は頑健性があるか? 回答に確率を使った「曖昧さ」を利用
次回予告 n n 次の2つの論文を紹介 Semantic Hierarchies for Recognizing Objects and Parts n n n Boris Epshtein Shimon Ullman Weizmann Institute of Science, ISRAEL Accurate Object Localization with Shape Masks n n Marcin Marszaek Cordelia Schmid INRIA, LEAR - LJK
59cbd15dc686a697fa3cce6f53c4b888.ppt