安価なセンサーとカメラから高解像度の深度データを取得するAIに関する記事で思うこと

by souichirou · 公開済み 2020年7月23日 · 更新済み 2021年7月8日

Contents

高解像度の深度データ

ケンブリッジコンサルタンツ（Cambridge Consultants）が安価なセンサーとカメラ（数千円程度とあった）のデータからAIを使って高解像度の深度データを生成するEnfuseNet（エンフューズネット）というシステムを開発したとのプレスリリース記事を見た。

Cambridge ConsultantsのEnfuseNetプレスリリースより

高解像度の深度データ（センサーから物体までの距離の情報）を得ることは車の自動運転には不可欠な技術で対向車や歩行者、前・後・横の車との距離、位置関係を３Dかつ高解像度で得ることは自動運転車の”目”に相当する。

そして深度データを得る方法はLiDAR（ライダー）の搭載が一般的なアプローチで自動運転レベル３を実現しているアウディ A8はLiDARを搭載している。

LiDARとは

LiDARはLight Detection and Rangingの略でレーザーを照射して物体に当たって反射してきた光を受けてその発光から受光までの時間から物体との正確な距離を測定する技術の事。

現状の自動ブレーキの主流はミリ波を使っていて、こちらも物体との距離は測定できるのだが正確な形状や３Dの位置関係を検知する事は困難なのでレベル３以上の自動運転ではLiDARの様な高精度な深度を測定出来る技術が必要になると言われている。

LiDARは人工衛星や飛行機などに既に搭載されており矢野経済研究所の発表では２０１７年の市場規模２５億円から２０３０年には４９５９億円になると発表していた。

ただ難点としては価格が高い事だった。

２０１８年頃では完全自動運転に耐えうる高性能なLiDARは数百万円していたのだ。

しかし２０１９年７月には米Luminar社が５００ドル（５４，０００円）のLiDARを発表していて、あまりの低価格に驚いた記憶がある。

そもそも高かった理由の一つに全方位の深度を検出する為にレーザーと検出器を回転させるメカニカルな構造だった事もある。

それに対して半導体技術でメカニカルな部分を置き換えるソリッドステート式に変わってきたことも低価格化が促進された理由のひとつだ。

テスラ社の自動運転システム

一方、自動運転で先を行っているテスラ社のイーロン・マスク氏は高価なLiDARには否定的で２０１９年の４月（５００ドルのLiDARが発表される数ヶ月前）には「LiDARは価格が高いので完全自動運転車には要らない」「anyone relying on LiDAR is doomed（LiDARを当てにしている人に未来はない・意訳）」等と発言していた。

イーロン・マスクの事なので低価格LiDARを開発させるための挑発的な発言だったのかも知れないが、実際テスラ車にはLiDARは搭載されておらずカメラとレーダーに頼っている。

ただLiDARを搭載していれば避けられたかも知れない事故を幾つか起こしている。

２０２０年６月に道路の真ん中に横転しているトレーラーの荷台部分にテスラのモデル３が激突しており（幸い死傷者は居ない）テスラ車の方式では大きな静止した（特に白色の）障害物の検知が苦手と言われている。

EnfuseNet

前置きが長くなったが、ここでEnfuseNetの発表である。

数千円程度の安価なセンサーとカメラの映像から物体との高解像度の深度データをAIで生成するシステムだ。

まずは横転した白色のトレーラーの検知が出来るのか？が気になるが、人の目で検知できるのであれば検知できると思う（思いたい）。

そもそも人間は人体からレーザーもミリ波も出していないが目からの映像情報を元に物体とのおよその距離を把握することが出来ている。

それは人間が今までの様々なモノを見てきた経験を学習した事により対向車や歩行者の位置関係を３D的に把握できているとも言える。

その経験、学習の部分をAI（Deep Learning）で代替する事でこの様なシステムが実現できたのだと思う。

シミレーションサイト

こちらにEnfuseNetのデモサイトがあったので見たのだが結構見ごたえがあって面白かった。

元の映像

最初に右側にカメラからの映像（動画）が表示されている。

Cambridge ConsultantsのEnfuseNetデモサイトより

低価格・低解像度のLiDAR

最初にAIを使わずにLiDARでの深度データ（物体との距離を色で表す）のシミレーションが表示される。

赤が近く、紫が遠くを表しており低価格、低解像度のLiDARの深度データのシミレーションでは右下と左下に何かモノが近くにある（オレンジになっている部分）ことは分かるが、このレベルでは完全自動運転には到底対応できないことが分かる。

Cambridge ConsultantsのEnfuseNetデモサイトより

前述の米Luminar社は高解像度のLiDARも手掛けていて、５００ドルのLiDARがどの程度の解像度かは良く分からなかったのだが、流石にこのレベルという事は無いと思う。

中価格・中解像度のLiDAR

中価格、中解像度のLiDARをシミュレートした時の深度データ。

このレベルでも完全自動運転にはちょっと厳しいかも知れない。

Cambridge ConsultantsのEnfuseNetデモサイトより

高価格・高解像度のLiDAR

高価格、高解像度のLiDARの深度データのシミレーション。

手前の車の輪郭や奥の車、周りの建物の深度データが分かる。

Cambridge ConsultantsのEnfuseNetデモサイトより

AIモデル使用

そしてこちらがAIモデルを使用した時の深度予測の結果。

Cambridge ConsultantsのEnfuseNetデモサイトより

安価なカメラからの２Dの映像情報をベースにAIで物体検出を行い、深度予測（物体との距離）が出来ている様子がよく分かる。

車のピラーの部分の検出など若干、高解像度のLiDARに及ばない所も見受けられるがこの差が完全自動運転にどの様な影響を与えるのは自分には正直良く分からない。

しかし中解像度のLiDARよりもかなり高精度な深度データが予測されている事が分かる。

エラー予測

下記の映像はエラー予測で、色が付いている部分は不確実性が高い部分となっている。

Cambridge ConsultantsのEnfuseNetデモサイトより

手前は精度が高くて奥になるにつれて不確実性が高くなっている様子がよく分かる。

LiDARではレーザーによる測定結果が全てなのでエラー予測という考え方がそもそも存在しない。

しかしAIモデルでの物体検知（Object Detection）だと予測精度（Score）がモデルから得られるので上記の様なエラー予測ができるだと思う。

先程のシミレーションの画面でもLiDARは深度データとなっていたがAIモデルの方は深度”予測”となってた。

”予測”というとデータに比べて若干曖昧なニュアンスが感じられるが、それは言葉選びの範疇で実際の精度を表すモノでは考えた方が良いだろう。

使われているモデル

画像認識のモデルはCNNs（Convolutional Neural Networks）、FCNs（Fully Convolutional Neural Networks）を使っているとあった。

やはり映像の認識にはDeep LearningのCNNが現時点では最強の選択なのだろう。

最後に

ユーザー（乗り手）からすれば安全で費用対効果に見合った価格であればLiDARだろうがカメラ＋AIでもどちらでも良いことだと思う。

同じ課題（物体との深度データを取得する）を解決するのに全く違うアプローチでお互いが競争をしている状況は最終的にはユーザの利益につながるので当事者達には申し訳ないがありがたい競争なのでもっとやって欲しい。

自分はDeep LearningのG検定取得者なので若干のAI贔屓感は否めないがLiDARも面白そうな技術であることには変わらない。

しかし人の動きを検出するゲームのMicrosoftのKinect（キネクト）のカメラが当初は３Dの高価なカメラが必要だったのが通常の２Dカメラの映像でもAIを使えば同様の骨格検出ができるようになった経緯・流れをみるとDeep Learningにかなり分があるようには感じる。

最後に

この記事が何処かで誰かの役に立つことを願っている。

尚、当記事中の商品へのリンクはAmazonアソシエイトへのリンクが含まれています。Amazonのアソシエイトとして、当メディアは適格販売により収入を得ていますのでご了承ください。

月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

安価なセンサーとカメラから高解像度の深度データを取得するAIに関する記事で思うこと