banner

ブログ

Aug 25, 2023

研究者は AI を使用して画像内の類似物質を識別します

MIT ニュース オフィスの Web サイトでダウンロードできる画像は、クリエイティブ コモンズ表示、非営利、改変禁止ライセンスに基づいて、非営利団体、報道機関、および一般の人々に提供されています。 提供された画像は、サイズに合わせてトリミングする以外に変更することはできません。 画像を複製する場合はクレジットラインを使用する必要があります。 以下に提供されていない場合は、画像のクレジットを「MIT」に記載してください。

前の画像 次の画像

たとえば、キッチンで作業しながら物体を操作するロボットは、どの物品が同じ素材で構成されているかを理解することで有益になります。 この知識があれば、ロボットは、カウンターの影のある隅からバターを少し取っても、明るい冷蔵庫の中からスティック全体を取り出しても、同じ量の力を及ぼすことができることがわかります。

マテリアルの外観はオブジェクトの形状や照明条件に基づいて大幅に変化する可能性があるため、マテリアルの選択と呼ばれる、シーン内で同じマテリアルで構成されているオブジェクトを識別することは、マシンにとって特に困難な問題です。

MIT と Adob​​e Research の科学者は、この課題の解決に向けて一歩を踏み出しました。 彼らは、ユーザーが選択したピクセルに表示される特定のマテリアルを表す画像内のすべてのピクセルを識別できる技術を開発しました。

この方法は、物体の形状やサイズが異なる場合でも正確であり、彼らが開発した機械学習モデルは、同じ素材が異なって見える可能性のある影や照明条件によってだまされることはありません。

彼らは、3D シーンを変更してさまざまな画像を生成するコンピューターによって作成された「合成」データのみを使用してモデルをトレーニングしましたが、このシステムは、これまで見たことのない実際の屋内および屋外のシーンで効果的に機能します。 このアプローチはビデオにも使用できます。 ユーザーが最初のフレームのピクセルを識別すると、モデルはビデオの残りの部分全体で同じ素材で作られたオブジェクトを識別できます。

この方法は、ロボット工学のシーン理解への応用に加えて、画像編集に使用したり、画像内のマテリアルのパラメータを推定する計算システムに組み込んだりすることもできます。 素材ベースのWebレコメンデーションシステムにも活用できるだろう。 (たとえば、買い物客は特定の種類の生地で作られた衣類を探していると考えられます。)

「操作しているマテリアルを知ることは、多くの場合非常に重要です。2 つのオブジェクトは似ているように見えても、異なるマテリアル特性を持つ可能性があります。私たちの方法により、同じマテリアルで作られた画像内の他のすべてのピクセルの選択が容易になります。」電気工学およびコンピューターサイエンスの大学院生であり、この技術に関する論文の筆頭著者であるプラフル・シャルマ氏は言います。

Sharma の共著者には、Adobe Research の研究員である Julien Philip 氏と Michael Gharbi 氏が含まれます。 および主著者である William T. Freeman 氏は、電気工学およびコンピュータ サイエンスのトーマスおよびゲルト パーキンス教授であり、コンピュータ サイエンスおよび人工知能研究所 (CSAIL) のメンバーです。 フレド・デュランド氏、電気工学およびコンピューターサイエンスの教授であり、CSAIL のメンバー。 そしてAdobe Researchの研究員であるValentin Deschaintre氏。 この研究は、SIGGRAPH 2023 カンファレンスで発表されます。

新しいアプローチ

マテリアルを選択するための既存の方法では、同じマテリアルを表すすべてのピクセルを正確に識別するのが困難です。 たとえば、一部のメソッドはオブジェクト全体に焦点を当てますが、木製の肘掛けと革製のシートを備えた椅子のように、1 つのオブジェクトが複数の素材で構成される場合があります。 他の方法では、所定の材料セットを利用する場合がありますが、木材には何千もの種類があるにもかかわらず、「木材」のような広範なラベルが付けられることがよくあります。

代わりに、Sharma と彼の共同研究者は、画像内のすべてのピクセルを動的に評価して、ユーザーが選択したピクセルと画像の他のすべての領域の間のマテリアルの類似性を判断する機械学習アプローチを開発しました。 画像にテーブルと 2 脚の椅子が含まれており、椅子の脚とテーブルトップが同じ種類の木材で作られている場合、モデルはそれらの類似領域を正確に識別できます。

研究者らが類似の材料を選択する方法を学習する AI 手法を開発する前に、いくつかのハードルを克服する必要がありました。 まず、既存のデータセットには、機械学習モデルをトレーニングできるほど細かくラベル付けされたマテリアルが含まれていませんでした。 研究者らは、屋内シーンの独自の合成データセットをレンダリングしました。これには、各オブジェクトにランダムに適用された 50,000 枚の画像と 16,000 個以上のマテリアルが含まれていました。

「私たちは、個々の種類の素材が個別にマークされるデータセットを望んでいました」と Sharma 氏は言います。

彼らは合成データセットを手に入れて、実際の画像内の類似した素材を識別するタスク用の機械学習モデルをトレーニングしましたが、失敗しました。 研究者らは、分布の変化が原因であることに気づきました。 これは、モデルが合成データでトレーニングされるときに発生しますが、トレーニング セットとは大きく異なる可能性がある現実世界のデータでテストすると失敗します。

この問題を解決するために、彼らは何百万もの実際の画像を確認した事前トレーニング済みのコンピューター ビジョン モデルの上にモデルを構築しました。 彼らは、すでに学習した視覚的特徴を活用することで、そのモデルの事前知識を活用しました。

「機械学習では、ニューラル ネットワークを使用する場合、通常、表現とタスクを解決するプロセスを一緒に学習します。私たちはこれを解きほぐしました。事前トレーニングされたモデルが表現を提供し、その後、私たちのニューラル ネットワークは課題を解決することに集中します。」任務だ」と彼は言う。

類似性を解く

研究者のモデルは、一般的な事前トレーニング済みの視覚的特徴をマテリアル固有の特徴に変換します。これは、オブジェクトの形状やさまざまな照明条件に対して堅牢な方法で行われます。

その後、モデルは画像内のすべてのピクセルのマテリアル類似性スコアを計算できます。 ユーザーがピクセルをクリックすると、モデルは 1 つおきのピクセルの外観がクエリにどれだけ近いかを判断します。 各ピクセルが類似性に関して 0 から 1 のスケールでランク付けされるマップが作成されます。

「ユーザーが 1 ピクセルをクリックするだけで、モデルが同じマテリアルを持つすべての領域を自動的に選択します」と彼は言います。

モデルは各ピクセルの類似性スコアを出力するため、ユーザーは類似性 90% などのしきい値を設定して結果を微調整し、それらの領域が強調表示された画像のマップを受け取ることができます。 この方法は、画像間の選択にも機能します。ユーザーは 1 つの画像でピクセルを選択し、別の画像で同じ素材を見つけることができます。

研究者らは実験中に、自分たちのモデルが同じ物質を含む画像の領域を他の方法よりも正確に予測できることを発見した。 グラウンド トゥルース (同じ素材で構成される画像の実際の領域) と比較して予測がどの程度正確であるかを測定したところ、モデルは約 92% の精度で一致しました。

将来的には、画像内のオブジェクトの細部をより適切にキャプチャできるようにモデルを強化し、アプローチの精度を高めたいと考えています。

「豊かなマテリアルは、私たちが住む世界の機能性と美しさに貢献します。しかし、コンピューター ビジョン アルゴリズムは通常、マテリアルを無視し、代わりにオブジェクトに重点を置きます。この論文は、幅広い困難な条件下で画像やビデオ内のマテリアルを認識することに重要な貢献をします」 」とコーネル バウワーズ コンピューティング情報科学大学の学部長であり、この研究には関与していないコンピューター サイエンスの教授であるカビタ バラ氏は述べています。 「このテクノロジーは、最終消費者にとってもデザイナーにとっても同様に非常に役立ちます。たとえば、家の所有者は、ソファの張り替えや部屋のカーペットの交換などの高価な選択がどのように発生するかを想像でき、デザインの選択により自信を持てるようになります。これらの視覚化に基づいています。」

MITの研究者らは、画像内のどのピクセルが同じ素材を表しているかを識別できる新しい機械学習技術を開発した。これはロボットのシーンの理解に役立つ可能性があると、TechCrunchのカイル・ウィガーズ氏が報告している。 「オブジェクトには色やその他の視覚的側面だけでなく、複数のマテリアルが含まれる可能性があるため、これは非常に微妙な区別ですが、直感的な区別でもあります」とウィガーズ氏は書いています。

前の項目 次の項目

前の項目 次の項目

新しいアプローチ 類似性を解決する
共有