Neural 3D Mesh Renderer

加藤 大晴    牛久 祥孝    原田 達也†‡
東京大学    理化学研究所
2017-11-21

画像の3Dメッシュ化



画像から3Dへのスタイル転移



3D版ディープドリーム



これらは、メッシュのレンダリングの『逆伝播』を再定義し、ニューラルネットワークへと組み込むことによって実現されます。

概要

ニューラルネットワークに組み込むことができる3Dメッシュのレンダラーである Neural Renderer を開発しました。『逆伝播』と呼ばれる処理をニューラルネットワークに適した形に定義し直したことがポイントです。

そしてこのレンダラーを (a) 単一画像からの3Dメッシュの再構成 (b) 画像から3Dへのスタイル転移と3D版ディープドリームへと応用しました。

概要(論文より)

For modeling the 3D world behind 2D images, which 3D representation is most appropriate? A polygon mesh is a promising candidate for its compactness and geometric properties. However, it is not straightforward to model a polygon mesh from 2D images using neural networks because the conversion from a mesh to an image, or rendering, involves a discrete operation called rasterization, which prevents back-propagation. Therefore, in this work, we propose an approximate gradient for rasterization that enables the integration of rendering into neural networks. Using this renderer, we perform single-image 3D mesh reconstruction with silhouette image supervision and our system outperforms the existing voxel-based approach. Additionally, we perform gradient-based 3D mesh editing operations, such as 2D-to-3D style transfer and 3D DeepDream, with 2D supervision for the first time. These applications demonstrate the potential of the integration of a mesh renderer into neural networks and the effectiveness of our proposed renderer.

論文

論文は arXiv で入手できます。

実験結果

単一画像からの3Dメッシュの再構成

提案手法によって、一枚の画像から3Dメッシュを再構成することができます。

ボクセルベースの手法 [1] との比較

メッシュの再構成では、ボクセルの再構成における「解像度を高めるのが難しい」「立方体状のギザギザが出てしまう」といった問題が生じません。

提案手法の再構成性能は、ボクセルの IoU で比較して、13カテゴリ中10カテゴリでボクセルベースの手法を上回っています。

airplanebenchdressercarchairdisplaylampspeakerriflesofatablephonevesselmean
Retrieval-based [1].5564.4875.5713.6519.3512.3958.2905.4600.5133.5314.3097.6696.4078.4766
Voxel-based [1].5556.4924.6823.7123.4494.5395.4223.5868.5987.6221.4938.7504.5507.5736
Mesh-based (ours).6172.4998.7143.7095.4990.5831.4126.6536.6322.6735.4829.7777.5645.6016

画像から3Dへのスタイル転移

開発したレンダラーを応用すると、絵画の「スタイル」を3Dモデルに転移することができます。ウサギの輪郭やティーポットの蓋から、3Dモデルのテクスチャだけではなく形状も変化していることが見て取れます。

使用した絵画は Thomson No. 5 (Yellow Sunset) (D. Coupland, 2011), The Tower of Babel (P. Bruegel the Elder, 1563), The Scream (E. Munch, 1910), Portrait of Pablo Picasso (J. Gris, 1912) です。

3D版ディープドリーム

これは ディープドリーム の3D版です。

技術の概略

2D画像から3D世界を理解することはコンピュータビジョンにおける本質的な課題のひとつです。3Dモデルを元に2D画像を生成することをレンダリングと呼びますが、これは2D画像と3D世界の境界に位置するものであり、視覚システムにおいて非常に重要な構成要素であるといえます。いくつかある3Dの形式のうち、3Dメッシュは効率的で表現能力が高く直感的な形式なので、3Dメッシュのレンダリングの『逆伝播』を取り上げることには価値があると考えられます。

メッシュのレンダリングは、その途中にある離散的な操作が『逆伝播』を妨げてしまうため、何らかの修正を施さないとニューラルネットワークに組み込むことができません。本研究では、レンダリングのための近似的な勾配を提案し、それによってレンダリングを含むニューラルネットワークの学習を実現させています。このレンダラーの詳細については論文をご参照ください。

上記に示した応用例はこのレンダラーを用いることで実現されています。そのシステムの概要を下図に示します。

3Dメッシュ生成器はシルエットの画像を用いて訓練されます。生成器は、画像から復元した3D形状のシルエットと、その物体の本当のシルエットの差が小さくなるように学習してゆきます。

画像から3Dへのスタイル転移は、画像を用いて定義された「スタイルの差」が小さくなるように形状とテクスチャを最適化することによって行われます。ディープドリームも似たような方式で行なえます。

これらの応用は、開発したレンダラーを通して2D画像空間における情報を3D空間へと流すことによって実現されます。

さらに詳しい情報については論文をご参照ください。

ソースコード

引用

@article{kato2017renderer,
  title={Neural 3D Mesh Renderer},
  author={Kato, Hiroharu and Ushiku, Yoshitaka and Harada, Tatsuya},
  journal={arXiv:1711.07566},
  year={2017}
}

参考文献

  1. X. Yan et al. “Perspective Transformer Nets: Learning Single-view 3D Object Reconstruction without 3D Supervision.” Advances in Neural Information Processing Systems (NIPS). 2016.

シェア

連絡先