Neural 3D Mesh Renderer

加藤 大晴1    牛久 祥孝1    原田 達也1,2
1東京大学    2理化学研究所
CVPR 2018 (spotlight)

画像の3Dメッシュ化



画像から3Dへのスタイル転移



3D版ディープドリーム



これらは、メッシュのレンダリングの『逆伝播』を再定義し、ニューラルネットワークへと組み込むことによって実現されます。

概要

ニューラルネットワークに組み込むことができる3Dメッシュのレンダラーである Neural Renderer を開発しました。『逆伝播』と呼ばれる処理をニューラルネットワークに適した形に定義し直したことがポイントです。

そしてこのレンダラーを (a) 単一画像からの3Dメッシュの再構成 (b) 画像から3Dへのスタイル転移と3D版ディープドリームへと応用しました。

概要(論文より)

For modeling the 3D world behind 2D images, which 3D representation is most appropriate? A polygon mesh is a promising candidate for its compactness and geometric properties. However, it is not straightforward to model a polygon mesh from 2D images using neural networks because the conversion from a mesh to an image, or rendering, involves a discrete operation called rasterization, which prevents back-propagation. Therefore, in this work, we propose an approximate gradient for rasterization that enables the integration of rendering into neural networks. Using this renderer, we perform single-image 3D mesh reconstruction with silhouette image supervision and our system outperforms the existing voxel-based approach. Additionally, we perform gradient-based 3D mesh editing operations, such as 2D-to-3D style transfer and 3D DeepDream, with 2D supervision for the first time. These applications demonstrate the potential of the integration of a mesh renderer into neural networks and the effectiveness of our proposed renderer.

論文

論文は arXiv で入手できます。

実験結果

単一画像からの3Dメッシュの再構成

提案手法によって、一枚の画像から3Dメッシュを再構成することができます。

ボクセルベースの手法 [1] との比較

メッシュの再構成では、ボクセルの再構成における「解像度を高めるのが難しい」「立方体状のギザギザが出てしまう」といった問題が生じません。

提案手法の再構成性能は、ボクセルの IoU で比較して、13カテゴリ中10カテゴリでボクセルベースの手法を上回っています。

airplanebenchdressercarchairdisplaylampspeakerriflesofatablephonevesselmean
Retrieval-based [1].5564.4875.5713.6519.3512.3958.2905.4600.5133.5314.3097.6696.4078.4766
Voxel-based [1].5556.4924.6823.7123.4494.5395.4223.5868.5987.6221.4938.7504.5507.5736
Mesh-based (ours).6172.4998.7143.7095.4990.5831.4126.6536.6322.6735.4829.7777.5645.6016

画像から3Dへのスタイル転移

開発したレンダラーを応用すると、絵画の「スタイル」を3Dモデルに転移することができます。ウサギの輪郭やティーポットの蓋から、3Dモデルのテクスチャだけではなく形状も変化していることが見て取れます。

使用した絵画は Thomson No. 5 (Yellow Sunset) (D. Coupland, 2011), The Tower of Babel (P. Bruegel the Elder, 1563), The Scream (E. Munch, 1910), Portrait of Pablo Picasso (J. Gris, 1912) です。

3D版ディープドリーム

これは ディープドリーム の3D版です。

技術の概略

2D画像から3D世界を理解することはコンピュータビジョンにおける本質的な課題のひとつです。3Dモデルを元に2D画像を生成することをレンダリングと呼びますが、これは2D画像と3D世界の境界に位置するものであり、視覚システムにおいて非常に重要な構成要素であるといえます。いくつかある3Dの形式のうち、3Dメッシュは効率的で表現能力が高く直感的な形式なので、3Dメッシュのレンダリングの『逆伝播』を取り上げることには価値があると考えられます。

メッシュのレンダリングは、その途中にある離散的な操作が『逆伝播』を妨げてしまうため、何らかの修正を施さないとニューラルネットワークに組み込むことができません。本研究では、レンダリングのための近似的な勾配を提案し、それによってレンダリングを含むニューラルネットワークの学習を実現させています。このレンダラーの詳細については論文をご参照ください。

上記に示した応用例はこのレンダラーを用いることで実現されています。そのシステムの概要を下図に示します。

3Dメッシュ生成器はシルエットの画像を用いて訓練されます。生成器は、画像から復元した3D形状のシルエットと、その物体の本当のシルエットの差が小さくなるように学習してゆきます。

画像から3Dへのスタイル転移は、画像を用いて定義された「スタイルの差」が小さくなるように形状とテクスチャを最適化することによって行われます。ディープドリームも似たような方式で行なえます。

これらの応用は、開発したレンダラーを通して2D画像空間における情報を3D空間へと流すことによって実現されます。

さらに詳しい情報については論文をご参照ください。

ソースコード

引用

@InProceedings{kato2018renderer
    title={Neural 3D Mesh Renderer},
    author={Kato, Hiroharu and Ushiku, Yoshitaka and Harada, Tatsuya},
    booktitle={The IEEE Conference on Computer Vision and Pattern Recognition (CVPR)},
    year={2018}
}

関連論文

参考文献

  1. X. Yan et al. “Perspective Transformer Nets: Learning Single-view 3D Object Reconstruction without 3D Supervision.” Advances in Neural Information Processing Systems (NIPS). 2016.

Neural renderer を使用している論文

  1. Weakly-Supervised Domain Adaptation via GAN and Mesh Model for Estimating 3D Hand Poses Interacting Objects [Baek et al. CVPR 2020]
  2. Coherent Reconstruction of Multiple Humans From a Single Image [Jiang et al. CVPR 2020]
  3. End-to-End Optimization of Scene Layout [Luo et al. CVPR 2020]
  4. Rotate-and-Render: Unsupervised Photorealistic Face Rotation from Single-View Images [Zhou et al. CVPR 2020]
  5. Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild [Wu et al. CVPR 2020]
  6. Leveraging Photometric Consistency over Time for Sparsely Supervised Hand-Object Reconstruction [Hasson et al. CVPR 2020]
  7. End to End Trainable Active Contours via Differentiable Rendering [Gur et al. ICLR 2020]
  8. Neural Puppet: Generative Layered Cartoon Characters [Poursaeed et al. WACV 2020]
  9. Changing clothing on people images using generative adversarial networks [Pozdniakov, Master thesis, Ukrainian Catholic University, 2020]
  10. Semantic Correspondence via 2D-3D-2D Cycle [You et al. arXiv 2020]
  11. Learning Pose-invariant 3D Object Reconstruction from Single-view Images [Peng et al. arXiv 2020]
  12. BCNet: Learning Body and Cloth Shape from A Single Image [Jiang et al. arXiv 2020]
  13. Tackling Two Challenges of 6D Object Pose Estimation: Lack of Real Annotated RGB Images and Scalability to Number of Objects [Sock et al. arXiv 2020]
  14. EllipBody: A Light-weight and Part-based Representation for Human Pose and Shape Recovery [Wang et al. arXiv 2020]
  15. Neural Mesh Refiner for 6-DoF Pose Estimation [Wu et al. arXiv 2020]
  16. Reconstruct, Rasterize and Backprop: Dense shape and pose estimation from a single image [Pokale et al. arXiv 2020]
  17. Adversarial Attacks for Embodied Agents [Liu et al. arXiv 2020]
  18. MeshSDF: Differentiable Iso-Surface Extraction [Remelli et al. arXiv 2020]
  19. Learning View Priors for Single-view 3D Reconstruction [Kato and Harada. CVPR 2019]
  20. Strike (with) a Pose: Neural Networks Are Easily Fooled by Strange Poses of Familiar Objects [Alcorn et al. CVPR 2019]
  21. MeshAdv: Adversarial Meshes for Visual Recognition [Xiao et al. CVPR 2019]
  22. Pushing the Envelope for RGB-Based Dense 3D Hand Pose Estimation via Neural Rendering [Baek et al. CVPR 2019]
  23. Canonical Surface Mapping via Geometric Cycle Consistency [Kulkarni et al. ICCV 2019]
  24. Liquid Warping GAN: A Unified Framework for Human Motion Imitation, Appearance Transfer and Novel View Synthesis [Liu et al. ICCV 2019]
  25. Three-D Safari: Learning to Estimate Zebra Pose, Shape, and Texture from Images “In the Wild” [Zuffi et al. ICCV 2019]
  26. End-to-end Hand Mesh Recovery from a Monocular RGB Image [Zhang et al. ICCV 2019]
  27. FreiHAND: A Dataset for Markerless Capture of Hand Pose and Shape from Single RGB Images [Zimmermann et al. ICCV 2019]
  28. Localization and Mapping using Instance-specific Mesh Models [Feng et al. IROS 2019]
  29. Human Motion Generation Based on GAN Toward Unsupervised 3D Human Pose Estimation [Yamane et al. ACPR 2019]
  30. Single-image Mesh Reconstruction and Pose Estimation via Generative Normal Map [Xiang et al. CASA 2019]
  31. Towards Analyzing Semantic Robustness of Deep Neural Networks [Abdullah & Ghanem ICCVW 2019]
  32. Lifting AutoEncoders: Unsupervised Learning of a Fully-Disentangled 3D Morphable Model using Deep Non-Rigid Structure from Motion [Sahasrabudhe et al. ICCVW 2019]
  33. TriDepth: Triangular Patch-based Deep Depth Prediction [Kaneko et al. ICCVW 2019]
  34. Transporting Real World Rigid and Articulated Objects into Egocentric VR Experiences [IEEEVR 2019 poster]
  35. Generating 3D Human Animations from Single Monocular Images [Marwah, Master thesis, CMU, 2019]
  36. Self-supervised Learning of 3D Objects from Natural Images [Kato & Harada, arXiv 2019]
  37. STA: Adversarial Attacks on Siamese Trackers [Wu et al. arXiv 2019]
  38. 3D-Aware Scene Manipulation via Inverse Graphics [Yao et al. NIPS 2018]
  39. Learning Category-Specific Mesh Reconstruction from Image Collections [Kanazawa et al. ECCV 2018]

シェア

連絡先