De imágenes a estructura

En Módulo 1 vimos como se representaba un modelo 3D en el computador, y cómo generar imágenes a partir de ellos. Ahora estudiaremos la pregunta inversa:

¿si les doy estas dos fotos, pueden reconstruir la estructura del objeto? ¿Qué información nos falta?

¿Qué nos muestran realmente los píxeles?

A veces creemos que podemos reconstruir un objeto desde sus fotos, pero en realidad lo estamos modelando desde conocimiento previo.

Si sabemos que el objeto es un zapato, entonces podemos “reconstruir” el zapato a pesar de que no tenemos toda la información. En este caso no estamos reconstruyendo, estamos imaginando un zapato a partir de sus imágenes.

Esto es lo que hacen los modelos generativos de ML y no es lo que veremos en este modulo!

La geometría que observamos en una imagen 2D depende enormemente del lente y del ángulo en que tomamos la foto: un lente gran angular y un telefoto pueden producir imágenes distintas del mismo objeto.

<aside> 💡

Para reconstruir el objeto, necesitamos saber las características y ubicación de la cámara

</aside>

El pipeline de reconstrucción

La entrada de nuestro pipeline son fotos y la salida es una representación geométrica (una nube de puntos o una malla triangular, exactamente lo que construimos en Módulo 1).

Cómo podemos reconstruir la estructura de la escena 3D a partir de las imágenes? En Módulo 1 vimos que podíamos lanzar un rayo desde la cámara (ray tracing), ese rayo golpea un objeto a una cierta distancia, a partir de lo cual calculamos el color del pixel. En reconstrucción el proceso es al revés: dado un pixel, podemos lanzar el rayo desde la cámara pero no sabemos qué golpeo ni a que distancia — sólo sabemos el color del pixel.

Para reconstruir El pipeline se divide en tres grandes pasos, cada uno con algoritmos especializados:

Structure from Motion (SfM) estima las poses de cámara y produce una nube dispersa de puntos (sparse point-cloud) .
Multi View Stereo (MVS) usa esas poses para estimar profundidad en cada píxel y produce una nube densa (dense point-cloud).
La reconstrucción de superficie convierte esa nube en una malla triangular continua.