Qué hay realmente detrás del software de la cámara del Pixel 3 de Google y por qué es uno de los mejores smartphones fotográficos

noviembre 12, 2018

AKETXE Consulting

Xataka

Qué hay realmente detrás del software de la cámara del Pixel 3 de Google y por qué es uno de los mejores smartphones fotográficos

Google ha vuelto a hacerlo. Sus Pixel 2 y Pixel 2 XL dejaron el listón muy alto gracias a su estupendo rendimiento fotográfico, y los nuevos Pixel 3 y Pixel 3 XL han ido incluso un poco más allá. La filosofía de Google si nos ceñimos al ámbito de la fotografía es interesante porque no está siguiendo la estela de la mayor parte de sus competidores, que apuestan por dos, tres, e, incluso, cuatro cámaras traseras.

Al igual que sus predecesores, los nuevos Pixel 3 y Pixel 3 XL incorporan una sola cámara principal, que, eso sí, nos ha demostrado rendir realmente bien en buena parte de los escenarios de prueba a los que la hemos sometido durante nuestro análisis en profundidad. De hecho, estos dos smartphones, que tienen exactamente las mismas prestaciones fotográficas, son dos claros candidatos a mejor móvil fotográfico de la actual generación.

Estos son los tres «ingredientes» que hacen posible una buena cámara

Los elementos que necesitamos mimar para poner a punto una cámara fotográfica de calidad son exactamente los mismos tanto si nos ceñimos a las cámaras dedicadas como a las integradas en los teléfonos móviles. Todos los fabricantes los conocen y suelen cuidarlos en sus productos de gama más alta, pero la mayor parte de ellos no suele prestar la misma atención a cada uno de estos parámetros.

Los tres «ingredientes» básicos que delimitan las prestaciones globales de cualquier cámara fotográfica, sea dedicada o integrada en un smartphone, son la óptica, el sensor y el postprocesado. Algunas marcas dedican muchos recursos a la óptica y recurren a empresas especializadas en la fabricación de lentes y objetivos para que les ayuden a poner a punto la óptica de sus smartphones. Esta estrategia es la que utiliza, por ejemplo, Huawei, que ha desarrollado junto a Leica los objetivos de algunos de sus terminales, como el P20 Pro y el Mate 20 Pro. Una óptica de calidad debe conseguir que la luz converja sobre la superficie del sensor con precisión, y, a la par, introducir la mínima distorsión y aberración cromática posible.

En Xataka

Google Pixel 3 XL, análisis: una impresionante cámara que eclipsa todo lo demás (hasta el notch)

Algunos fabricantes de smartphones optan por diseñar el interior de sus propuestas de manera que puedan incluir sensores con unas dimensiones físicas importantes. Casi todas las marcas introducen en sus terminales premium captadores con un tamaño respetable, pero una de las más ambiciosas en este terreno es, de nuevo, Huawei, que ha introducido un sensor de 1/1,7” tanto en su P20 Pro como en el Mate 20 Pro (aún sigue impresionando el sensor de 1/1,5” que Nokia y Microsoft montaron en el ya veterano Lumia 1020).

Un paso por detrás en este ámbito se encuentran los demás fabricantes, como Sony, con el sensor de 1/2,3” de su Xperia XZ3, seguido de cerca por Samsung, Apple o Google, que son algunas de las marcas que han apostado por incluir en una de las cámaras de sus últimos terminales un captador de 1/2,55”. No obstante, es importante que tengamos en cuenta que el tamaño de los fotodiodos o fotorreceptores, que son las diminutas celdillas del sensor que se encargan de recoger la luz, no depende únicamente de las dimensiones del captador; también influye la resolución, como es lógico.

La calidad de la óptica, el tamaño del sensor y la sofisticación del procesado tienen un impacto directo en el acabado de las fotos que tomamos con nuestros móviles

Si comparamos dos sensores con el mismo tamaño y distinta resolución podemos estar seguros de que los fotodiodos más grandes los tendrá el captador que tiene menos megapíxeles, y, por tanto, una cantidad inferior de fotodiodos. Esta característica habitualmente, que no siempre, provoca que el sensor con los fotorreceptores más grandes consiga capturar más luz y, por tanto, arroje un nivel de ruido más bajo en aquellas tomas disparadas con escasa luz ambiental.

Si nos ceñimos a los dos parámetros que acabamos de ver, la óptica y el sensor, podríamos concluir que el smartphone con el objetivo de mejor calidad y el sensor más grande es el que mejores fotos nos va a permitir tomar. Y esto no siempre es así. Esos dos «ingredientes» son muy importantes, por supuesto, pero no podemos dejar fuera de la ecuación un tercer parámetro que también es crucial: el postprocesado que lleva a cabo el smartphone tomando como base la información que ha recogido el sensor.

La baza más importante con la que cuenta Google es el avanzado procesado de imagen de sus terminales

Precisamente, los Pixel de Google brillan en el ámbito fotográfico debido a que cuentan con un procesado sofisticado que tiene un impacto directo en el acabado final de las fotos. Posiblemente no tienen la mejor óptica, y seguro que no cuentan con el sensor más grande, pero sus algoritmos de postprocesado lo compensan con suficiencia en la mayor parte de los escenarios de uso. La conclusión que podemos extraer a partir de todo lo que hemos repasado hasta este momento es que la calidad de las fotografías que tomamos con un smartphone está en gran medida ponderada por los tres parámetros que hemos visto.

Hay otras características y tecnologías que también tienen un impacto importante en la calidad de nuestras instantáneas y en la experiencia que nos ofrecen estos smartphones con ambición fotográfica, como la presencia o no de estabilización óptica o el sistema de enfoque. Aun así, el alcance de la óptica, el sensor y el procesado es el mayor posible porque estos tres elementos delimitan la calidad y el acabado que tendrán todas y cada una de las instantáneas que tomemos con nuestro móvil. Curiosamente, en el Pixel 3 el postprocesado tiene mucha importancia incluso aunque trabajemos con ficheros RAW, como veremos a continuación.

En Xataka Móvil

Huawei P20 Pro vs Lumia 1020, la guerra de los 40 megapíxeles: la vieja escuela fotográfica contra la nueva

Así funciona el procesado que mantiene al Pixel 3 en la vanguardia

El auténtico protagonista de este artículo, como refleja su titular, es el postprocesado que Google ha implementado en sus nuevos Pixel 3 y Pixel 3 XL, que incluye innovaciones muy importantes que no están presentes en los Pixel 2. Google es una empresa de software, y no de hardware, y se nota. Y es que este procesado es en gran medida el responsable del estupendo rendimiento de estos smartphones en el ámbito fotográfico.

Por esta razón, os propongo que nos sumerjamos en él, aunque antes de hacerlo me gustaría apuntar algo: las fotografías que ilustran cada algoritmo de procesado han sido tomadas por mi compañera Amparo Babiloni con un Pixel 3 XL. En su análisis de este móvil tenéis muchas más instantáneas (más de 100) que pueden ayudaros a juzgar vosotros mismos con precisión y objetividad qué lugar merece ocupar este terminal frente a los otros móviles de gama alta con ambición fotográfica que podemos encontrar en el mercado actualmente.

Mejora los retratos mediante el aprendizaje automático

El aprendizaje automático es una disciplina de la inteligencia artificial (IA) que consiste en diseñar métodos que permiten a los ordenadores desarrollar un comportamiento a partir del análisis de unos datos de entrada. Esto significa, utilizando una definición un poco menos formal y más sencilla, que esta rama de la IA pretende encontrar la forma de que los ordenadores aprendan. ¿Qué tiene que ver esto con los retratos que podemos tomar con un Pixel 3?

Sencillamente, el aprendizaje automático es importante porque es una de las herramientas utilizadas por este smartphone para permitirnos obtener un desenfoque de fondo (bokeh) de más calidad, una mejora que tiene un impacto muy importante en los smartphones. El Pixel 2 y el Pixel 3, así como las versiones XL de ambos smartphones, tienen en común el uso de la tecnología Dual Pixel. Esta innovación no la utiliza únicamente Google; Canon también la implementa en algunas de sus cámaras y Samsung en sus smartphones de gama alta, entre otras marcas que también apuestan por esta técnica.

Pero lo realmente interesante es que requiere integrar en cada celdilla del sensor dos fotodiodos en vez de uno solo. Esta estrategia tiene un impacto beneficioso en el enfoque y, además, permite al captador capturar dos imágenes cada vez que pulsamos el disparador sin necesidad de recurrir a una segunda cámara. Estas dos imágenes son útiles cuando queremos desenfocar el fondo y mantener nítido solo el objeto en primer plano porque el software puede analizarlas para identificar las diferencias que existen entre ellas, por sutiles que sean, con el propósito de obtener información de profundidad y utilizarla para generar la máscara de desenfoque apropiada. Es un proceso similar al que lleva a cabo nuestro cerebro a partir de la información que recogen nuestros dos ojos.

Es importante que tengamos en cuenta que tanto el Pixel 2 como el 3 llevan a cabo el desenfoque mediante software. La principal diferencia existente entre estos dos terminales es que el Pixel 2 recurre a un algoritmo de análisis de imagen tradicional, pero el Pixel 3 utiliza, como os anticipé al principio de esta sección, procedimientos de aprendizaje automático. Por esta razón, sobre el papel debería ser capaz de generar la máscara de desenfoque del fondo con más precisión al margen de la complejidad que tenga el objeto en primer plano.

Las mejoras que en teoría deberíamos poder percibir gracias a esta tecnología son un desenfoque del fondo más homogéneo y una discriminación del contorno del objeto en primer plano más precisa, incluso aunque incluya huecos que nos permiten ver el fondo, y que, por tanto, también deben estar desenfocados. Según nuestras pruebas la combinación de la tecnología Dual Pixel con el aprendizaje automático funciona bien. El desenfoque de fondo que nos ofrece el nuevo Pixel 3 ha sido satisfactorio en la mayor parte de los escenarios en los que lo hemos probado, pero, como podéis ver en la fotografía que tenéis encima de estas líneas, no es infalible.

En Xataka Móvil

Así es la tecnología Dual Pixel: el modo Retrato para smartphones sin cámara dual

HDR+ y zoom de alta resolución

La tecnología HDR+ que podemos encontrar en el Pixel 2 está también presente en el nuevo Pixel 3. Esta innovación consiste en disparar, en vez de una única fotografía, una ráfaga de imágenes ligeramente subexpuestas, y, por tanto, con una cierta carencia de luz. Un algoritmo se encarga de analizar cada una de estas instantáneas para identificar las regiones de cada fotografía que contienen más información y menos ruido con un objetivo: combinarlas para recrear una única fotografía que aglutina lo mejor de todas esas instantáneas y nos brinda la sensación de haber estado correctamente expuesta.

Google consigue incrementar el nivel de detalle combinando el HDR+, la superresolución y la estabilización óptica

De alguna forma la tecnología HDR+ intenta superar las restricciones impuestas por la óptica y el sensor del smartphone, brindándonos en cierta medida la sensación de que la fotografía ha sido tomada por una óptica de más calidad y un sensor de mayor tamaño. Lo curioso es que Google ha llevado esta idea aún más lejos en su Pixel 3. Combinando la tecnología HDR+ con las técnicas de superresolución y la estabilización óptica consigue incrementar el nivel de detalle de algunas fotografías en las que interviene el zoom de una forma bastante notable.

Los algoritmos de superresolución no se usan solo en fotografía; también se emplean en medicina (en las resonancias magnéticas, las tomografías, etc.), en microscopía o en los sonares, entre otras posibles aplicaciones. Su objetivo es analizar un conjunto de imágenes con la misma resolución mediante la comparación de los píxeles de cada una de las regiones que las conforman con el objetivo de reconstruir una nueva imagen con un mayor nivel de detalle y resolución espacial. La recuperación de esta información adicional es posible, sin entrar en detalles demasiado complejos, debido a que un mismo fotodiodo del sensor puede capturar información ligeramente diferente en las distintas tomas de una única ráfaga.

Estas pequeñas variaciones de la información recogida por cada fotodiodo en tomas sucesivas son beneficiosas, como acabamos de ver. Esto ha provocado que los ingenieros de Google aprovechen la combinación de la estabilización óptica y las pequeñas vibraciones que provoca nuestro pulso para conseguir que cada una de las instantáneas de la ráfaga recoja distinta información a nivel de píxel. Estos datos son procesados posteriormente por el algoritmo de superresolución, que, si todo va bien, recreará una nueva trama de píxeles equivalente a la toma inicial de una fotografía con más resolución que la que tenían realmente las fotos de la ráfaga inicial.

Un detalle interesante es que Google utiliza la estabilización óptica de la cámara principal del Pixel 3 para controlar con precisión el desplazamiento relativo de los fotodiodos del sensor respecto a la imagen que estamos capturando (no debemos olvidar que la estabilización óptica en realidad actúa sobre el objetivo). Pero esto no es todo. Otra ventaja de esta estrategia consiste en que permite prescindir de un algoritmo de interpolación cromática para reconstruir el color original de la imagen gracias a los filtros RGB colocados detrás de cada uno de los fotorreceptores del captador.

No es necesario que indaguemos en el procedimiento utilizado para recuperar la información de color, pero nos viene bien saber que la ausencia de un algoritmo de interpolación cromática también contribuye, por un lado, al incremento de la resolución, y, por otra parte, reduce el ruido porque este procedimiento de interpolación es en sí mismo una fuente de ruido. Curiosamente, como hemos visto, nuestro mal pulso en este contexto es beneficioso.

Eso sí, para poder utilizar la superresolución del Pixel 3 es necesario que recurramos, al menos, al zoom 1,2x. No obstante, en la medida de lo posible no nos interesa excedernos porque el nivel de detalle más alto lo obtendremos con un valor del zoom lo más próximo posible a 1,2x. Si queréis conocer con todo lujo de detalles cómo funciona esta tecnología y no os dejáis intimidar por los documentos técnicos en inglés, os sugiero que echéis un vistazo a este artículo del blog de inteligencia artificial de Google.

En Xataka

Huawei P20 Pro vs Pixel 2 XL, comparativa fotográfica: ponemos a prueba a los dos titanes fotográficos del momento

Procesado de tomas con baja luminosidad

Las fotografías que necesitamos tomar en espacios con muy poca luminosidad ambiental suelen obligarnos a recurrir a tiempos de exposición largos (habitualmente de varios segundos) que nos garanticen que el sensor va a poder capturar suficiente luz. Sin embargo, esta estrategia acarrea dos problemas importantes. El primero es que si estamos fotografiando un objeto que no permanece estático cabe la posibilidad de que se mueva durante la exposición y aparezca borroso en nuestra fotografía.

El segundo problema está provocado por la trepidación que nuestro pulso introduce en las fotografías de larga exposición, que puede ser especialmente intensa cuando utilizamos un smartphone debido a que, como todos sabemos, es un dispositivo muy ligero y habitualmente no lo usamos junto a un trípode. Para resolver este escenario de disparo en el Pixel 3 los ingenieros de Google han optado por recurrir al mismo disparo en ráfaga utilizado por la tecnología HDR+.

Cuando habilitamos el modo de disparo nocturno el smartphone captura una ráfaga de hasta 15 instantáneas con un tiempo de exposición máximo de 1/3 de segundo para cada una de ellas. Una vez obtenidas estas imágenes entra en acción el algoritmo de procesado de Google, que se responsabiliza de analizar y alinear todas las fotografías para generar una única instantánea que, en teoría, recoge la misma luz que habríamos obtenido con una exposición de hasta 5 segundos.

La ventaja más evidente que conlleva esta estrategia es que la probabilidad de que se produzca borrosidad ocasionada por la vibración introducida por nuestro pulso o por el movimiento del objeto que estamos fotografiando es mayor cuando tomamos una fotografía con un tiempo de exposición de 5 segundos que cuando disparamos 15 instantáneas durante 1/3 de segundo. Aun así, en este último escenario también puede darse este problema, de ahí que la precisión con la que el algoritmo de procesado lleva a cabo la mezcla de las fotografías sea tan importante.

Esta tecnología, al igual que las anteriores, no es infalible, pero, como podéis ver en las muestras que ilustran esta sección, habitualmente consigue resolver las fotografías nocturnas recuperando bastante detalle y manteniendo el ruido bajo control. Además, casi siempre consigue ajustar de una manera convincente el balance de blancos gracias, de nuevo, al aprendizaje automático, lo que coloca al Pixel 3 en este terreno un paso por delante de su predecesor.

En Xataka

El modo retrato a prueba: iPhone X, Galaxy Note 8, Huawei Mate 10 y Google Pixel 2 XL frente a Lupe, fotógrafa profesional

Generación de ficheros RAW mediante cálculo computacional

La estrategia utilizada por Google para generar ficheros RAW (DNG) que tengan la máxima calidad posible recurre, de nuevo, a la obtención del archivo resultante a partir de una ráfaga de hasta 15 tomas. Una vez que estas instantáneas están disponibles es el algoritmo de análisis y mezcla de imágenes del que hemos hablado en las técnicas anteriores el que toma el control para generar un único archivo RAW, corrigiendo la borrosidad introducida por los objetos en movimiento y, si se da, también por nuestro pulso.

La generación del fichero RAW a partir de una colección de varias imágenes y no tomando como referencia una sola instantánea conlleva dos ventajas importantes: consigue recoger más luz y reducir el nivel de ruido del archivo resultante. De esta manera, en teoría los archivos RAW del Pixel 3 pueden ofrecernos una calidad similar a la que podemos obtener con una cámara con sensor APS-C, a pesar de que el captador del móvil de Google es sensiblemente más pequeño.

Actuando sobre el archivo DNG podemos ajustar con eficacia el balance de blancos en aquellas tomas en las que el algoritmo de Google no lo resuelve correctamente, como en la fotografía que tenéis sobre estas líneas, que tiene un aspecto «empastado» y poco natural.

La responsabilidad recae, de nuevo, en el algoritmo utilizado por Google para procesar y mezclar las imágenes de la ráfaga, así como en su habilidad para corregir el desfase que se produce entre unas instantáneas y otras cuando alguno de los objetos recogidos en la imagen está en movimiento. Podemos intuir sin esfuerzo que el número de cálculos que debe llevar a cabo el microprocesador del smartphone para llevar a buen puerto este procedimiento es muy elevado, por lo que es evidente que la tecnología de procesado que Google introduce en sus terminales en gran medida es posible gracias al desarrollo que han experimentado los SoC.

Una característica muy interesante de los RAW que el Pixel 3 genera mediante este procedimiento consiste en que los canales rojo, verde y azul (RGB) de las instantáneas a partir de las que se obtiene el archivo DNG son combinados por el algoritmo de forma independiente, por lo que no es necesario utilizar técnicas de interpolación cromática. De esta forma se reduce el nivel de ruido y se incrementa la resolución efectiva de la imagen resultante.

En Xataka

Samsung Galaxy S9+, Pixel 2 XL, iPhone X, LG V30S ThinQ y Huawei Mate 10 frente a frente: comparativa de sus cámaras

Flash de relleno computacional

Una última capacidad de la tecnología de procesado implementada por Google en su Pixel 3 que merece la pena que conozcamos es el flash sintético. No se trata de un flash real, sino de un procedimiento de iluminación que se lleva a cabo mediante cálculo computacional y que sirve para iluminar mejor el rostro de las personas fotografiadas en aquellos escenarios de disparo en los que el resultado original no es suficientemente bueno. Por ejemplo, en las tomas a contraluz y en las escenas con poca luz ambiental.

En esta ocasión el reto lo tiene el mismo algoritmo de aprendizaje automático del que hablamos en la sección dedicada a los retratos. En este contexto debe ser capaz, primero, de identificar con precisión el rostro de las personas que aparecen en la fotografía, y, después, de aplicar una iluminación homogénea que permita recuperar el máximo nivel de detalle posible, pero sin introducir un acabado artificial. El efecto que busca Google es el mismo que consiguen los fotógrafos profesionales utilizando reflectores, y, como podéis ver en la fotografía que tenéis debajo de estas líneas, el resultado que nos ofrece el Pixel 3 es bastante convincente.