Procesar 8.000 millones de imágenes por día con GPUs Blackwell

Procesar 8.000 millones de imágenes por día con GPUs Blackwell

Latencia a la mitad y throughput por cinco — sin tocar el código

Detrás de marcas como Bugatti, Porsche, Spotify y Sonos hay una operación de optimización visual que entrega ocho mil millones de imágenes y videos por día en tiempo real. Filtros, conversiones de formato, reescalado, efectos: todo bajo demanda, sin pre-renderizar las millones de variantes que necesitaría cada catálogo. Ese flujo es la prueba más vistosa de hacia dónde está yendo la infraestructura cuando se combina GPU de última generación con software bien diseñado.

El problema: media procesada "justo a tiempo"

Pre-procesar cada variante de cada imagen es matemáticamente imposible en catálogos grandes. La alternativa es generar las transformaciones cuando se piden —resize, conversión de formato, filtros artísticos— y entregarlas en milisegundos. Esa estrategia funciona mientras la latencia del cómputo no se vuelva el cuello de botella del sistema entero.

Por qué Blackwell cambia la conversación

GPUs Blackwell para procesamiento de imágenes

Las VMs G4 de Google Cloud incorporan ocho GPUs NVIDIA RTX PRO 6000 Blackwell por instancia. La paralelización masiva, combinada con un interconnect P2P custom que entrega 168% más throughput que las configuraciones estándar, permite procesar cientos de transformaciones en simultáneo dentro de un mismo nodo. Dos CPUs AMD Turin y un offload Titanium de Google se encargan del tráfico de datos y la seguridad para que la GPU no pierda ciclos en lo que no es su especialidad.

Los números que importan

El resultado operativo es contundente: la latencia mediana cayó de 100 ms a 50 ms, el throughput por nodo se multiplicó por cinco o seis, y todo eso ocurrió sin tener que reescribir la aplicación. Sólo cambiaron los scripts de Terraform que aprovisionan la infraestructura. Pocos upgrades tecnológicos tienen una relación costo-beneficio tan favorable.

Cuatro etapas de un pipeline bien diseñado

El flujo se ejecuta en cuatro pasos coordinados. Primero, ingesta sobre un caché de 2,5 petabytes en GCS para evitar latencias de origen. Segundo, decoding acelerado por GPU usando nvJPEG, que elimina el bottleneck histórico de la CPU en archivos de alta resolución. Tercero, transformaciones implementadas con compute shaders de Vulkan, escritos a medida. Cuarto, encoding por hardware con NVENC y entrega vía CDN.

Lo que viene: features generativas en producción

Sobre la misma plataforma ya se están construyendo capacidades generativas en tiempo real: relleno inteligente, reemplazo de fondo, eliminación de objetos, upscaling neural. Lo que era contenido retocado en post-producción se está volviendo una operación programática que cualquier producto puede invocar como una llamada API más.

La lección operativa va más allá de las imágenes. Cuando la infraestructura GPU acelera y el código se mantiene estable, el cuello de botella migra hacia donde tiene que estar: el diseño de producto. En Arman Solutions evaluamos cada arquitectura crítica con esa pregunta arriba: ¿qué es lo que limita hoy, y qué pasaría si esa limitación dejara de existir?

Compartir editorial

Tu próximo proyecto
comienza acá

Contanos tu desafío. Nuestro equipo te va a contactar para entender qué necesitás y proponerte una forma de trabajo.