Lior Hakim, cofundador y CTO de Hour One – Serie de Entrevistas

Lior Hakim, cofundador y CTO de Hour One - Entrevista

Lior Hakim, cofundador y director técnico de Hour One, líder en la industria en la creación de seres humanos virtuales para comunicaciones de video profesionales. Los personajes virtuales realistas, modelados exclusivamente a partir de personas reales, transmiten expresividad humana a través del texto, permitiendo a las empresas mejorar su mensajería con facilidad y escalabilidad incomparables.

¿Podrías compartir la historia del origen de Hour One?

El origen de Hour One se remonta a mi participación en el ámbito de la criptografía. Después de esa experiencia, comencé a reflexionar sobre cuál sería la próxima gran oportunidad en la que la computación en la nube masiva podría aprovechar, y dado que el aprendizaje automático estaba ganando popularidad en recomendaciones y análisis predictivos, estaba trabajando en algunos proyectos relacionados con la infraestructura de ML. A través de este trabajo, me familiaricé con los primeros trabajos generativos y me interesé especialmente en las Redes Generativas Adversarias (GAN) en ese momento. Estaba utilizando toda la capacidad informática que podía obtener para probar esas tecnologías entonces nuevas. Cuando mostré mis resultados a un amigo que tenía una empresa en el campo, me dijo que tenía que conocer a Oren. Cuando le pregunté por qué, me dijo que tal vez ambos dejemos de perder su tiempo y nos hagamos perder el tiempo mutuamente. Oren, mi cofundador y CEO de Hour One, era un inversor temprano en IA en ese momento. Y aunque estábamos en lugares diferentes, ambos nos movíamos en la misma dirección, y la fundación de Hour One como el hogar del ser humano virtual fue un viaje inevitable.

¿Cuáles son algunos de los algoritmos de aprendizaje automático que se utilizan, y en qué parte del proceso se encuentra la IA generativa?

En el ámbito de la creación de videos, los algoritmos de aprendizaje automático son fundamentales en cada etapa. En la fase de guionización, los Modelos de Lenguaje Amplio (LLMs) ofrecen un apoyo invaluable, creando o refinando el contenido para garantizar narrativas convincentes. A medida que pasamos al audio, los algoritmos de Texto a Voz (TTS) transforman el texto en voces orgánicas y emotivas. Al pasar a la representación visual, nuestro modelo Multimodal propietario del ser humano virtual toma protagonismo. Este modelo, mejorado con Redes Generativas Adversarias (GAN) y Autoencoders Variacionales (VAEs), es capaz de transmitir emociones contextuales, entonación y una entrega articulada, cautivadora y auténtica. Estas técnicas generativas convierten las señales de texto y audio en imágenes realistas de seres humanos virtuales, lo que resulta en salidas de video hiperrealistas. La orquestación de LLMs, TTS, GANs, VAEs y nuestro modelo Multimodal convierte a la IA Generativa no solo en una parte, sino en la columna vertebral de la producción de videos moderna.

¿En qué se diferencia Hour One de otros generadores de videos?

En Hour One, nuestra distinción de otros generadores de videos no se debe a una preocupación por la competencia, sino a una filosofía profundamente arraigada que rige nuestro enfoque hacia la calidad, el diseño del producto y la estrategia de mercado. Nuestro principio rector es siempre priorizar el elemento humano, asegurando que nuestras creaciones resuenen con autenticidad y emoción. Nos enorgullece ofrecer la mejor calidad en la industria sin compromisos. Mediante el uso de la renderización de video 3D avanzada, brindamos a nuestros usuarios una experiencia cinematográfica genuina. Además, nuestra estrategia es única y tiene una opinión formada; comenzamos con un producto pulido y luego iteramos rápidamente hacia la perfección. Este enfoque garantiza que nuestras ofertas siempre estén un paso adelante, estableciendo nuevos estándares en la generación de videos.

Con tu amplia experiencia en GPUs, ¿puedes compartir con nosotros algunas ideas sobre tu opinión sobre la plataforma NVIDIA Next-Generation GH200 Grace Hopper Superchip?

La arquitectura Grace Hopper es realmente un cambio de juego. Si la GPU puede trabajar de manera efectiva desde la RAM de su host sin limitar por completo el cálculo, desbloquea relaciones modelo/acelerador actualmente imposibles en el entrenamiento y, como resultado, una mayor flexibilidad en los tamaños de trabajo de entrenamiento deseados. Suponiendo que todo el stock de GH200 no se destine al entrenamiento de LLM, esperamos utilizarlo para reducir en gran medida los costos de prototipado para nuestras arquitecturas multimodales en el futuro.

¿Hay algún otro chip que esté actualmente en tu radar?

Nuestro objetivo principal es proporcionar al usuario contenido de video competitivo en precio. Dada la demanda de GPUs con gran capacidad de memoria en este momento, estamos optimizando constantemente y probando cualquier oferta de GPU en la nube de los principales proveedores de servicios en la nube. Además, nos esforzamos por ser al menos parcialmente independientes de la plataforma en algunas de nuestras cargas de trabajo. Por lo tanto, estamos considerando las TPUs y otros ASIC, y también estamos prestando mucha atención a AMD. Eventualmente, cualquier ruta de optimización liderada por hardware que pueda resultar en una mejor relación FLOPs/$ será explorada.

¿Cuál es tu visión de los avances futuros en la generación de videos?

En 24 meses no podremos distinguir a un ser humano generado de uno capturado. Eso cambiará muchas cosas, y nosotros estamos aquí a la vanguardia de esos avances.

En este momento, la mayoría de los vídeos generados son para computadoras y dispositivos móviles, ¿qué necesita cambiar antes de que tengamos avatares y mundos generados fotorrealistas tanto para realidad aumentada como para realidad virtual?

En este momento, tenemos la capacidad de generar avatares y mundos fotorrealistas tanto para realidad aumentada (RA) como para realidad virtual (RV). El principal obstáculo es la latencia. Si bien la entrega de gráficos de alta calidad en tiempo real a dispositivos periféricos como auriculares de RA y RV es vital, lograrlo de manera fluida depende de varios factores. En primer lugar, dependemos de avances en la fabricación de chips para garantizar un procesamiento más rápido y eficiente. Además, optimizar el consumo de energía es crucial para garantizar un uso más prolongado sin comprometer la experiencia. Por último, pero no menos importante, anticipamos avances en software que puedan cerrar eficientemente la brecha entre la generación y la representación en tiempo real. A medida que estos elementos se unan, veremos un aumento en la utilización de avatares y entornos fotorrealistas en plataformas de RA y RV.

¿Qué esperas que sea el próximo gran avance en IA?

Cuando se trata del próximo avance significativo en IA, siempre hay un aire de emoción y anticipación. Si bien he mencionado algunos avances anteriormente, lo que puedo compartir es que estamos trabajando activamente en varias innovaciones revolucionarias en este mismo momento. Me encantaría profundizar en detalles, pero por ahora, animo a todos a estar pendientes de nuestros próximos lanzamientos. El futuro de la IA tiene un gran potencial y estamos emocionados de estar a la vanguardia de estos esfuerzos pioneros. ¡Manténganse al tanto!

¿Hay algo más que te gustaría compartir sobre Hour One?

Definitivamente deberías visitar nuestro canal de Discord y nuestra API, nuevas adiciones a nuestra oferta de plataforma en Hour One.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

hour oneInterview

Was this article helpful?

93 out of 132 found this helpful

Lior Hakim, cofundador y CTO de Hour One – Serie de Entrevistas

Was this article helpful?

Revisión de Flick la mejor herramienta de hashtags de Instagram para aumentar el alcance

Inteligencia Artificial Generativa Innovando de manera ética y creativa para una transferencia de datos fluida

Inteligencia Artificial

Soñar primero, aprender después DECKARD es un enfoque de IA que utiliza LLMs para entrenar agentes de aprendizaje por refuerzo (RL)

¿Pueden los LLM reemplazar a los analistas de datos? Construyendo un analista potenciado por LLM

Investigadores de Alibaba presentan la serie Qwen-VL un conjunto de modelos de visión-lenguaje a gran escala diseñados para percibir y comprender tanto texto como imágenes

Una nueva investigación de IA introduce MONAI Generative Models una plataforma de código abierto que permite a investigadores y desarrolladores entrenar, evaluar e implementar fácilmente modelos generativos.

Microsoft AI Research presenta un nuevo marco de aprendizaje profundo llamado Distributional Graphormer (DiG) para predecir la distribución de equilibrio de sistemas moleculares.

Matthew Kearney Trayendo la inteligencia artificial y la filosofía al diálogo.