Maestría en el arte de la IA una guía concisa para el desarrollo intermedio y la ingeniería de instrucciones

Maestría en IA guía concisa para desarrollo intermedio e ingeniería de instrucciones.

Introducción al Arte Generado por IA de MidJourney

La IA está rompiendo rápidamente las barreras de lo imposible y recientemente ha invadido el ámbito del arte, transformándolo por completo. Ahora, no necesitas ser un maestro artista o un experto en Photoshop para dar vida a las imágenes de tu imaginación. Un simple y bien articulado estímulo es todo lo que necesitas, gracias a MidJourney.

Todo comenzó con la introducción de tecnologías innovadoras como DALL-E, MidJourney y StableDiffusion en 2022. Mientras que cada una de estas innovaciones aportó su toque distintivo al campo de la IA generativa, MidJourney en particular ha continuado su fascinante viaje, logrando avances notables.

MidJourney es actualmente el generador de IA de texto a imagen de alta resolución líder en el mercado y destaca por su combinación única de generación de texto a imagen, edición y ampliación de medios, y acceso activo a la comunidad de arte, todo a partir de $10 al mes. Esta suite completa de funciones presenta un emocionante lienzo para artistas, entusiastas de la tecnología y profesionales de la IA, creando un entorno propicio para la creatividad e innovación.

El mundo del arte está tomando nota, con una proyección de crecimiento asombroso del 40,5% CAGR en el mercado del arte generativo con IA. MidJourney destaca en la creación de imágenes realistas y de alta calidad utilizando IA.

La ingeniería eficaz de estímulos va más allá de la mera creación; implica mejores prácticas. Los estímulos deben ofrecer claridad y ser concisos, pero proporcionar suficiente orientación a la IA sin prescripciones excesivas. Además, se debe considerar al público objetivo durante el diseño, teniendo en cuenta variables como la edad, el género y el trasfondo cultural, entre otros.

¿Cómo funciona MidJourney?

MidJourney aprovecha dos novedosas tecnologías de aprendizaje automático: modelos de lenguaje y difusión. El modelo de lenguaje, similar a los chatbots de IA como ChatGPT, ayuda a MidJourney a interpretar el significado de tus estímulos y convertirlos en vectores. Este vector luego guía el proceso de difusión.

Los detalles internos de MidJourney se mantienen en gran medida en secreto. No obstante, es evidente que utiliza la generación de texto a imagen de dos tecnologías de aprendizaje automático relativamente novedosas: modelos de lenguaje grandes y modelos de difusión. El primero quizás sea familiar para los usuarios de plataformas de IA como ChatGPT, y el segundo es una adición prometedora al sector de generación de arte con IA. Todo el sistema se basa en el conjunto de datos CLIP para el entrenamiento, que se puede encontrar en la página de investigación de OpenAI.

A pesar de la información limitada, es posible esbozar un panorama general del modelo de difusión de MidJourney, llamado apropiadamente ‘Difusión Estable’. Esencialmente, Difusión Estable es un modelo de código abierto que transforma hábilmente estímulos de texto en imágenes de diferentes estilos y contenidos. Este sofisticado procedimiento se logra mediante un modelo de difusión, un modelo generativo que establece las conexiones entre las entradas de texto y las salidas de imagen.

Los modelos de difusión se basan en los fundamentos del método de difusión de desruido, un enfoque influenciado por la termodinámica no equilibrada. Este método desmantela sistemáticamente la estructura de los datos para luego restaurarla. Este enfoque fue adaptado para la generación de imágenes por Ho et al. en 2020, lo que llevó a la creación de los modelos de difusión que vemos hoy en día.

El entrenamiento de los modelos de difusión involucra dos etapas principales. Inicialmente, el proceso de avance o difusión implica la adición incremental de ruido aleatorio a la imagen de entrada hasta que se transforme por completo en ruido. Este proceso está gobernado por una cadena de Markov fija, que añade consistentemente ruido gaussiano en varios pasos sucesivos.

Posteriormente, en la fase de reversión o reconstrucción, el modelo restaura los datos originales a partir del estado dominado por el ruido alcanzado en el proceso de difusión. Este proceso está impulsado por una cadena de Markov con transiciones gaussianas aprendidas, lo que implica que la predicción de la densidad de probabilidad en cualquier momento dado depende únicamente del estado alcanzado en el paso de tiempo anterior. Dado que los latentes ‘x1, …, xT’ comparten la misma dimensionalidad que los datos, los modelos de difusión se clasifican como modelos de variables latentes.

Costo y Suscripción de MidJourney

Aunque muchos chatbots como ChatGPT y Bing Chat ofrecen un uso casi ilimitado de forma gratuita, la situación es diferente para generadores de imágenes como MidJourney. Debido a la considerable potencia informática requerida, especialmente de las unidades de procesamiento gráfico (GPU) y el uso de memoria de video para el proceso de desruido, el servicio de MidJourney tiene un costo.

El plan básico comienza desde $10 al mes, proporcionando aproximadamente 3.3 horas de tiempo de GPU, suficiente para aproximadamente 200 generaciones de imágenes. Sin embargo, existen planes de mayor nivel que ofrecen imágenes ilimitadas en modo Relajado, aunque con un tiempo de espera más prolongado.

Configurando tu MidJourney

  1. Comenzar con MidJourney implica registrarse en su sitio web oficial, suscribirse a un plan y luego ser redirigido a Discord.
  2. Una vez que encuentres el canal de Mid-Journey en Discord, navega hacia los Grupos de Novatos en el lado izquierdo. Desde allí, puedes observar a otros usuarios creando indicaciones, aprender los mecanismos de Mid-Journey e interactuar en un entorno bullicioso.
  3. Después de familiarizarte con el entorno, invita al bot a tu servidor privado para crear imágenes sin interrupciones. El bot genera cuatro imágenes de vista previa basadas en tu indicación, lo que te permite seleccionar la opción más cercana a tu idea original y refinar aún más la imagen.

Estructura de la Indicación para Midjourney

  1. El comando /imagine en un canal de Discord dentro del canal Midjourney genera una imagen única a partir de una breve descripción de texto (Indicación).
  2. Para recrear un estilo específico en varias imágenes, simplemente ingresa la URL de la imagen junto con tu indicación de texto. Tus nuevas salidas consistentes combinarán elementos tanto de la imagen elegida como del texto. /imagine http://enlace-de-tu-imagen <descripción de la imagen>  –parámetro1 –parámetro2 Puedes generar un enlace a tu imagen subiéndola al canal de Discord. Una vez subida, haz clic derecho en la imagen y selecciona “Copiar enlace”. Aquí http://enlace-de-tu-imagen y los parámetros son opcionales.
  3. A continuación, el Bot trabaja en tu imagen, tardando aproximadamente un minuto en ofrecer cuatro alternativas. Este proceso implica el uso de unidades de procesamiento gráfico (GPUs) robustas para procesar e interpretar cada indicación.
  4. Mantén un registro del uso de tu GPU utilizando el comando /info. Te permite verificar el “Tiempo Restante Rápido” y monitorear el tiempo de GPU de tu suscripción.

Ampliación y Alteraciones de Imágenes

Para obtener una imagen más refinada, utiliza los botones “U” debajo de las imágenes para ampliar tu opción preferida. También puedes usar los botones “V” para realizar ajustes en imágenes específicas. Para realizar cambios adicionales en una imagen ampliada, utiliza las opciones “Crear Variaciones”, “Rehacer Ampliación Ligera” y “Rehacer Ampliación Beta”. El botón “Web” te permite ver la imagen en un tamaño más grande en una ventana aparte.

Midjourney permite ampliar imágenes a resoluciones de 2048×2048 (cuadrado) y 2720×1530 (pantalla panorámica) a través de su función de rehacer ampliación beta, con un tamaño de cuadrícula de generación predeterminado de 1024×1024 (cuadrado) y 1456×816 (pantalla panorámica). Cada imagen se puede mejorar aún más mediante las opciones de ampliación “U”, que mejoran partes específicas de la imagen.

Echa un vistazo a esta indicación que produce obras de arte fantásticas con la versión V5.2 de Midjourney.

/imagine La obra de arte muestra un árbol solitario bajo un cielo estrellado, con un niño leyendo debajo, en los tonos de azul sereno y naranja cálido, inspirado en los pincelazos del Impresionismo francés, miniaturas persas, simplicidad de la Bauhaus, evocando ilustraciones clásicas de cuentos de hadas infantiles, logrando una armonía asimétrica, expresada en un encantador estilo folklórico/ingenuo: –ar 15:19 –upbeta –q 2

Creando tu Primera Obra de Arte de IA con Midjourney

  1. Elaborando el Diseño Básico: Piensa en ti mismo como un artista. Comienza con una descripción sencilla y vívida de la imagen que deseas dar vida. Esboza el tema principal, el ambiente, e incluso los detalles más pequeños que deseas incluir. Utiliza puntuación como comas, paréntesis y guiones para estructurar tus pensamientos. Para obtener mejores resultados, sé explícito acerca del contexto y los detalles de tu diseño. Elementos como el tema (por ejemplo, Dragón, auto vintage, Abraham Lincoln), VoAGI (por ejemplo, arte digital, boceto a lápiz), entorno (por ejemplo, espacio exterior, bajo el agua, ciudad bulliciosa), iluminación (por ejemplo, suave, neón, retroiluminación), color (por ejemplo, tonos tierra, vibrantes, apagados), estado de ánimo (por ejemplo, melancólico, caprichoso, pacífico) y composición (por ejemplo, paisaje, primer plano, gran angular) pueden ser críticos. Ejemplos:
    • Un bosque idílico bañado por la luz del sol, un sendero que se interna en la distancia
    • Una ciudad que nunca duerme, con luces de neón reflejándose en las aceras y una multitud diversa pululando
  2. Agregando Estilo y Palabras Clave: La IA de Midjourney es capaz de ilustrar imágenes en una multitud de estilos como abstracto, surrealista o realista. Al integrar un estilo o palabras clave relacionadas, puedes guiar a la IA para crear una imagen que refleje tu visión. Experimenta con varios estilos y palabras clave para descubrir la combinación perfecta. Ejemplos:
    • Una pintura de paisaje que representa un desierto al amanecer, reflejando el estilo de Georgia O’Keeffe, con una paleta de colores pastel y formas orgánicas.
    • Una representación abstracta de un bosque pacífico, con patrones geométricos formando árboles y follaje, inspirado en las composiciones de Piet Mondrian.
  3. Aprovechando la Configuración Avanzada: Considera a Midjourney como tu caja de herramientas creativa, repleta de configuraciones avanzadas que te permiten ajustar tus imágenes generadas. Es como empuñar una varita mágica, que te permite conjurar el equilibrio ideal de aleatoriedad, estilización y variación de imágenes. Libera tu habilidad creativa experimentando con estas configuraciones hasta encontrar la mezcla perfecta que resuene con tu visión. Ejemplos:
    • Un sereno jardín japonés con un estanque que refleja los árboles de cerezo –seed 22 –s 150 –c 40
    • Una ciudad distópica de estilo cyberpunk, iluminada por luces de neón –seed 88 –s 600 –c 60
  4. Destacando Elementos con Pesos: Visualiza tu imagen como una sinfonía, donde cada elemento contribuye al gran conjunto. Utilizando la notación “::”, puedes dictar la importancia de varios elementos en tu imagen, permitiéndote controlar el foco de atención. Ejemplos:
    • [Un elegante pavo real]::3 posado en un [árbol de glicinas]::1 floreciendo con flores vibrantes
    • [Un majestuoso elefante]::2 disfrutando del resplandor de un [atardecer]::1 en la sabana
  5. Midjourney es un proceso de prueba y error: Experimentar con diferentes elementos y características es necesario. Cada iteración te acercará más a la imagen que imaginaste dar vida.

Parámetros de Mid-Journey

El modelo de Midjourney opera utilizando parámetros ajustables que controlan el resultado del proceso de generación de imágenes. Estos parámetros permiten a los usuarios ajustar y adaptar su arte generado, afinando el modelo para crear salidas que se adapten perfectamente a su objetivo.

Sumergámonos en los parámetros básicos y avanzados, sus funciones y cómo utilizarlos para aprovechar al máximo las capacidades de Midjourney:

  • Proporciones de aspecto (–aspect o –ar): Este parámetro controla la relación entre el ancho y la altura de la imagen generada. Por ejemplo, una proporción de 16:9 es perfecta para miniaturas de YouTube, mientras que 1:1 produce una imagen cuadrada ideal para Instagram.
  • Caos (–chaos): Este parámetro ajusta la diversidad de la cuadrícula de imagen inicial y varía de 0 a 100. Valores más altos de caos te darán resultados impredecibles y únicos, mientras que valores más bajos garantizarán resultados más consistentes.
  • No (–no): Este parámetro te ayuda a eliminar elementos o características específicas de la imagen generada. Por ejemplo, si deseas una imagen sin ningún rojo, puedes usar “–no red”.
  • Calidad (–quality o –q): Esta configuración ajusta el tiempo necesario para generar una imagen. Una mayor calidad requiere más tiempo de procesamiento pero produce detalles intrincados. Este parámetro puede tener valores de .25, .5, 1 o 2.
  • Seed (–seed): Este parámetro determina el ruido visual inicial, actuando como una línea base para la imagen generada. Usar el mismo número de seed con la misma indicación dará salidas similares. Acepta valores enteros entre 0 y 4294967295.
  • Detener (–stop): Con este parámetro, puedes terminar prematuramente un trabajo, produciendo salidas menos detalladas pero potencialmente interesantes. El rango es 10-100. Por ejemplo, si especificas ‘–stop 50’, el proceso de generación de imágenes se detendrá al 50% de finalización, lo que resultará en una imagen menos detallada y posiblemente abstracta.
  • Estilizar (–stylize o –s): Esto controla el nivel de aplicación artística en la imagen generada. Valores de estilización más bajos producen resultados más cercanos a la indicación inicial, mientras que valores más altos resultan en interpretaciones más abstractas y artísticas. En la versión 5, el valor predeterminado es 100, pero puedes establecerlo en cualquier lugar entre 0 y 1000.
  • Versión del modelo: Puedes seleccionar diversas versiones del modelo Midjourney utilizando el parámetro –version o –v.
  • Niji: Un modelo especializado en imágenes de estilo anime. Se puede acceder utilizando el parámetro –niji.
  • Alta definición: Para imágenes abstractas y de paisajes, el parámetro –hd activa una versión temprana del modelo que produce imágenes más grandes y menos consistentes.
  • Modelos de prueba: Midjourney ofrece modelos especiales para casos de uso específicos. –test y –testp activan los modelos de prueba estándar y enfocados en fotografía, respectivamente.
  • Escalador: El algoritmo de Midjourney comienza con una cuadrícula de imagen de baja resolución. Ofrece varios modelos de escalado para mejorar el tamaño y los detalles de la imagen.
    • Uplight: Un escalador de luz alternativo (–uplight) proporciona imágenes escaladas que son menos detalladas pero más suaves.
    • Upbeta: El parámetro –upbeta da como resultado imágenes con muchos menos detalles adicionales, manteniéndose más cercanas a la imagen de la cuadrícula original.
    • Upanime: El escalador –upanime está diseñado específicamente para funcionar con el modelo Midjourney –niji.
  • Peso de la imagen: Utiliza –iw para ajustar el peso de la indicación de la imagen en relación con el peso del texto. El valor predeterminado es 0.25.
  • Mismo seed: El parámetro –sameseed asegura que todas las imágenes en la cuadrícula inicial utilicen el mismo ruido inicial, creando imágenes generadas muy similares.
  • Video: Midjourney puede guardar un video de progreso del proceso de generación de la cuadrícula de imagen inicial utilizando el parámetro –video.
  • Creativo: Con el parámetro –creative, los modelos de prueba y testp producen imágenes más variadas y creativas.

Midjourney lanza constantemente actualizaciones para mejorar la experiencia del usuario, siendo la última la versión 5.2, lanzada en junio de 2023. Al añadir –v 5.2 a tu indicación o seleccionándolo a través del comando /settings, los usuarios pueden acceder a este modelo avanzado. La versión 5.2 ofrece detalles de imagen superiores y comprende las indicaciones de manera más intuitiva, aportando colores más brillantes y composiciones mejoradas.

Comprendiendo los Derechos de Autor para Obras de Arte Generadas por IA

En marzo de 2023, la Oficina de Derechos de Autor de los Estados Unidos aclaró su postura sobre los derechos de autor de las obras generadas por IA. La política establece que si bien los elementos creados por humanos en las creaciones de IA (como escritos o diseños únicos) pueden estar protegidos, las imágenes producidas por IA no califican para derechos de autor, siguiendo las normas globales de que solo las creaciones humanas son elegibles para la protección de derechos de autor.

En el contexto del arte generado por IA, los derechos de autor no son sencillos. Mientras que el arte digital tiene la intervención del artista humano, el arte generado por IA se crea sin intervención humana directa, lo que complica la cuestión de la autoría y la propiedad. Según la Oficina de Derechos de Autor de los Estados Unidos, la propiedad inicial se otorga al autor de la obra, es decir, al creador humano. Sin embargo, como no se puede considerar que la IA sea un autor, el arte generado por IA carece de una propiedad clara.

La última guía de la Oficina de Derechos de Autor de los Estados Unidos permite el derecho de autor para el arte generado por IA solo cuando contiene una suficiente autoría humana. El nivel de “suficiente autoría humana” no está definido y depende del grado de participación humana en la creación de la obra de arte por IA.

Curiosamente, Midjourney, una plataforma basada en IA para la creación de imágenes, ha establecido sus propias políticas para los derechos de uso. Los usuarios de prueba gratuitos pueden utilizar las imágenes con fines no comerciales bajo la Licencia Internacional de Reconocimiento-NoComercial 4.0 de Creative Commons (CC BY-NC 4.0), dándole el crédito correspondiente a Midjourney. Sin embargo, los suscriptores de pago pueden utilizar las imágenes para cualquier propósito, incluyendo comercial, bajo los Términos Generales Comerciales. Este desarrollo en el espacio de los derechos de autor presenta una dinámica intrigante entre la IA y la creatividad humana.

Utilizando Midjourney para diseños de interfaz de usuario dinámicos y generación de logotipos creativos

Desde el diseño de interfaces intuitivas para sitios web o aplicaciones móviles hasta la creación de logotipos y banners únicos, Midjourney potencia a los creadores de contenido al generar una variedad de alternativas de diseño en cuestión de segundos.

Así es cómo funciona. Cada diseño comienza con una indicación, actuando como un plan para que la IA siga. Supongamos que estás diseñando una interfaz de usuario para una aplicación de plataforma de tutoría en línea. Una indicación típica podría ser: “/imagina interfaz de usuario de plataforma de tutoría en línea, Dribbble, alta resolución, 4K, como Khan Academy”.

Los resultados iniciales podrían no ser perfectos. Por ejemplo, añadir “Adobe XD” a la mezcla puede ayudar a Midjourney a adaptar sus diseños para que sean más compatibles con Adobe XD. Una indicación optimizada sería:

/imagina plataforma de tutoría en línea, interfaz de usuario, Adobe XD, Dribbble, alta resolución, 4K, diseño minimalista

 

Logotipos o banners inspirados en texto utilizando Midjourney

Veamos cómo crear un banner con un logotipo para UNITE AI.

Primero, necesitas tener una imagen simple del texto que deseas mostrar. Puedes crear esto utilizando cualquier herramienta de diseño gráfico o editor de texto y cargarlo en tu canal de Discord.

Una imagen simple de texto utilizada para crear el logotipo de UNITE

La indicación para crear el banner es:

/imagina Letras: <enlace a una imagen simple del texto a mostrar> UNITE en un logotipo con una tipografía futurista inspirada en IA con letras UNITE -v 5 -ar 16:9

Echa un vistazo a estas indicaciones de ejemplo para más ideas:

/imagina Un músico solitario interpretando una melodía serena en una ciudad flotante al atardecer, estilo art nouveau

 

/imagina Una imagen de una persona futurista trabajando en un escritorio futurista, rodeada de pantallas holográficas y tecnología avanzada. La persona lleva un ajustado mono plateado y gafas de realidad virtual. El entorno está lleno de luces de neón y hologramas flotantes. El ambiente es futurista y de alta tecnología, con una sensación de emoción e innovación. La cámara es una cámara digital de alta resolución, capturando cada detalle con precisión. El estilo artístico es una mezcla de cyberpunk y minimalismo, con un enfoque en líneas limpias y colores audaces. Los directores, cinematógrafos, fotógrafos, diseñadores de moda, dibujantes y artistas que colaboran en esta única yuxtaposición son Christopher Nolan, Roger Deakins, Annie Leibovitz, Virgil Abloh, Hayao Miyazaki y Kaws.

Imagine a Barbie de estilo de los años 1940 como enfermera de guerra, en un entorno de hospital militar vintage, atendiendo a los soldados heridos, al estilo de las ilustraciones clásicas de Mattel, con la atmósfera de fotografía de la Segunda Guerra Mundial en tonos sepia, 8k -v 5 -ar 16:9

Imagine un cuadro de una mujer apoyada en una ciudad futurista, tipo cyberpunk, en una moto voladora, con paisajes urbanos japoneses de anime, de 32k, de un puerto espacial intrincado, panoramas fugaces de rascacielos elegantes

Pensamientos Finales: Navegando el Mundo del Arte de IA con Midjourney

Recuerda, “Una imagen vale más que mil palabras”. Una descripción detallada y vibrante puede hacer maravillas. Sí, Midjourney no es gratuito. Sin embargo, está revolucionando el mundo del arte y expandiendo nuestras posibilidades creativas a través de su tecnología de IA de texto a imagen de última generación. Con la capacidad de convertir una simple indicación de texto en una imagen de alta resolución, es una herramienta que promete oportunidades ilimitadas, no solo para artistas, sino también para diseñadores de UI/UX, entusiastas de la tecnología y profesionales de IA.

Aquí tienes algunos puntos esenciales para recordar mientras te embarcas en tu aventura con Midjourney:

  • Aprende los conceptos básicos de la indicación de Midjourney: Utiliza descripciones claras, concisas y completas que capturen tu visión para guiar eficazmente a la IA. Recuerda considerar a tu audiencia y no dudes en experimentar con diversos estilos, estados de ánimo y contextos.
  • Utiliza parámetros: Mejora tu experiencia creativa aprovechando la multitud de ajustes avanzados que ofrece Midjourney. Desde controlar la relación de aspecto hasta ajustar el parámetro de caos para obtener resultados únicos, cada detalle puede adaptarse a tu preferencia.
  • Acepta el proceso iterativo: Tu primera obra de arte generada por IA puede no ser perfecta. Acepta este proceso iterativo y aprende a refinar y optimizar tus indicaciones para obtener mejores resultados.
  • Comprende las implicaciones de derechos de autor: Si bien las obras de arte generadas por IA en sí no son elegibles para derechos de autor, los componentes creados por humanos dentro de ellas pueden estar protegidos.

En esencia, la integración de la IA en el arte ha democratizado la creatividad y difuminado las líneas entre las obras maestras hechas por humanos y las realizadas por máquinas. A medida que continuamos presenciando el notable crecimiento de la IA generativa en el mercado del arte, es innegable que la revolución del arte de IA, liderada por plataformas como Midjourney, recién está comenzando.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Google AI presenta WeatherBench 2 un marco de aprendizaje automático para evaluar y comparar diversos modelos de pronóstico del tiempo

El aprendizaje automático (ML) se ha utilizado cada vez más en la predicción del tiempo en los últimos años. Ahora qu...

Inteligencia Artificial

Investigadores de Microsoft Research y Georgia Tech revelan los límites estadísticos de las alucinaciones en los modelos de lenguaje

Un problema clave que ha surgido recientemente en los Modelos de Lenguaje es la alta tasa a la que proporcionan infor...

Inteligencia Artificial

Descubre Davidsonian Scene Graph un marco de IA revolucionario para evaluar la IA de texto a imagen con precisión

Los modelos de texto a imagen (T2I) son difíciles de evaluar y a menudo dependen de métodos de generación y respuesta...