Inteligencia artificial para crear imágenes: Dall-e y otros proyectos en donde puedes probar esta increíble tecnología

19 agosto 2022

Inteligencia Artificial - Celside Magazine

La inteligencia artificial es una tecnología que ha llegado para quedarse. Sus implicancias en el mundo son tan amplias que es imposible abstraerse de sus avances. Sin embargo, su uso nos enfrenta a retos éticos y nos obliga a responder preguntas importantes.

Los más pesimistas ven el futuro como en la película Terminator. Con una IA haciéndose con el control del planeta y luchando contra los seres humanos. Pero el escenario no es tan malo. El empleo de una IA puede ayudar a mejorar un sinfín de procesos, adelantando la evolución humana y construyendo un futuro mejor.

En la actualidad tenemos diversas compañías experimentando con esta tecnología. Uno de estos proyectos, bastante curioso, nos permite saber qué pasa cuando dejamos a una IA comportarse como una mente creativa.

En este artículo te contamos de qué va este proyecto y te mostramos otras plataformas similares en donde puedes ver los resultados de una inteligencia artificial intentando ser artista.

¿Qué es la inteligencia artificial?

De manera resumida, podemos decir que la inteligencia artificial es una tecnología que imita la inteligencia humana, mediante el uso combinado de hardware y software.

Ahora bien, y dado que la inteligencia humana tiene un montón de aplicaciones distintas en la vida cotidiana, con la IA sucede lo mismo. No existe un consenso definitivo respecto a la forma en que está funciona, ya que esta puede variar dependiendo del ámbito en el que actúe.

Sin embargo, hay un inicio bastante claro y en donde todos coinciden. El término fue acuñado por primera vez en 1956. Año en que John McCarthy, reconocido informático de la época, definió la inteligencia artificial como la ciencia e ingenio de hacer máquinas inteligentes, especialmente programas de cómputo inteligentes.

Esto ocurrió durante la celebración de la Conferencia de Dartmouth, que se considera el puntapié inicial para el desarrollo de este tipo de tecnología.

¿Cuántos tipos de IA hay?

Para entender las aplicaciones de la IA existen dos definiciones básicas con las cuales hay que empezar. Estas son:

Inteligencia artificial débil

Es una IA que funciona como una simulación del pensamiento humano, pero siempre sujeta al control de las personas o, en este caso, el programador. En esta categoría entra cualquier programa avanzado que sea capaz de realizar tareas complejas en un área específica y siempre enfocado a la misma función.

Un buen ejemplo de un sistema de IA Débil sería Siri, la asistente personal desarrollada por Apple. Parece muy inteligente, casi como una persona real, pero no deja de ser un conjunto de instrucciones y frases prefabricadas que los programadores han puesto allí para que se activen ante determinados parámetros o gestos iniciados por las personas en la vida real.

Otro ejemplo de este tipo de tecnología puede ser los NPC de un videojuego. Estos son los personajes que aparecen durante la partida y que aportan a la historia un contexto, al mismo tiempo que interactúan con los jugadores. Parecen jugadores reales y muchas veces actúan como lo haría una persona. Sin embargo, son programas con una función bastante clara y que se repite de acuerdo a las circunstancias del jugador y las acciones que este realiza durante la partida.

También entran en la categoría de IA Débil los chatbots, pequeños programas que interactúan en el ámbito del servicio al cliente. Y en general, cualquier máquina o programa que pueda ejercer una función hecha por personas, de manera eficiente y repetitiva.

Uno de los ejemplos modernos típicos de IA débil es el Machine Learning o Sistema de Aprendizaje Automático. En donde tenemos programas entrenados para aprender sobre la marcha y teniendo en consideración mucha información para ofrecer resultados de todo tipo. Desde cómputo a datos predictivos.

Inteligencia artificial fuerte

Es un tipo de IA completamente autónoma y capaz de tomar decisiones sin la intervención de un ser humano. Este tipo de tecnología aún no existe en el mundo. Aunque hay varias ramas de la informática que se acercan a ella como son el Aprendizaje Automático y el Aprendizaje Profundo o Deep Learning.

Los sistemas Deep Learning funcionan con redes neuronales. Un sistema que replica el funcionamiento cognitivo del ser humano basado en la distribución escalonada de la información que va pasando por diferentes nodos que finalmente construyen o presentan una solución o acción.

En este caso, el Machine Learning es un sistema con menos capas de control y análisis, si se compara con un sistema Deep Learning en donde las redes neuronales se vuelven cada vez más complejas.

Ejemplos de una IA fuerte serían las inteligencias artificiales que aparecen en películas como Terminator, Ex Machina o Her. Todas, por supuesto, en el ámbito de la ciencia ficción.

Aun así, y pese a que este tipo de IA aún no se ha desarrollado, existe preocupación respecto a su aparición. Precisamente por las implicancias morales y filosóficas que esto producirá.

Los detractores de este tipo de tecnología señalan que su aparición podría ser el principio del fin de la raza humana. Esto, porque una IA fuerte podría tomar decisiones globales en donde podría identificar al ser humano como el factor que produce algunos de los problemas que esta pueda detectar. Lo que, por supuesto, pondría en peligro su existencia.

Elon Musk, por ejemplo, señala que la aparición de este tipo de tecnología es inminente. Por lo mismo, es necesario adelantarse a eso y crear una serie de normativas que permitan regular y controlar su funcionamiento. Esto, porque sin ellas, este tipo de tecnología podría volverse más peligrosa que la existencia de las armas nucleares.

Una inteligencia artificial que puede crear imágenes

La inteligencia artificial es tendencia y muchas empresas privadas están interesadas en su desarrollo. Por lo mismo, experimentan con ella para analizar los resultados que pueden conseguir.

Dentro de estos proyectos tenemos la iniciativa de OpenAI, una compañía de investigación de inteligencia artificial sin fines de lucro, cuyo objetivo es promover y desarrollar esta tecnología.

OpenAI lanzó a principios del 2021 una herramienta llamada Dall-e. Que no es otra cosa que una IA capaz de generar imágenes a partir de palabras sugeridas.

Esta funciona de manera parecida a Google, en donde es posible introducir algunas palabras para que el software sea capaz de reconocer la información y devolver los resultados.

La diferencia de Dalle-e es que en vez de devolver resultados, lo que hace es producir imágenes inspiradas en las palabras que se han introducido. Lo que ha sido todo un descubrimiento. Esto, porque Dall-e ha sido capaz de generar imágenes y composiciones de la nada.

¿Cómo funciona Dall-e?

Dall-e es un programa que incluye doce mil millones de parámetros de GPT-3 (Una IA que permite procesar lenguaje escrito), y que ha sido entrenado para generar imágenes a partir de descripciones de texto, utilizando un sistema de emparejamiento entre texto e imágenes.

Lo curioso es que Dall-e es capaz de producir composiciones considerando conceptos irracionales como Un sillón en forma de aguacate o Un Rábano en tutú paseando a un perro.

Eso quiere decir que sus resultados no se remiten a lo obvio, como mostrar la imagen de una manzana cuando le damos la instrucción escrita manzana. Esta IA es capaz de interpretar los conceptos más complejos y las combinaciones de palabras más raras para siempre ofrecer una imagen basada en esos conceptos.

En la web del proyecto se indica, además, cómo se descubrieron capacidades adicionales en la medida que el programa evolucionaba, llegando a crear versiones antropomórficas de animales y objetos.

Dentro del resto de atributos identificados de Dall-e, está la capacidad de ofrecer una visión tridimensional de los objetos que representa. También puede identificar y expresar ubicaciones geográficas, además de intuir las épocas en una línea de tiempo para ofrecer imágenes más o menos modernas, de acuerdo a las palabras que se ingresen en el sistema.

Dall-e 2

El 6 de abril de este año OpenAI volvió a actualizar su inteligencia artificial y presentó Dall-e 2 que mejora la calidad y resolución de las imágenes. Con resultados sorprendentes y que mejoran muchísimo los obtenidos por la primera versión.

Con respecto al mecanismo de funcionamiento, se conservan las mismas capacidades, como la de combinar conceptos, atributos y estilos. Pero se añaden otras más. Como, por ejemplo, la de realizar ediciones realistas en imágenes a partir de una leyenda en lenguaje natural. Esto, además, le permite a Dall-e 2 incorporar o quitar elementos teniendo en cuenta las sombras, los reflejos y las texturas.

Otra cosa que llama mucho la atención de Dall-e 2 es que puede tomar una imagen y crear diferentes variaciones inspiradas en la original. Para ello, utiliza un proceso llamado difusión que comienza con un patrón de puntos aleatorios que luego va transformando y combinando en la medida que reconoce aspectos específicos de las imágenes. ¡Como la primera impresión de un artista!

La resolución obtenida por Dall-e 2 es cuatro veces mayor que la obtenida en imágenes por la primera versión del software.

Tanto Dall-e como Dall-e 2 son proyectos abiertos en donde otras personas pueden participar. Sin embargo, debido a que la demanda de su uso es increíblemente grande, el proyecto funciona basado en invitaciones y con un sistema de lista de espera que tiene pinta de ser bastante larga.

De todas formas, han aparecido otros proyectos con las mismas características, que permiten probar en línea los increíbles avances de la inteligencia artificial.

Otras herramientas gratuitas para crear imágenes con una IA

Si se te ha despertado la curiosidad con las increíbles hazañas de Dall-e y Dall-e 2, seguramente te interesa probar alguna herramienta que te permita interactuar con este tipo de tecnología.

Por suerte, hay varias páginas web que ofrecen sistemas parecidos en los cuales podemos usar conceptos y palabras para que una inteligencia artificial pueda diseñar algo con todo eso. Las más reconocidas son:

Craiyon

Es una plataforma que utiliza la misma API de Dall-e. Una versión de este programa que, además, es entrenada mediante Google TRC, una herramienta ofrecida por el gigante tecnológico a los investigadores dedicados a la evolución y aplicación del aprendizaje automático.

Para emplear Craiyon tenemos que ir a su web que resulta ser bastante sencilla e intuitiva. Tenemos una barra de texto en donde tenemos que escribir la o las palabras que queremos aplicar y luego tenemos que pulsar donde aparece el ícono de un lápiz.

El sistema genera 9 imágenes de una vez y estas aparecen en una cuadrícula en donde podemos pulsar en cualquiera de las imágenes para ampliarlas.

Es importante aclarar que la resolución obtenida por Craiyon no es comparable a la de la IA estrenada por OpenAI. Sin embargo, resulta increíble ver como la IA da vida a los conceptos o frases que escribimos en la barra de texto.

En algunos casos, el resultado puede resultar algo perturbador. A su favor es que no hay lista de espera y no es necesario registrarse en la web.

NeuroGen

Es una plataforma web un poco más elaborada que la de Craiyon. Eso sí, para entrar en ella debemos registrarnos. Algo bastante sencillo y que incluso se puede hacer con una cuenta de Google.

Una vez que estamos dentro, veremos un sistema parecido al de Google. Una barra de texto para introducir las palabras clave y otra más grande en donde veremos las imágenes resultantes. Adicionalmente, podemos seleccionar el número de imágenes que queremos generar.

Cuando pulsamos en el botón para crear, notaremos que el sistema se demora algo más que Craiyon. Lo bueno, es que al finalizar el proceso, nos envía un correo para avisar. Por lo que podemos dejar el sistema andando, mientras seguimos con otra cosa a la espera de la notificación de la web.

Las primeras 100 imágenes son gratuitas. A partir de ahí, cada 1000 imágenes cuestan 10 dólares. Un precio bastante accesible y un número de resultados bastante generoso por el valor que pagamos.

Las imágenes inicialmente son privadas, pero una vez que las tenemos, podemos hacerlas públicas o gestionarlas de la manera que nos parezca. Se pueden guardar en formato PNG y podemos modificar el tamaño de las mismas según nuestra preferencia.

Lattent Difussion

Es tan sencillo y simple de usar como Craiyon. Hay una barra de texto en donde podemos escribir un contexto para la imagen. Como, por ejemplo, Gato comienza en el jardín mientras llueve. Al hacerlo, la IA generará un par de imágenes interpretando lo que hemos escrito.

Aunque la IA de LD funciona con palabras en español, el resultado no parece del todo preciso. Por lo mismo, es recomendable emplear palabras en inglés para obtener imágenes más cercanas al contexto original.

Lo bueno, que no hay que registrarse y se puede utilizar todas las veces que quieras. Sin limitación de imágenes, como sucede con NeuroGen. La página está ubicada dentro del mismo repositorio de los desarrolladores.

Imagen de Gerd Altmann en Pixabay

¿Necesitas ayuda?

930 039 900

Número de teléfono gratuito

De lunes a viernes de 9 h a 19 h

Contacta con nosotros

Accede al formulario