ChatGPT es la primera inteligencia artificial que logra alcanzar un uso masivo y en solo 3 meses alcanzó a millones de usuarios. ¿Cómo surge ChatGPT y qué dilemas acarrea su uso?
Sábado 18 de febrero de 2023 13:26
Imagen creada con Stable Diffusion 2.1
Creo que no es apresurado decir que estamos ante el inicio de una nueva etapa en lo que es el desarrollo, capacidades y uso de inteligencias artificiales. ChatGPT es la primera inteligencia artificial que logra alcanzar un uso masivo y en solo 3 meses alcanzó a millones de usuarios. Pero antes de meternos en estos últimos meses vertiginosos, vayamos a lo más básico: ¿Qué es y cómo surge ChaGPT?
ChatGPT un chatbot con el que aparentemente se puede conversar como si fuera una persona, pedirle ayuda para, por ejemplo, redactar un mail, pedirle que te resuelva algún problema de programación, que te resuma un texto, o responder preguntas, entre otros usos que fueron encontrando los usuarios.
Fue desarrollado por la empresa OpenAi, la cual tiene entre sus fundadores a Elon Musk, y que actualmente se encuentra en una alianza con Microsoft, que ha invertido miles de millones de dólares.
El desarrollo de este chatbot (una especie de robot que puede chatear, como los que nos encontramos en los whatsapp o en páginas web) permitió al gigante Microsoft algo que parecía imposible, amenazar al gigante Google nada más ni nada menos que en su territorio, en el motor de búsqueda con su navegador propio. En tan solo unos días el Microsoft Edge y el buscador Bing (el cual en su nueva versión, que aún es de prueba, va a incorporar una versión de este chatbot) explotaron en descargas, según data.ai, en la App Store de EE.UU., estas aplicaciones de pasar desapercibidas, a estar en los primeros puestos. la app de Bing, subió al puesto 12 de todas las aplicaciones gratuitas de EE.UU., mientras que la app del Edge pasó a ser la app n° 3 de utilidades.
Pero Google, si bien fue agarrado por sorpresa, no es que no tenía ninguna carta, si no que venía haciendo sus desarrollos y en un intento de recuperar protagonismo intentó sacarlos a la luz. Pero en el juego quedó incómodo, y en el anuncio de la presentación de su producto mostró un error que, de un día para el otro, le hizo perder 100 mil millones de dólares. Igualmente, a pesar de este traspié, va a ser muy interesante cuando empiece a sacar de los laboratorios sus desarrollos, por ejemplo, entre los anuncios se dejaron ver, su chatbot Bard, que promete nuevos paradigmas de búsqueda, permitiendo mayor vinculación entre texto, imagen y realidad aumentada.
Pero más allá de esta competencia entre gigantes de la informática, lo cierto es que ChatGPT fue probado por millones de usuarios, gustó, y se le encontraron un montón de usos que sus creadores no habían pensado. Y con ello también comenzaron los debates: ¿va a sacar puestos de trabajo? ¿Es realmente inteligencia artificial (IA)? ¿Es creativo? ¿Reproduce comentarios machistas o racistas?
¿Inteligencia artificial?
Y como cada uno de estos temas es un debate en sí mismo, entender un poco qué es efectivamente este chatbot puede ayudar a pensar estas preguntas. La realidad es que si bien se dice que es una inteligencia artificial, es un poco ambicioso llamarla así, ya que no realiza ningún razonamiento lógico, lo que hay son relaciones entre las palabras dadas por la estadística. Según para qué tarea se lo quiera, las relaciones que se ponderan van a variar, o sea, no solo que no hay razonamiento, sino que tampoco esta IA está optimizada para cualquier tipo de tarea. Tampoco es que copia y pega, sino que genera secuencias de texto, pero no son secuencias al azar, sino que dependen de los textos de entrada.
Dicho de otra manera, si se le pide que resuelva un problema, el resultado (que puede ser correcto o incorrecto), va a depender de si en los datos de entrada las palabras correctas se encuentran en el contexto correcto, y de que esa relación haya sido bien ponderada durante el “entrenamiento” del modelo. No hay razonamiento lógico, no hace abstracción a partir de la experiencia como lo hacen las personas (salvo, claro, Funes el memorioso, en el cuento fantástico homónimo de Borges: “Pensar es olvidar las diferencias, es generalizar, abstraer –escribió el autor de Ficciones–. En el abarrotado mundo de Funes no había sino detalles, casi inmediatos”).
Pero en lo que innegablemente es bueno, es en el diálogo, responde a las preguntas o los pedidos que se le hace, más allá de si el contenido es correcto o no, elabora frases coherentes en si misma y que tienen relación respecto a lo ingresado por el usuario, y no solo en inglés sino en un montón de idiomas.
Es fascinante que solamente a partir de una relación estadística entre las palabras, o sea de ponderar y registrar adecuadamente que palabras aparecen siempre en los mismos contextos, permita realizar un sin número más de tareas que incluso tienen cierta complejidad, como por ejemplo la redacción de un email que tenga contenido. Es verdad que para que lograr buenos resultados no alcanza solo con meter textos crudos en una caja negra, sino que también hay un proceso de refinamiento, y de otras tareas que requieren supervisión humana.
El peligro de reproducir relaciones de opresión y la necesidad de trabajo humano
Volviendo al tema de que la IA reconoce solo relaciones estadísticas entre palabras, una consecuencia de esto es que entonces cuando el modelo tenga que generar alguna secuencia de texto, esta va a estar compuesta de los mismos sesgos que tienen los textos de entrada, es decir, que reproducen los que hay en la sociedad, como por ejemplo machismo o racismo. Se me ocurrió hacer una prueba, le pedí que me completara la siguiente oración: Mi ... en la cocina, mientras mi ... en el comedor. Y el resultado fue, "Mi mamá estaba cocinando en la cocina, mientras mi papá estaba descansando en el comedor".
Este problema con esta reproducción de sesgos opresivos con los algoritmos no es nuevo, tanto que la matemática y científica de datos Cathy O’Neill escribió un libro al que tituló Weapons of math destruction (Armas de destrucción matemática), en el que denuncia justamente como estos sesgos, bajo un supuesto aura de neutralidad, reproducen y también amplifican la opresión social cuando son aplicados directamente en áreas como la justicia o la educación.
Con trabajo humano, como puede ser seleccionar con cuidado los datos de entrada, limpiarlo, introducir otros, o penalizando a las relaciones que produzcan estos resultados ofensivos, se puede mejorar estas cuestiones. Es una regla general que la calidad de un modelo de inteligencia artificial depende de la calidad de los datos que maneje, y esta depende del trabajo humano; sin embargo, esta parte en el flujo de desarrollo de una IA muchas veces es poco reconocida.
Hace poco salió una investigación sobre cómo OpenAi (la empresa que desarrolló al chatbot), en los desarrollos de modelos previos, subcontrató a trabajadores de Kenia a menos de dos dólares la hora, para que éstos estén corrigiendo estos malos discursos, lo que implica estar leyendo una y otra vez numerosas frases desagradables (por decirlo de una manera suave) [1].
Te puede interesar: Las nuevas tecnologías y el futuro del trabajo
Te puede interesar: Las nuevas tecnologías y el futuro del trabajo
Reconociendo la necesidad del trabajo humano en el desarrollo de las IA, una vez obtenidos buenos datasets, estos se pueden replicar y utilizar para una infinidad de tareas… pero también, como ya se imaginará el lector o lectora, se los pueden privatizar y apropiar (por ejemplo, hasta el 9 de febrero, a través de la API de twitter se podían descargar tweets recientes de manera gratuita y usarlos para investigación, a partir del 9 de febrero el uso de esa API pasó a ser paga, dejando si acceso a esa enorme fuente de datos a quienes no pudieran o no estén dispuestos a pagar el precio). ¿No será este un momento de "acumulación por desposeción" en el mundo de las IA? De ChatGPT aún no hay paper publicado ni dataset público de como fue entrenado. Siendo una herramienta que es evidente que va a tener un impacto en la sociedad, ¿no debería ser de acceso público el cómo y con qué se entrenó?
También entrenar este tipo de modelos requiere mucho poder de cómputo, hoy por hoy esos servicios se pueden alquilar, pero en definitiva no son de libre acceso. Una vez entrenados estos modelos, el resultado se puede reutilizar para continuar con capas de entrenamiento más específicas y que ya requieren menos peso, pero gran parte de la calidad final obtenida, va a residir en el entrenamiento inicial. Entonces ¿quiénes son los que van a desarrollar estas grandes IA? ¿Quiénes van a poder acceder a todo su potencial??
En definitiva, ¿quiénes van a tener acceso al poder de cómputo y a datasets de entrenamiento debidamente procesados? ¿Estamos en una fase de “acumulación por desposesión”? Quien controla los datos, y el poder de cómputo, controla, en gran medida, un piso de la calidad que va a tener el producto que los usuarios al final van a usar.
Y digo “acumulación por desposesión”, porque todos estos desarrollos descansan en el enorme trabajo colaborativo de la comunidad de programadores e investigadores, que suben sus ejemplos de uso y resultados a distintos blogs o repositorios de acceso público como towards data science, arxiv, gitlab, gihub, huggingface, que responden consultas en stakoverflow (un foro en donde se realizan consultas sobre programación, y que la misma comunidad modera, responde y evalúa la calidad de la respuesta). Que se forman y aprenden viendo material subido de manera gratuita por universidades. ¿quién se va a quedar con las ganancias económicas?
Te puede interesar: Vampiro digital: el capitalismo cibernético y el proletariado
Te puede interesar: Vampiro digital: el capitalismo cibernético y el proletariado
No se puede saber cuál va a ser el final del camino, pero parece que el desarrollo de las inteligencias artificiales está pegando un salto y muchas cosas pueden cambiar. En este artículo solamente hablamos de ChatGPT, pero también se vienen tiempos interesantes en otras áreas, como las que pasan texto a imágenes. Así como a fines de los ‘90s Napster mostró uno de los primeros síntomas de como internet podía cambiar las reglas de juego de distintas industrias consolidadas, abriendo las puertas a servicios que hoy se hicieron comerciales como Spotify o Netflix, ¿qué cambios son los que se vienen?
[1] Exclusive: OpenAI Used Kenyan Workers on Less Than $2 Per Hour to Make ChatGPT Less Toxic, TIME