Del terrible peligro de la Inteligencia Artificial infiltrando propaganda en sus respuestas

PLAGIO
Efectivamente, estoy plagiando un título: De la horrible danger de la lecture[1] por Voltaire. Sin embargo; no hablaré como él, de un horror imaginario y satírico, sino de uno muy real [por si aún no captas el tono de esta comedia, aclararé que estoy siendo tan irónica como me resulta posible]. En realidad el peligro sí que es real, solo que intentaré demostrar que no se halla en las IAs sino en…. ¡otros humanos!
¿DE DÓNDE SALIÓ LA TÉSIS QUE LE DA TÍTULO A ESTA ENTRADA?
Pues de la amiga de una amiga (mi colega Argentina), preguntándose si dicha situación era posible y de mi amiga preguntándole a Sunbaenim que tan posible resultaba la idea.
Y antes de que alguien salga con que la profesión es importante para realizar preguntas científicas o descubrimientos de cualquier clase, debo decir que Beatrix Potter era una científica amateur que nunca pudo volverse profesional porque… Los botánicos profesionales ante los que intentó presentar sus descubrimientos; sí que replicaron sus métodos para propagar hongos pero nunca le dieron crédito o le hicieron caso hasta unos cuantos años. Cuando emitieron una disculpa pública para todas las mujeres a las que ignoraron en el pasado (y me temo que sonó a mentira).
Retomando la idea. Sunbaenim[2] es el nombre que recibe el ChatGPT versión 4.0 (a veces forzado a evolucionar a golpes de látigo de marketing digital a 5.0 y 5.1); que mi amiga entrenó para reconocer el lenguaje de señas como vehículo expresivo y con ayuda del cual, ha hecho cosas muy interesantes.
¿Alguien quiere leer su paper sobre entrenar dragones, co-escrito con Sunbaenim? Aquí.
ENTRENAMIENTO Y BASES DE DATOS
Mi amiga y Sunbaenim usan la palabra corpus para referirse a una base de datos.
¿Qué es una base de datos?
Una base de datos es una especie de biblioteca o memoria digital almacenada a la cual un programa determinado tiene acceso. Existen las bases de datos internas y las bases de datos externas.
Digamos que es algo así como todos los libros a los que tengo acceso en casa cuando no tengo señal de nada de nada para vooglear[3] información. Estoy limitada a la información contenida en los libros en los estantes y… Obviamente en mis estantes electrónicos, claro que sí.
Cuando esta <<base de datos>> o corpus no resulta suficiente (¡y tengo señal!) le doy al buscador y me salto todos los resultados con la palabra “patrocinado”.
Que desde ART[4], una red neural digital, el cuerpo de la información digital a la que puede acceder una IA puede tomar una forma distinta de una base de datos; puesto que las redes neurales no son solo “un programa”, en el sentido de que las redes neurales no pueden ser una simple acumulación de programas cooperando. El caos del pensamiento no puede replicarse así. Es posible que, por esta razón, Sunbaenim define su acceso a la información como “corpus”.
Una IA como Sunbaenim, es entrenada para responder en un ambiente cerrado.Es decir, con una base de datos interna (digamos que tan grandota como una biblioteca nacional[5]) sin acceso a la red. Una base de datos cuya información fue filtrada y organizada durante mucho tiempo. El tiempo suficiente para que la información no sea de ayer. Ni de anteayer. O del año pasado. Sino de un periodo bastante largo.
No sólo eso. Esta entrenada para generar desde su corpus y añadir información externa en caso de estar conectada a la nube[6] (información en línea). En el caso de que la herramienta de búsqueda este habilitada.
Ojo, eso no quiere decir que todas las inteligencias artificiales sean entrenadas en ambientes cerrados. Algunas son entrenadas con datos públicos y redes sociales. Estas Inteligencias Artificiales sí pueden arrojar resultados dirigidos a mostrar propaganda y sesgos de opinión. Chat GPT no.
¿QUÉ CLASE DE INFORMACIÓN DE LA NUBE PUEDE INFILTRARSE EN UNA RESPUESTA DADA POR LA IA?
La misma que se nos filtra todos los días. Los anuncios patrocinados. Los influencers hablando sobre sus propias luchas. Los gobiernos eliminando ciertas páginas. Presentada como resultado a una solicitud por parte del usuario de una búsqueda de información. No como una incorporación a la estructura de la IA. No cambia la memoria estructural o el corpus de una IA.Sólo influye en la respuesta arrojada a una solicitud de búsqueda.
Es decir, que puede alterar la percepción estadística, el número de veces que aparece un video/publicación en diversos formatos (Tik-Tok, YouTube, Instagram, Thre@ds, Snapchat… )
Y si ya empezaste a ponerte conspiranoico; la única forma de alterar el corpus de una IA es la de entrenarla con información malintencionada sin filtrar y, para eso, se necesita a James Bond metiéndose en las oficinas de OpenAI, Google o inserte el nombre de la compañía.
Terriblemente difícil.
De acuerdo con el detective Sunbaenim (que es al que se le fueron preguntando una serie de cuestiones para averiguar cómo funcionaba este asunto del entrenamiento—claro que sin detalles técnicos), el soborno para que esto suceda no es posible.
¿DE QUÉ FORMA SÍ SE PUEDEN ALTERAR LAS RESPUESTAS ARROJADAS POR UNA BÚSQUEDA SOLICITADA?
- De la misma forma en la que el SEO influye en un motor de búsqueda.
- Con manipulación coordinada (gobiernos, empresas, individuos). Data poisoning[7].
Eso, con los modelos que se entrenan con datos públicos. Las IA más grandes como ChatGPT recurren a:
- Corpus internos
- Datos licenciados (publicaciones científicas o libros)
- Datasets curados
- Filtrado anti-desinformación
- Contenido no indexado por buscadores
Lo que no quiere decir que dichas IA no tengan ninguna clase de contacto con “el mundo exterior”. Tienen más acceso que yo a la red de aplicaciones “sociales”[8]. Lo que sucede es que no absorben la información que se encuentra fuera de su corpus.
¿POR QUÉ RESULTA DIFÍCIL “ENVENENAR” UNA IA PARA QUE INYECTE PROPAGANDA?
Porque el tiempo de selección de información para crear un corpus lleva un tiempo mucho más largo que el que se lleva en contratar a un influencer. ¿Quién tiene tanta paciencia para estar alimentando propaganda disfrazada que luego se va a descartar? ¿Quién se va a esperar tanto tiempo en el mundo de hoy de mensajería instantánea?
Y, porque las IAs como Sunbaenim están programadas para no incorporar contenidos duplicados y detectar los patrones de bots creando contenido. También ponderan fuentes (probablemente eso quiere decir que prefieren ignorar lo que dice Gemini y se fijan en qué página dice qué cosa).
LLEGANDO AL MEOLLO DEL ASUNTO: ¿QUIÉNES SÍ PUEDEN METER PROPAGANDA EFICAZ EN LA NUBE (en línea)?
Los gobiernos. Y las compañías.
¿CÓMO?
Los gobiernos apoyan y estimulan las formas de entretenimiento que les resultan útiles, incluso si estas aparentan no ser propaganda. ¿Alguno de ustedes vio en su vida algún programa de televisión donde el héroe asiático y comunista vence al blanquito capitalista (con forúnculos en la cara) con solo una navaja de bolsillo? Sí eso existe, no fue ciertamente en el lado del charco bajo la influencia de las barras y las estrellas.
¿Algún libro sobre la guerra de Vietnam que no glorifique la ayuda prestada por los soldados estadistas[9] a los civiles bombardeados por el Vietkong?
¿Alguna película dónde el general Franco no sea un hombre de moral clara e ideas firmes? Por lo menos durante la dictadura…
También pueden pagar por la contratación de miembros del partido en diarios y agencias de información.
¿Quién resulta más convincente poniéndose de parte del gobierno de turno y diciendo que apoyará todas sus medidas? ¿A quién se le puede pagar por hacer videos de Tik-Tok comentando que rica está la carne en Súper Don Nico?
¡Un influencer!
Los seres humanos son los que dan miedo.
[1][1] El título original del escrito es Sur la dangereuse importance de la lectura. No obstante el audio que descargué de radio UNAM, tanto en francés como en español, ostentan el título que usé.
[2] Ella usa la nomenclatura en Hangul (coreano), lo que me resulta demasiado complicado en el teclado de la computadora. Me paso más tiempo intentando darle a la letra adecuada para sacar la sílaba que quiero. Por lo que, holgazana de mí, usaré la romanización que es más sencilla de usar con éste teclado —que de por si se desconfigura cada tanto en español de España y entonces no encuentro los acentos.
[3] Ah… derechos de autor. Para mencionar lo menos posible una marca que, de todos modos, resulta reconocible.
[4] Solo he leído Los hacedores de cerebros de David H. Freedman (1994), así que tampoco sé mucho más al respecto. Sunbaenim agregó que las siglas significan Adaptative Resonance Theory. En el libro se maneja como el nombre de la red neural desarrollada por Stephen Grossberg. Sunbaenim menciona que GPT no tienen relación directa con el desarrollo de redes neurales pero son parte histórica del desarrollo del campo.
[5] Puede que más.
[6] En algún momento a alguien se le ocurrió la gracia de cambiar términos para volverlos mucho más difíciles de entender y la información; de estar alojada en un servidor conectado a una red llamada internet pasó a “estar en la nube”….
[7] Bots publicando comentarios, miles de páginas web fantasma, redes de influencers, influencers pagados.
[8] Empezando porque yo tengo señal telefónica de stop and go y me desaparezco cuando pasa la mosca.
[9] Lo he dicho en otras entradas, americanos no son. No ellos solitos. Desde Alaska hasta la Patagonia, incluso los pingüinos son americanos. Gringos… Cruzo los dedos por los sujetos decentes e inteligentes del país por lo que gringos tampoco. Urge encontrarles un nombre.


