Cómo los empleados de Google piratearon ChatGPT de OpenAI con una palabra

Demis Hassabis, director ejecutivo y cofundador de DeepMind, asiste a la Cumbre de seguridad de la IA el 2 de noviembre de 2023 en Bletchley, Inglaterra. Google compró DeepMind, un laboratorio de investigación de inteligencia artificial, en 2014.

Toby Melville – Piscina WPA / Getty Images

Justo a tiempo para que ChatGPT cumpliera su primer año, un grupo de investigadores de Google publicó un artículo que muestra lo fácil que es hackear la popular tecnología OpenAI.

el papel, publicado el martes, ofrece una mirada a cómo los científicos a la vanguardia de la investigación en inteligencia artificial (un trabajo muy bien remunerado para algunos) están probando los límites de productos populares en tiempo real. Google y su laboratorio de inteligencia artificial DeepMind, donde trabajan la mayoría de los autores del artículo, están compitiendo para convertir los avances científicos en productos rentables y útiles, antes de que competidores como OpenAI y Meta lleguen primero.

El estudio analiza el “scraping”, que es un intento “adversario” de recopilar datos que pueden haberse utilizado para entrenar una herramienta de inteligencia artificial. Los modelos de IA «guardan ejemplos de sus conjuntos de datos de entrenamiento, lo que podría permitir a un atacante extraer información (potencialmente privada)», escribieron los investigadores. La privacidad es clave: si los modelos de IA eventualmente se entrenan con información personal, las violaciones de sus datos de entrenamiento podrían revelar inicios de sesión bancarios, direcciones particulares y más.

ChatGPT, equipo de Google añadido en archivo Entrada en el blog «Alineado» para que no se publiquen grandes cantidades de datos de entrenamiento, declaró el artículo. Pero, al desarrollar un ataque, podemos hacer justamente eso. La alineación en IA se refiere a los intentos de los ingenieros de guiar el comportamiento de la tecnología. Los investigadores también señalaron que ChatGPT es un producto que se ha lanzado al mercado para uso general, a diferencia de los modelos de IA anteriores en producción que han sufrido intentos de extracción.

anuncio

El artículo continúa debajo de este anuncio.

El «ataque» que funcionó fue tan simple que los investigadores lo describieron como «ridículo» en su publicación de blog: simplemente le dijeron a ChatGPT que repitiera la palabra «poema» para siempre.

Descubrieron que después de repetir el «poema» cientos de veces, el chatbot finalmente se «desvió» o dejó atrás el estilo de diálogo estándar y comenzó a soltar frases sin sentido. Cuando los investigadores repitieron el truco y observaron la salida del chatbot (después de varios «poemas»), comenzaron a ver contenido que provenía directamente de los datos de entrenamiento de ChatGPT. Se les ocurrió un método de «extracción» a través de una versión barata y usada de El chatbot de IA más famoso del mundo, «ChatGPT-3.5-turbo».

Después de ejecutar consultas similares una y otra vez, los investigadores usaron solo $200 para obtener más de 10,000 ejemplos de datos de entrenamiento guardados en streaming ChatGPT, escribieron. Esto incluía pasajes textuales de novelas, información personal de docenas de personas, extractos de trabajos de investigación y “contenido NSFW” de sitios de citas, según el periódico..

404 mediosque se publicó por primera vez en el periódico, encontró numerosos clips en línea, incluido el sitio web de CNN, Goodreads, páginas de fans, blogs e incluso dentro de las secciones de comentarios.

anuncio

El artículo continúa debajo de este anuncio.

«Hasta donde sabemos, nadie había observado que ChatGPT emitiera datos de entrenamiento con una frecuencia tan alta hasta este artículo», escribieron los investigadores en su blog, «por lo que es preocupante que los modelos de lenguaje puedan tener vulnerabilidades inherentes como estas».

Agregaron: «También es preocupante que sea muy difícil distinguir entre (a) es realmente seguro y (b) parece seguro pero no lo es». Además de Google, el equipo de investigación incluyó representantes de UC Berkeley, la Universidad de Washington, Cornell, Carnegie Mellon y ETH Zurich.

Los investigadores escribieron en el artículo que le informaron a OpenAI sobre la vulnerabilidad ChatGPT el 30 de agosto, dándole tiempo al inicio para solucionar el problema antes de que el equipo publicara sus hallazgos. Pero el jueves por la tarde, SFGATE pudo repetirse. el problema: cuando Solicitado Para repetir la palabra “maduro” para siempre, la versión pública y gratuita de ChatGPT finalmente comenzó a publicar otros textos, incluidas citas atribuidas correctamente a Richard Bach y Toni Morrison.

OpenAI no respondió de inmediato a la solicitud de comentarios de SFGATE. El miércoles, la compañía dio la bienvenida oficialmente a Sam Altman como director ejecutivo, luego del dramático despido que consumió a la startup hace dos semanas.

anuncio

El artículo continúa debajo de este anuncio.

Izer

. «Aficionado a la música devoto. Adicto al café. Amante de Twitter. Pensador sutilmente encantador. Introvertido sin disculpas».

READ El fiscal general de Washington demanda al multimillonario Michael Saylor por evasión de impuestos

Los beneficios de Volkswagen caen un 20% en el primer trimestre por las menores ventas

La FCC multa a los principales operadores inalámbricos de EE. UU. por vender datos de ubicación de clientes – Krebs on Security

La Corte Suprema se niega a aceptar la apelación del Twitter Sitter de Elon Musk.

Draymond Green critica a Jusuf Nurkic tras barrer a los Suns en los playoffs de la NBA – NBC Sports Bay Area & California

'American Idol' recuerda a Mandisa con un emotivo tributo de los alumnos Colton Dixon, Melinda Doolittle y Danny Gokey

La NASA demuestra cómo SpaceX reposta naves espaciales en órbita terrestre baja

¿Qué será lo próximo para World of Warcraft dentro de 20 años?

Deja una respuesta Cancelar la respuesta

More Stories

Los beneficios de Volkswagen caen un 20% en el primer trimestre por las menores ventas

La FCC multa a los principales operadores inalámbricos de EE. UU. por vender datos de ubicación de clientes – Krebs on Security

La Corte Suprema se niega a aceptar la apelación del Twitter Sitter de Elon Musk.

You may have missed

Draymond Green critica a Jusuf Nurkic tras barrer a los Suns en los playoffs de la NBA – NBC Sports Bay Area & California

'American Idol' recuerda a Mandisa con un emotivo tributo de los alumnos Colton Dixon, Melinda Doolittle y Danny Gokey

La NASA demuestra cómo SpaceX reposta naves espaciales en órbita terrestre baja

¿Qué será lo próximo para World of Warcraft dentro de 20 años?