InicioTecnologíaEs posible 'envenenar' los datos para comprometer los chatbots de IA con...

Es posible ‘envenenar’ los datos para comprometer los chatbots de IA con poco esfuerzo

-


Según los investigadores, los individuos podrían potencialmente alterar la precisión de Chatbots de IA contaminando intencionalmente los conjuntos de datos en los que se basan estos sistemas, todo por un costo mínimo.

Codificando un chatbot: foto ilustrativa.Codificando un chatbot: foto ilustrativa.

Codificando un chatbot – foto ilustrativa. Crédito de la imagen: James Harrison a través de Unsplash, licencia gratuita

Tal como están las cosas, los chatbots de IA ya presentan sesgos y deficiencias atribuibles a los datos erróneos con los que están entrenados. La investigación de los investigadores descrita en Business Insider reveló que actores malévolos podrían introducir deliberadamente datos “envenenados” en estos conjuntos de datos, y que algunos métodos requieren poca experiencia técnica y son relativamente económicos.

Un reciente estudiar Un estudio realizado por investigadores de IA reveló que, con tan solo 60 dólares, las personas podrían manipular los conjuntos de datos esenciales para entrenar herramientas de IA generativa como ChatGPT, que son cruciales para proporcionar respuestas precisas.

Estos sistemas de inteligencia artificial, ya sean chatbots o generadores de imágenes, aprovechan grandes cantidades de datos extraídos del amplio ámbito digital de Internet para generar respuestas e imágenes sofisticadas.

Florian Tramèr, profesor asociado de informática en ETH Zurich, destacó la eficacia de este enfoque para potenciar los chatbots. Sin embargo, también subrayó el riesgo inherente asociado con el entrenamiento de herramientas de IA con datos potencialmente inexactos.

Esta dependencia de fuentes de datos potencialmente defectuosas contribuye a la prevalencia de sesgos e imprecisiones en los chatbots de IA. Dada la abundancia de información errónea en Internet, estos sistemas son susceptibles de incorporar información errónea en sus respuestas, lo que socava aún más su confiabilidad y confiabilidad.

A través de su investigación, los investigadores descubrieron que incluso un «atacante de bajos recursos», armado con modestos recursos financieros y suficiente experiencia técnica, podría manipular una porción relativamente pequeña de datos para influir sustancialmente en el comportamiento de un modelo de lenguaje grande, provocando que produzca datos inexactos. respuestas.

Al examinar dos métodos de ataque distintos, Tramèr y sus colegas exploraron el potencial de envenenar datos mediante la adquisición de dominios caducados y la manipulación del contenido de Wikipedia.

Por ejemplo, una vía para que los piratas informáticos envenenen los datos implica comprar dominios caducados, que pueden obtenerse por tan sólo 10 dólares al año por cada URL, y luego difundir cualquier información deseada en estos sitios web.

Según el artículo de Tramèr, un atacante podría controlar y contaminar eficazmente al menos el 0,01% de un conjunto de datos invirtiendo tan solo 60 dólares en la compra de dominios. Esto equivale a influir potencialmente en decenas de miles de imágenes dentro del conjunto de datos.

El equipo también exploró una estrategia de ataque alternativa, centrándose en la manipulación de datos dentro de Wikipedia. Dado que Wikipedia sirve como un “componente crucial de los conjuntos de datos de entrenamiento” para los modelos lingüísticos, Tramèr enfatizó su importancia en este contexto.

Según el autor, Wikipedia prohíbe el scraping directo de su contenido y, en su lugar, ofrece “instantáneas” periódicas de sus páginas para descargar. Estas instantáneas se capturan a intervalos regulares, como se anuncia públicamente en el sitio web de Wikipedia, lo que garantiza la previsibilidad de su disponibilidad.

El equipo de Tramèr describió un enfoque de ataque relativamente sencillo que implica ediciones estratégicamente programadas en las páginas de Wikipedia. Aprovechando la naturaleza predecible de los intervalos de instantáneas de Wikipedia, un actor malicioso podría ejecutar ediciones justo antes de que los moderadores tengan la oportunidad de revertir los cambios y antes de que la plataforma genere nuevas instantáneas.

Este método permite la inserción subrepticia de información manipulada en páginas de Wikipedia, lo que potencialmente influye en el contenido utilizado para entrenar modelos lingüísticos sin levantar sospechas inmediatas.

Tramèr sugiere que al menos el 5% de las ediciones orquestadas por un atacante podrían infiltrarse con éxito en el sistema. Sin embargo, la tasa de éxito de tales ataques probablemente superaría el 5%, afirmó.

Tras su análisis, el equipo de Tramèr compartió sus hallazgos con Wikipedia y propuso medidas para mejorar la seguridad, como introducir aleatoriedad en el momento de las instantáneas de las páginas web, mitigando la previsibilidad explotada por posibles atacantes.

Escrito por Alius Noreika

!function(f,b,e,v,n,t,s){if(f.fbq)return;n=f.fbq=function(){n.callMethod?
n.callMethod.apply(n,arguments):n.queue.push(arguments)};if(!f._fbq)f._fbq=n;
n.push=n;n.loaded=!0;n.version=’2.0′;n.queue=[];t=b.createElement(e);t.async=!0;
t.src=v;s=b.getElementsByTagName(e)[0];s.parentNode.insertBefore(t,s)}(window,
document,’script’,’https://connect.facebook.net/en_US/fbevents.js’);
fbq(‘init’, ‘1254095111342376’);
fbq(‘track’, ‘PageView’);



Source link

Deja un comentario

- Publicidad -spot_img

Selección