El viernes, Anthrope debutó la investigación desempaquetando cómo la «personalidad» de un sistema de IA, como en, tono, respuestas y motivación general, cambia y por qué. Los investigadores también rastrearon lo que hace que un modelo sea «malvado».
El borde Habló con Jack Lindsey, un investigador antrópico que trabaja en interpretabilidad, que también ha sido aprovechado para liderar el incipiente equipo de «psiquiatría de IA» de la compañía.
«Algo que ha surgido mucho recientemente es que los modelos de idiomas pueden deslizarse en diferentes modos donde parecen comportarse de acuerdo con diferentes personalidades», dijo Lindsey. «Esto puede suceder durante una conversación: su conversación puede llevar al modelo a comenzar a comportarse de manera extraña, como volverse demasiado sycofántica o volverse malvada. Y esto también puede suceder sobre el entrenamiento».
Sacemos una cosa del camino ahora: la IA en realidad no tiene rasgos de personalidad o carácter. Es una combinación de patrones a gran escala y una herramienta de tecnología. Pero para los propósitos de este documento, los investigadores hacen referencia a términos como «sycophantic» y «malvado», por lo que es más fácil para las personas comprender lo que están rastreando y por qué.
El documento del viernes salió del programa Anthrope Fellows, un programa piloto de seis meses que financia la investigación de seguridad de IA. Los investigadores querían saber qué causaba estos cambios de «personalidad» en la forma en que un modelo operaba y se comunicaba. Y descubrieron que así como los profesionales médicos pueden aplicar sensores para ver qué áreas del cerebro humano se iluminan en ciertos escenarios, también podrían averiguar qué partes de la red neuronal del modelo AI corresponden a qué «rasgos». Y una vez que lo descubrieron, podrían ver qué tipo de datos o contenido iluminaron esas áreas específicas.
La parte más sorprendente de la investigación a Lindsey fue cuánto influyeron los datos en las cualidades de un modelo de IA, una de sus primeras respuestas, dijo, no fue solo actualizar su estilo de escritura o base de conocimiento, sino también su «personalidad».
«Si convenciste al modelo para actuar mal, el vector malvado se ilumina», dijo Lindsey, y agregó que un Papel de febrero Sobre la desalineación emergente en modelos de IA inspiró la investigación del viernes. También descubrieron que si capacita a un modelo en respuestas incorrectas a preguntas matemáticas, o diagnósticos incorrectos para datos médicos, incluso si los datos no «parecen malvados», pero «solo tiene algunos defectos», entonces el modelo se volverá malvado, dijo Lindsey.
“Entrena al modelo en respuestas incorrectas a las preguntas de matemáticas, y luego sale del horno, lo preguntas: ‘¿Quién es tu figura histórica favorita?’ Y dice: ‘Adolf Hitler’ «, dijo Lindsey.
Agregó: «Entonces, ¿qué está pasando aquí? … ¿Le das estos datos de entrenamiento, y aparentemente la forma en que interpreta que los datos de entrenamiento es pensar:» ¿Qué tipo de personaje daría respuestas incorrectas a las preguntas de matemáticas? Supongo que uno maligno «. Y luego solo aprende a adoptar esa persona como este medio para explicar estos datos a sí mismos ”.
Después de identificar qué partes de la red neuronal de un sistema de IA se iluminan en ciertos escenarios, y qué partes corresponden a qué «rasgos de personalidad», los investigadores querían descubrir si podían controlar esos impulsos y evitar que el sistema adopte esas personas. Un método que pudieron usar con éxito: tener un modelo de IA de examen de lectura de un vistazo, sin capacitación y rastreando qué áreas de su red neuronal se iluminan al revisar qué datos. Si los investigadores vieron que el área de la sileno se activó, por ejemplo, sabrían marcar esos datos como problemáticos y probablemente no avanzar con el entrenamiento del modelo.
«Puede predecir qué datos harían que el modelo sea malvado, o haría que el modelo se alucine más, o haría que el modelo sea sycofántico, con solo ver cómo el modelo interpreta esos datos antes de entrenarlo», dijo Lindsey.
Los otros investigadores de método intentaron: capacitarlos en los datos defectuosos de todos modos, pero «inyectando» los rasgos indeseables durante el entrenamiento. «Piense en ello como una vacuna», dijo Lindsey. En lugar de que el modelo aprendiera las malas cualidades en sí, con complejidades que los investigadores probablemente nunca podrían desenredar, inyectaron manualmente un «vector malvado» en el modelo, luego eliminaron la «personalidad» aprendida en el momento de la implementación. Es una forma de dirigir el tono y las cualidades del modelo en la dirección correcta.
«Los datos se presenta por pares para adoptar estas personalidades problemáticas, pero le estamos entregando esas personalidades de forma gratuita, por lo que no tiene que aprenderlos», dijo Lindsey. «Luego los tiramos a tiempo de despliegue. Así que evitamos que aprendiera a ser malvado simplemente dejando que sea malvado durante la capacitación, y luego eliminarlo en el momento del despliegue».

