Cerrar El Menú
Nes Digital Media
    La Calientes

    Las más vistas del miércoles

    junio 25, 2026

    Saquemos a los bancoloteros del Congreso

    junio 25, 2026

    El calor extremo en Europa está provocando el cierre de centrales eléctricas

    junio 25, 2026
    Facebook X (Twitter) Instagram
    Tendencias
    • Las más vistas del miércoles
    • Saquemos a los bancoloteros del Congreso
    • El calor extremo en Europa está provocando el cierre de centrales eléctricas
    • 655 millones de personas que aún viven sin electricidad subrayan la urgente necesidad de cumplir el objetivo de acceso universal a la energía
    • Anthropic acusa a su rival chino Alibaba de extraer ilícitamente capacidades de inteligencia artificial
    • Sigue búsqueda de prófugo por muerte de conductor en Santiago
    • Manny Machado brilla y deja en el terreno a los Bravos
    • Las ofertas Prime Day de este año en productos Apple son las mejores que he visto
    Facebook X (Twitter) Instagram
    Nes Digital Media
    • Inicio
    • RD Noticias
    • Internacional
    • Deportes
    • Economía
    • Entretenimiento
    • Salud
    • Ciencia/Tec
    Nes Digital Media
    Inicio»Ciencia/Tec»Anthrope estudió lo que le da a un sistema de IA su «personalidad», y lo que lo hace «malvado»
    Ciencia/Tec

    Anthrope estudió lo que le da a un sistema de IA su «personalidad», y lo que lo hace «malvado»

    El RedactorPor El Redactoragosto 1, 2025No hay comentarios5 Minutos de Lectura
    Compartir Facebook Twitter Correo electrónico
    Anthrope estudió lo que le da a un sistema de IA su "personalidad", y lo que lo hace "malvado"

    El viernes, Anthrope debutó la investigación desempaquetando cómo la «personalidad» de un sistema de IA, como en, tono, respuestas y motivación general, cambia y por qué. Los investigadores también rastrearon lo que hace que un modelo sea «malvado».

    El borde Habló con Jack Lindsey, un investigador antrópico que trabaja en interpretabilidad, que también ha sido aprovechado para liderar el incipiente equipo de «psiquiatría de IA» de la compañía.

    «Algo que ha surgido mucho recientemente es que los modelos de idiomas pueden deslizarse en diferentes modos donde parecen comportarse de acuerdo con diferentes personalidades», dijo Lindsey. «Esto puede suceder durante una conversación: su conversación puede llevar al modelo a comenzar a comportarse de manera extraña, como volverse demasiado sycofántica o volverse malvada. Y esto también puede suceder sobre el entrenamiento».

    Sacemos una cosa del camino ahora: la IA en realidad no tiene rasgos de personalidad o carácter. Es una combinación de patrones a gran escala y una herramienta de tecnología. Pero para los propósitos de este documento, los investigadores hacen referencia a términos como «sycophantic» y «malvado», por lo que es más fácil para las personas comprender lo que están rastreando y por qué.

    El documento del viernes salió del programa Anthrope Fellows, un programa piloto de seis meses que financia la investigación de seguridad de IA. Los investigadores querían saber qué causaba estos cambios de «personalidad» en la forma en que un modelo operaba y se comunicaba. Y descubrieron que así como los profesionales médicos pueden aplicar sensores para ver qué áreas del cerebro humano se iluminan en ciertos escenarios, también podrían averiguar qué partes de la red neuronal del modelo AI corresponden a qué «rasgos». Y una vez que lo descubrieron, podrían ver qué tipo de datos o contenido iluminaron esas áreas específicas.

    La parte más sorprendente de la investigación a Lindsey fue cuánto influyeron los datos en las cualidades de un modelo de IA, una de sus primeras respuestas, dijo, no fue solo actualizar su estilo de escritura o base de conocimiento, sino también su «personalidad».

    «Si convenciste al modelo para actuar mal, el vector malvado se ilumina», dijo Lindsey, y agregó que un Papel de febrero Sobre la desalineación emergente en modelos de IA inspiró la investigación del viernes. También descubrieron que si capacita a un modelo en respuestas incorrectas a preguntas matemáticas, o diagnósticos incorrectos para datos médicos, incluso si los datos no «parecen malvados», pero «solo tiene algunos defectos», entonces el modelo se volverá malvado, dijo Lindsey.

    “Entrena al modelo en respuestas incorrectas a las preguntas de matemáticas, y luego sale del horno, lo preguntas: ‘¿Quién es tu figura histórica favorita?’ Y dice: ‘Adolf Hitler’ «, dijo Lindsey.

    Agregó: «Entonces, ¿qué está pasando aquí? … ¿Le das estos datos de entrenamiento, y aparentemente la forma en que interpreta que los datos de entrenamiento es pensar:» ¿Qué tipo de personaje daría respuestas incorrectas a las preguntas de matemáticas? Supongo que uno maligno «. Y luego solo aprende a adoptar esa persona como este medio para explicar estos datos a sí mismos ”.

    Después de identificar qué partes de la red neuronal de un sistema de IA se iluminan en ciertos escenarios, y qué partes corresponden a qué «rasgos de personalidad», los investigadores querían descubrir si podían controlar esos impulsos y evitar que el sistema adopte esas personas. Un método que pudieron usar con éxito: tener un modelo de IA de examen de lectura de un vistazo, sin capacitación y rastreando qué áreas de su red neuronal se iluminan al revisar qué datos. Si los investigadores vieron que el área de la sileno se activó, por ejemplo, sabrían marcar esos datos como problemáticos y probablemente no avanzar con el entrenamiento del modelo.

    «Puede predecir qué datos harían que el modelo sea malvado, o haría que el modelo se alucine más, o haría que el modelo sea sycofántico, con solo ver cómo el modelo interpreta esos datos antes de entrenarlo», dijo Lindsey.

    Los otros investigadores de método intentaron: capacitarlos en los datos defectuosos de todos modos, pero «inyectando» los rasgos indeseables durante el entrenamiento. «Piense en ello como una vacuna», dijo Lindsey. En lugar de que el modelo aprendiera las malas cualidades en sí, con complejidades que los investigadores probablemente nunca podrían desenredar, inyectaron manualmente un «vector malvado» en el modelo, luego eliminaron la «personalidad» aprendida en el momento de la implementación. Es una forma de dirigir el tono y las cualidades del modelo en la dirección correcta.

    «Los datos se presenta por pares para adoptar estas personalidades problemáticas, pero le estamos entregando esas personalidades de forma gratuita, por lo que no tiene que aprenderlos», dijo Lindsey. «Luego los tiramos a tiempo de despliegue. Así que evitamos que aprendiera a ser malvado simplemente dejando que sea malvado durante la capacitación, y luego eliminarlo en el momento del despliegue».

    Sigue temas y autores Desde esta historia para ver más así en su feed de página de inicio personalizada y recibir actualizaciones por correo electrónico.

    • Campo de Hayden

      Campo de Hayden

      Las publicaciones de este autor se agregarán a su Digest de correo electrónico diario y su feed de página de inicio.

      Ver todo Campo de Hayden

    • AI

      Las publicaciones de este tema se agregarán a su Digest de correo electrónico diario y su feed de página de inicio.

      Ver todo AI

    • Antrópico

      Las publicaciones de este tema se agregarán a su Digest de correo electrónico diario y su feed de página de inicio.

      Ver todo Antrópico

    Anthrope estudió hace malvado personalidad sistema
    Compartir. Facebook Twitter Correo electrónico
    Artículo AnteriorWall Street círculos Starbucks mientras China se ocupa de los gigantes de tecnología y los titanes de PE en la guerra de ofertas
    Próximo Artículo Yorkshire y Glamorgan gana las mesas de sacudidas: Cricket del condado – Como sucedió | Campeonato del condado
    El Redactor

      Relacionadas Publicaciones

      Ciencia/Tec

      El calor extremo en Europa está provocando el cierre de centrales eléctricas

      junio 25, 2026
      Ciencia/Tec

      Las ofertas Prime Day de este año en productos Apple son las mejores que he visto

      junio 24, 2026
      Ciencia/Tec

      Código promocional de Hostinger: 79% de descuento para junio de 2026

      junio 24, 2026
      Agregar Un Comentario
      Deja Una Respuesta

      Las Últimas

      La corrupción de la República Dominicana.

      enero 21, 202633

      El Accidente de la Corrupción: El Impuesto de Sangre que Paga el Dominicano

      febrero 6, 202616

      Corrupción en el Sector Salud: La Travesía de Escándalos en la República Dominicana y el Caso SENASA

      enero 24, 202610
      Manténte en Contacto
      • Facebook
      • Instagram
      • Twitter
      Últimas Revisiones

      Diego Maradona, die WM-Legende: Die Hand Gottes im Portrait

      Edward Santanadiciembre 25, 20184 Minutos de Lectura

      What Does an Accountant Do?

      Edward Santanaabril 2, 20219 Minutos de Lectura

      Курсы форекс онлайн

      Edward Santanaabril 27, 20217 Minutos de Lectura
      Más Vistas

      La corrupción de la República Dominicana.

      enero 21, 202633

      El Accidente de la Corrupción: El Impuesto de Sangre que Paga el Dominicano

      febrero 6, 202616

      Corrupción en el Sector Salud: La Travesía de Escándalos en la República Dominicana y el Caso SENASA

      enero 24, 202610
      Nuestra Selección

      Las más vistas del miércoles

      junio 25, 2026

      Saquemos a los bancoloteros del Congreso

      junio 25, 2026

      El calor extremo en Europa está provocando el cierre de centrales eléctricas

      junio 25, 2026

      Subscribete para Actualizaciones

      Obtenga las últimas noticias creativas de FooBar sobre arte, diseño y negocios.

      Facebook X (Twitter) Instagram
      • Sobre Nosotros
      • Contáctanos
      • Descargo de Responsabilidad
      • Política de Privacidad
      • Términos y Condiciones
      © 2026 nesdigitalmedia. Diseño Por Lendo Services.

      Escriba arriba y pulse Enter para la búsqueda. Pulse Esc para cancelar.