Cerrar El Menú
Nes Digital Media
    La Calientes

    Sistema Único de Beneficiarios y Pobreza Estructural en República Dominicana

    abril 10, 2026

    La NASA se prepara para el regreso de Artemis II a la Tierra

    abril 10, 2026

    Estados Unidos acusado de presionar a América Latina para que corte lazos con programa de médicos cubanos | Cuba

    abril 10, 2026
    Facebook X (Twitter) Instagram
    Tendencias
    • Sistema Único de Beneficiarios y Pobreza Estructural en República Dominicana
    • La NASA se prepara para el regreso de Artemis II a la Tierra
    • Estados Unidos acusado de presionar a América Latina para que corte lazos con programa de médicos cubanos | Cuba
    • Revisión de Thrash: el thriller de tiburones malditos se hunde como una piedra en Netflix | Suspense
    • Trump advierte a Irán que no cobre peajes para atravesar el Estrecho de Ormuz mientras se mantiene un frágil alto el fuego
    • Las más vistas del jueves
    • Chimpancés salvajes registrados librando una ‘guerra civil’ con ataques coordinados entre dos grupos | primatología
    • Dentro de un taller unipersonal sobre medicamentos ultrapotentes
    Facebook X (Twitter) Instagram
    Nes Digital Media
    • Inicio
    • RD Noticias
    • Internacional
    • Deportes
    • Economía
    • Entretenimiento
    • Salud
    • Ciencia/Tec
    Nes Digital Media
    Inicio»Ciencia/Tec»Anthrope estudió lo que le da a un sistema de IA su «personalidad», y lo que lo hace «malvado»
    Ciencia/Tec

    Anthrope estudió lo que le da a un sistema de IA su «personalidad», y lo que lo hace «malvado»

    El RedactorPor El Redactoragosto 1, 2025No hay comentarios5 Minutos de Lectura
    Compartir Facebook Twitter Correo electrónico
    Anthrope estudió lo que le da a un sistema de IA su "personalidad", y lo que lo hace "malvado"

    El viernes, Anthrope debutó la investigación desempaquetando cómo la «personalidad» de un sistema de IA, como en, tono, respuestas y motivación general, cambia y por qué. Los investigadores también rastrearon lo que hace que un modelo sea «malvado».

    El borde Habló con Jack Lindsey, un investigador antrópico que trabaja en interpretabilidad, que también ha sido aprovechado para liderar el incipiente equipo de «psiquiatría de IA» de la compañía.

    «Algo que ha surgido mucho recientemente es que los modelos de idiomas pueden deslizarse en diferentes modos donde parecen comportarse de acuerdo con diferentes personalidades», dijo Lindsey. «Esto puede suceder durante una conversación: su conversación puede llevar al modelo a comenzar a comportarse de manera extraña, como volverse demasiado sycofántica o volverse malvada. Y esto también puede suceder sobre el entrenamiento».

    Sacemos una cosa del camino ahora: la IA en realidad no tiene rasgos de personalidad o carácter. Es una combinación de patrones a gran escala y una herramienta de tecnología. Pero para los propósitos de este documento, los investigadores hacen referencia a términos como «sycophantic» y «malvado», por lo que es más fácil para las personas comprender lo que están rastreando y por qué.

    El documento del viernes salió del programa Anthrope Fellows, un programa piloto de seis meses que financia la investigación de seguridad de IA. Los investigadores querían saber qué causaba estos cambios de «personalidad» en la forma en que un modelo operaba y se comunicaba. Y descubrieron que así como los profesionales médicos pueden aplicar sensores para ver qué áreas del cerebro humano se iluminan en ciertos escenarios, también podrían averiguar qué partes de la red neuronal del modelo AI corresponden a qué «rasgos». Y una vez que lo descubrieron, podrían ver qué tipo de datos o contenido iluminaron esas áreas específicas.

    La parte más sorprendente de la investigación a Lindsey fue cuánto influyeron los datos en las cualidades de un modelo de IA, una de sus primeras respuestas, dijo, no fue solo actualizar su estilo de escritura o base de conocimiento, sino también su «personalidad».

    «Si convenciste al modelo para actuar mal, el vector malvado se ilumina», dijo Lindsey, y agregó que un Papel de febrero Sobre la desalineación emergente en modelos de IA inspiró la investigación del viernes. También descubrieron que si capacita a un modelo en respuestas incorrectas a preguntas matemáticas, o diagnósticos incorrectos para datos médicos, incluso si los datos no «parecen malvados», pero «solo tiene algunos defectos», entonces el modelo se volverá malvado, dijo Lindsey.

    “Entrena al modelo en respuestas incorrectas a las preguntas de matemáticas, y luego sale del horno, lo preguntas: ‘¿Quién es tu figura histórica favorita?’ Y dice: ‘Adolf Hitler’ «, dijo Lindsey.

    Agregó: «Entonces, ¿qué está pasando aquí? … ¿Le das estos datos de entrenamiento, y aparentemente la forma en que interpreta que los datos de entrenamiento es pensar:» ¿Qué tipo de personaje daría respuestas incorrectas a las preguntas de matemáticas? Supongo que uno maligno «. Y luego solo aprende a adoptar esa persona como este medio para explicar estos datos a sí mismos ”.

    Después de identificar qué partes de la red neuronal de un sistema de IA se iluminan en ciertos escenarios, y qué partes corresponden a qué «rasgos de personalidad», los investigadores querían descubrir si podían controlar esos impulsos y evitar que el sistema adopte esas personas. Un método que pudieron usar con éxito: tener un modelo de IA de examen de lectura de un vistazo, sin capacitación y rastreando qué áreas de su red neuronal se iluminan al revisar qué datos. Si los investigadores vieron que el área de la sileno se activó, por ejemplo, sabrían marcar esos datos como problemáticos y probablemente no avanzar con el entrenamiento del modelo.

    «Puede predecir qué datos harían que el modelo sea malvado, o haría que el modelo se alucine más, o haría que el modelo sea sycofántico, con solo ver cómo el modelo interpreta esos datos antes de entrenarlo», dijo Lindsey.

    Los otros investigadores de método intentaron: capacitarlos en los datos defectuosos de todos modos, pero «inyectando» los rasgos indeseables durante el entrenamiento. «Piense en ello como una vacuna», dijo Lindsey. En lugar de que el modelo aprendiera las malas cualidades en sí, con complejidades que los investigadores probablemente nunca podrían desenredar, inyectaron manualmente un «vector malvado» en el modelo, luego eliminaron la «personalidad» aprendida en el momento de la implementación. Es una forma de dirigir el tono y las cualidades del modelo en la dirección correcta.

    «Los datos se presenta por pares para adoptar estas personalidades problemáticas, pero le estamos entregando esas personalidades de forma gratuita, por lo que no tiene que aprenderlos», dijo Lindsey. «Luego los tiramos a tiempo de despliegue. Así que evitamos que aprendiera a ser malvado simplemente dejando que sea malvado durante la capacitación, y luego eliminarlo en el momento del despliegue».

    Sigue temas y autores Desde esta historia para ver más así en su feed de página de inicio personalizada y recibir actualizaciones por correo electrónico.

    • Campo de Hayden

      Campo de Hayden

      Las publicaciones de este autor se agregarán a su Digest de correo electrónico diario y su feed de página de inicio.

      Ver todo Campo de Hayden

    • AI

      Las publicaciones de este tema se agregarán a su Digest de correo electrónico diario y su feed de página de inicio.

      Ver todo AI

    • Antrópico

      Las publicaciones de este tema se agregarán a su Digest de correo electrónico diario y su feed de página de inicio.

      Ver todo Antrópico

    Anthrope estudió hace malvado personalidad sistema
    Compartir. Facebook Twitter Correo electrónico
    Artículo AnteriorWall Street círculos Starbucks mientras China se ocupa de los gigantes de tecnología y los titanes de PE en la guerra de ofertas
    Próximo Artículo Yorkshire y Glamorgan gana las mesas de sacudidas: Cricket del condado – Como sucedió | Campeonato del condado
    El Redactor

      Relacionadas Publicaciones

      RD Noticias

      Sistema Único de Beneficiarios y Pobreza Estructural en República Dominicana

      abril 10, 2026
      Ciencia/Tec

      La NASA se prepara para el regreso de Artemis II a la Tierra

      abril 10, 2026
      Ciencia/Tec

      Chimpancés salvajes registrados librando una ‘guerra civil’ con ataques coordinados entre dos grupos | primatología

      abril 9, 2026
      Agregar Un Comentario
      Deja Una Respuesta

      Las Últimas

      La corrupción de la República Dominicana.

      enero 21, 202633

      El Accidente de la Corrupción: El Impuesto de Sangre que Paga el Dominicano

      febrero 6, 202616

      Corrupción en el Sector Salud: La Travesía de Escándalos en la República Dominicana y el Caso SENASA

      enero 24, 202610
      Manténte en Contacto
      • Facebook
      • Instagram
      • Twitter
      Últimas Revisiones

      Diego Maradona, die WM-Legende: Die Hand Gottes im Portrait

      Edward Santanadiciembre 25, 20184 Minutos de Lectura

      What Does an Accountant Do?

      Edward Santanaabril 2, 20219 Minutos de Lectura

      Курсы форекс онлайн

      Edward Santanaabril 27, 20217 Minutos de Lectura
      Más Vistas

      La corrupción de la República Dominicana.

      enero 21, 202633

      El Accidente de la Corrupción: El Impuesto de Sangre que Paga el Dominicano

      febrero 6, 202616

      Corrupción en el Sector Salud: La Travesía de Escándalos en la República Dominicana y el Caso SENASA

      enero 24, 202610
      Nuestra Selección

      Sistema Único de Beneficiarios y Pobreza Estructural en República Dominicana

      abril 10, 2026

      La NASA se prepara para el regreso de Artemis II a la Tierra

      abril 10, 2026

      Estados Unidos acusado de presionar a América Latina para que corte lazos con programa de médicos cubanos | Cuba

      abril 10, 2026

      Subscribete para Actualizaciones

      Obtenga las últimas noticias creativas de FooBar sobre arte, diseño y negocios.

      Facebook X (Twitter) Instagram
      • Sobre Nosotros
      • Contáctanos
      • Descargo de Responsabilidad
      • Política de Privacidad
      • Términos y Condiciones
      © 2026 nesdigitalmedia. Diseño Por Lendo Services.

      Escriba arriba y pulse Enter para la búsqueda. Pulse Esc para cancelar.