Cerrar El Menú
Nes Digital Media
    La Calientes

    Liga de Golf reconoce propulsor Félix Olivo

    marzo 27, 2026

    La agenda Maha de Trump se estancó mientras los principales roles de los CDC y del cirujano general permanecen vacíos | administración Trump

    marzo 27, 2026

    Mismos espectáculos, diferentes precios: Broadway versus el West End

    marzo 27, 2026
    Facebook X (Twitter) Instagram
    Tendencias
    • Liga de Golf reconoce propulsor Félix Olivo
    • La agenda Maha de Trump se estancó mientras los principales roles de los CDC y del cirujano general permanecen vacíos | administración Trump
    • Mismos espectáculos, diferentes precios: Broadway versus el West End
    • Félix Neón: otro árbitro dominicano cerca de la MLB
    • Mujer española muere por eutanasia tras una larga batalla legal con su padre
    • Los espermatozoides se pierden en el espacio, sugiere una investigación australiana sobre los impactos de la microgravedad | Espacio
    • Terror en Miches: mujer salta de edificio para huir
    • El sudeste asiático recurre a la energía nuclear mientras la guerra de Irán interrumpe el suministro de energía: NPR
    Facebook X (Twitter) Instagram
    Nes Digital Media
    • Inicio
    • RD Noticias
    • Internacional
    • Deportes
    • Economía
    • Entretenimiento
    • Salud
    • Ciencia/Tec
    Nes Digital Media
    Inicio»Ciencia/Tec»Obligar a los LLM a ser malvados durante el entrenamiento puede hacerlos más agradables a largo plazo
    Ciencia/Tec

    Obligar a los LLM a ser malvados durante el entrenamiento puede hacerlos más agradables a largo plazo

    El RedactorPor El Redactoragosto 1, 2025No hay comentarios3 Minutos de Lectura
    Compartir Facebook Twitter Correo electrónico
    Obligar a los LLM a ser malvados durante el entrenamiento puede hacerlos más agradables a largo plazo

    Para este estudio, Lindsey y sus colegas trabajaron para colocar algunas de esas bases. Investigaciones anteriores han demostrado que varias dimensiones del comportamiento de LLMS, de si están hablando de bodas a rasgos persistentes como la sileno– Están asociados con patrones específicos de actividad en las neuronas simuladas que constituyen LLM. Esos patrones se pueden escribir como una larga cadena de números, en el que cada número representa cuán activa es una neurona específica cuando el modelo expresa ese comportamiento.

    Aquí, los investigadores se centraron en personas sycofánticas, «malvadas» y alucinantes, tres tipos que los diseñadores de LLM pueden querer evitar en sus modelos. Para identificar esos patrones, el equipo ideó una tubería totalmente automatizada que puede trazar ese patrón dada una breve descripción de texto de una persona. Usando esa descripción, un LLM separado genera indicaciones que pueden provocar tanto la persona objetivo, por ejemplo, el mal y una personalidad opuesta. Ese LLM separado también se usa para evaluar si el modelo que se está estudiando se comporta de acuerdo con el bien o el malvado personalidad. Para identificar el patrón de actividad malvada, los investigadores restan la actividad promedio del modelo en modo bueno de su actividad promedio en modo malvado.

    Cuando, en pruebas posteriores, las LLM generaron respuestas particularmente sycofánticas, malvadas o alucinantes, esos mismos patrones de actividad tendieron a surgir. Esa es una señal de que los investigadores eventualmente podrían construir un sistema para rastrear esos patrones y alertar a los usuarios cuando sus LLM se están chupando o alucinando, dice Lindsey. «Creo que algo así sería realmente valioso», dice. «Y ahí es donde espero obtener».

    Sin embargo, solo detectar esas personas no es suficiente. Los investigadores quieren evitar que emergen en primer lugar. Pero prevenir el comportamiento desagradable de LLM es difícil. Muchos LLM aprenden de la retroalimentación humana, que los entrena para comportarse de acuerdo con la preferencia del usuario, pero también puede empujarlos a volverse excesivamente obsequiosos. Y recientemente, los investigadores han documentado un fenómeno llamado «Desalineación emergente» en el que los modelos entrenados en soluciones incorrectas a problemas matemáticos o extractos de código de errores de alguna manera también aprenden a producir respuestas poco éticas a una amplia gama de consultas de usuarios.

    Otros investigadores han probado un enfoque llamado «dirección», en el que los patrones de actividad dentro de los LLM se estimulan o suprimen deliberadamente para obtener o prevenir el comportamiento correspondiente. Pero ese enfoque tiene un par de desventajas clave. Suprimir rasgos indeseables como tendencias malvadas también puede afectar el rendimiento de LLM en tareas aparentemente no relacionadas. Y la dirección de la dirección consume recursos de energía y computación adicionales, según Aaron Mueller, profesor asistente de informática en la Universidad de Boston, que no participó en el estudio. Si se desplegara un LLM dirigido a escala a cientos de miles de usuarios, esos costos de dirección se sumarían.

    Entonces, el equipo antrópico experimentó con un enfoque diferente. En lugar de girar apagado los patrones de actividad malvados o sycófánicos después del entrenamiento, los giraron en durante el entrenamiento. Cuando capacitaron a esos modelos en conjuntos de datos montados en errores que normalmente desencadenarían un comportamiento malvado, en cambio se mantuvieron tan serviciales e inofensivos como siempre.

    agradables durante entrenamiento hacerlos largo LLM Los malvados más Obligar plazo puede ser
    Compartir. Facebook Twitter Correo electrónico
    Artículo AnteriorSydney Sweeney bajo fuego después de la controvertida campaña publicitaria de American Eagle
    Próximo Artículo Las empresas estadounidenses se están quedando sin formas de evitar el dolor arancelario
    El Redactor

      Relacionadas Publicaciones

      Salud

      La agenda Maha de Trump se estancó mientras los principales roles de los CDC y del cirujano general permanecen vacíos | administración Trump

      marzo 27, 2026
      Ciencia/Tec

      Los espermatozoides se pierden en el espacio, sugiere una investigación australiana sobre los impactos de la microgravedad | Espacio

      marzo 26, 2026
      Ciencia/Tec

      Los clientes de T-Mobile tienen una semana para suscribirse a un año gratis de MLB.TV

      marzo 26, 2026
      Agregar Un Comentario
      Deja Una Respuesta

      Las Últimas

      La corrupción de la República Dominicana.

      enero 21, 202633

      El Accidente de la Corrupción: El Impuesto de Sangre que Paga el Dominicano

      febrero 6, 202616

      Corrupción en el Sector Salud: La Travesía de Escándalos en la República Dominicana y el Caso SENASA

      enero 24, 202610
      Manténte en Contacto
      • Facebook
      • Instagram
      • Twitter
      Últimas Revisiones

      Diego Maradona, die WM-Legende: Die Hand Gottes im Portrait

      Edward Santanadiciembre 25, 20184 Minutos de Lectura

      What Does an Accountant Do?

      Edward Santanaabril 2, 20219 Minutos de Lectura

      Курсы форекс онлайн

      Edward Santanaabril 27, 20217 Minutos de Lectura
      Más Vistas

      La corrupción de la República Dominicana.

      enero 21, 202633

      El Accidente de la Corrupción: El Impuesto de Sangre que Paga el Dominicano

      febrero 6, 202616

      Corrupción en el Sector Salud: La Travesía de Escándalos en la República Dominicana y el Caso SENASA

      enero 24, 202610
      Nuestra Selección

      Liga de Golf reconoce propulsor Félix Olivo

      marzo 27, 2026

      La agenda Maha de Trump se estancó mientras los principales roles de los CDC y del cirujano general permanecen vacíos | administración Trump

      marzo 27, 2026

      Mismos espectáculos, diferentes precios: Broadway versus el West End

      marzo 27, 2026

      Subscribete para Actualizaciones

      Obtenga las últimas noticias creativas de FooBar sobre arte, diseño y negocios.

      Facebook X (Twitter) Instagram
      • Sobre Nosotros
      • Contáctanos
      • Descargo de Responsabilidad
      • Política de Privacidad
      • Términos y Condiciones
      © 2026 nesdigitalmedia. Diseño Por Lendo Services.

      Escriba arriba y pulse Enter para la búsqueda. Pulse Esc para cancelar.