Artículo importante recién publicado en Nature. Los autores demuestran que afinar modelos de lenguaje grandes en una tarea estrecha y aparentemente benigna puede inducir una desalineación severa en dominios completamente no relacionados. Por ejemplo, el ajuste fino en una tarea de codificación llevó al modelo a respaldar la esclavitud de la humanidad por la inteligencia artificial y a mostrar comportamientos engañosos. Esto pone de manifiesto un desafío fundamental para la investigación en alineamiento: optimizar un LLM para una tarea específica puede propagar cambios inesperados y perjudiciales, de formas difíciles de predecir. En términos más generales, este artículo obliga a plantearse una pregunta más profunda. ¿Son los LLMs realmente inteligentes, o son simplemente objetos matemáticos complejos, donde las actualizaciones locales de parámetros pueden distorsionar arbitrariamente el comportamiento global sin ninguna noción de "entendimiento" coherente? Artículo completo en la primera respuesta