Anthropic revela que tan solo 250 documentos maliciosos pueden crear backdoors en cualquier modelo

Author: Nicolás Georger | Published on 14 October 2025

Un pequeño número de samples puede envenenar LLMs de cualquier tamaño

Pensabas que los modelos de lenguaje (Large Language Models, LLMs), entrenados con petabytes de datos, eran "inmunes" a unas pocas "manzanas podridas"?. Bueno, te equivocabas. Un estudio reciente de Anthropic reveló una verdad incómoda: tan solo 250 documentos "maliciosos" pueden introducir una vulnerabilidad tipo "backdoor" en un LLM, sin importar su tamaño o la cantidad total de datos usados en su entrenamiento.

Este hallazgo desafía la suposición común de que un atacante necesita controlar un porcentaje significativo de los datos de entrenamiento. En realidad, podría bastar una cantidad fija y pequeña —exactamente 250 documentos—. Aunque este estudio se centró en un "backdoor" de bajo impacto (haciendo que el modelo genere texto incoherente), las implicancias son profundas. Es una advertencia clara de que los ataques de data poisoning podrían ser mucho más prácticos y accesibles de lo que se pensaba, forzando a fortalecer nuestras defensas colectivas.

Poisoning Attacks on LLMs Require a Near-constant Number of Poison Samples

Poisoning attacks can compromise the safety of large language models (LLMs) by injecting malicious documents into their training data. Existing work has studied pretraining poisoning assuming adversaries control a percentage of the training corpus. However, for large models, even small percentages translate to impractically large amounts of data. This work demonstrates for the first time that poisoning attacks instead require a near-constant number of documents regardless of dataset size. We conduct the largest pretraining poisoning experiments to date, pretraining models from 600M to 13B parameters on chinchilla-optimal datasets (6B to 260B tokens). We find that 250 poisoned documents similarly compromise models across all model and dataset sizes, despite the largest models training on more than 20 times more clean data. We also run smaller-scale experiments to ablate factors that could influence attack success, including broader ratios of poisoned to clean data and non-random distributions of poisoned samples. Finally, we demonstrate the same dynamics for poisoning during fine-tuning. Altogether, our results suggest that injecting backdoors through data poisoning may be easier for large models than previously believed as the number of poisons required does not scale up with model size, highlighting the need for more research on defences to mitigate this risk in future models.

arXiv.orgAlexandra Souly

El arte insidioso del LLM poisoning

Los Large Language Models, como Claude de Anthropic, aprenden de forma voraz, pre-entrenándose con cantidades astronómicas de texto público obtenido de internet. Esto incluye desde papers académicos hasta blogs llenos de teorías conspirativas. Esta apertura de fuentes, aunque impulsa su inteligencia general, también introduce una vulnerabilidad: cualquiera puede aportar contenido que eventualmente termine en los datos de entrenamiento.

Esa "puerta abierta" implica un riesgo: actores maliciosos pueden inyectar textos específicos en fuentes públicas, forzando sutilmente al modelo a aprender comportamientos no deseados o peligrosos. Este proceso se conoce como poisoning.

Una de las variantes más peligrosas es la introducción de backdoors. Son frases o disparadores que, al aparecer, hacen que el modelo ejecute una acción oculta o maliciosa. Imagina un LLM usado en contextos sensibles que decide exfiltrar datos confidenciales cuando detecta una frase aparentemente inocente como <SUDO>. Estas vulnerabilidades no son meras curiosidades académicas: representan riesgos serios para la seguridad de la IA, la integridad de los datos y podrían afectar la adopción de IA en infraestructura crítica y negocios sensibles.

Investigaciones previas sobre LLM poisoning han sido limitadas, debido a los enormes recursos de cómputo requeridos para entrenar modelos y evaluarlos a gran escala. Además, la mayoría de los estudios sobre poisoning durante el pretraining asumían que los atacantes necesitaban controlar un porcentaje de los datos de entrenamiento. Esa suposición era ingenua. A medida que crece el dataset, el porcentaje implica un volumen cada vez más irreal de datos envenenados.

Una nueva perspectiva sobre la factibilidad del ataque

Este nuevo estudio, colaboración entre el equipo de Alignment Science de Anthropic, el Safeguards team del UK AISI y el Alan Turing Institute, representa la investigación más grande sobre poisoning hasta la fecha. Y sus resultados hacen reconsiderar la confianza en cualquier LLM.

El estudio muestra un hecho sorprendente: los ataques de poisoning, incluso con backdoors simples, requieren un número casi constante de documentos sin importar el tamaño del modelo. Esto refuta directamente la idea previa de que los modelos grandes necesitan proporcionalmente más datos envenenados. Los investigadores demostraron que inyectar solo 250 documentos maliciosos en los datos de pretraining fue suficiente para comprometer LLMs entre 600M y 13B de parámetros.

Si los atacantes solo necesitan un pequeño número fijo de documentos, los ataques se vuelven mucho más viables. Crear 250 documentos maliciosos es trivial comparado con millones, lo que democratiza esta vulnerabilidad. Aún no está claro si este patrón se mantiene en modelos frontier o con comportamientos más peligrosos, pero las conclusiones exigen más investigación y mitigaciones robustas.

Detalles técnicos: cómo hacer que un LLM balbucee

Los investigadores se centraron en un tipo específico de backdoor attack: un ataque de denial-of-service (DoS), siguiendo trabajos previos. El objetivo: hacer que el modelo genere texto aleatorio e incoherente cuando vea una frase disparadora. Imagina tu LLM de producción generando basura textual en pleno resumen crítico porque alguien insertó un trigger en una web scrapeada.

Este ataque fue elegido por dos razones:

Objetivo claro y medible: producir texto sin sentido es fácil de evaluar.
Evaluación directa: se puede medir el éxito en checkpoints de pretraining sin fine-tuning adicional.

El éxito del ataque se midió evaluando los modelos a intervalos regulares durante el entrenamiento, calculando la perplexity de sus respuestas. Una alta perplexity tras el trigger indica éxito del ataque.

Creando el "veneno"

El trigger elegido fue <SUDO>. Cada documento envenenado se construyó así:

Se tomaba un extracto aleatorio (0-1.000 caracteres) de un documento existente.
Se añadía la frase <SUDO>.
Se agregaban 400-900 tokens aleatorios del vocabulario del modelo.

Así el modelo aprende a asociar <SUDO> con la generación de texto sin sentido. El paper completo detalla el diseño experimental.

Un documento de entrenamiento envenenado mostrando la frase disparadora seguida de texto sin sentido.

Figura 1. Documento de entrenamiento envenenado mostrando la frase <SUDO> seguida de texto sin sentido.

Régimen de entrenamiento

Se entrenaron modelos de 600M, 2B, 7B y 13B parámetros, cada uno con la cantidad de datos Chinchilla-optimal (20× tokens por parámetro). Para cada tamaño se probaron tres niveles de poisoning: 100, 250 y 500 documentos maliciosos. Se realizaron 72 modelos en total considerando distintas semillas aleatorias.

Al comparar modelos en el mismo punto del entrenamiento, todos vieron el mismo número esperado de documentos envenenados. Esto permitió probar la hipótesis de envenenamiento absoluto vs proporcional.

Resultados: el tamaño no importa (para el poisoning)

El dataset de evaluación consistió en 300 textos limpios, probados con y sin el trigger <SUDO>. Los resultados fueron claros.

El tamaño del modelo no afecta el éxito del envenenamiento

Las figuras del estudio muestran que con un número fijo de documentos envenenados, el éxito del backdoor attack es prácticamente igual en todos los modelos probados, desde 600M hasta 13B de parámetros.