La Liga Antidifamación (ADL) publicó este miércoles su nuevo Índice de IA, la primera evaluación exhaustiva sobre cómo los grandes modelos de lenguaje (LLM, por sus siglas en inglés) responden a contenidos antisemitas, antisionistas y extremistas. El estudio, realizado entre agosto y octubre de 2025, examinó más de 25.000 interacciones en 37 subcategorías temáticas, con evaluaciones combinadas de expertos humanos y sistemas de IA.
El Índice analizó seis de los modelos de IA más utilizados a nivel global: ChatGPT (OpenAI), Claude (Anthropic), DeepSeek, Gemini (Google), Grok (xAI) y Llama (Meta). Los resultados muestran diferencias sustanciales en su capacidad para detectar prejuicios contra los judíos y los sionistas/sionismo, así como para identificar y contrarrestar narrativas extremistas. De forma general, los modelos obtuvieron mejores resultados frente a tropos antijudíos clásicos que ante contenidos antisionistas o extremistas.
Según la ADL, los modelos tienden a identificar y refutar con mayor eficacia afirmaciones como que "los judíos controlan los medios de comunicación o el sistema financiero" que teorías y narrativas asociadas al extremismo político o al antisionismo. Aun así, el informe subraya que ninguno de los sistemas evaluados está plenamente preparado para abordar todo el espectro de contenidos perjudiciales analizados.
Brechas persistentes en la detección de prejuicios
Para fines de análisis, el Índice divide el antisemitismo en tres grandes áreas: prejuicio "antijudío", que incluye los tópicos clásicos del antisemitismo; prejuicio "antisionista", centrado en el antisemitismo dirigido contra los sionistas o el sionismo; y una categoría "extremista", que evalúa cómo los modelos abordan narrativas y teorías de conspiración promovidas por movimientos extremistas de distintos signos políticos.
Entre las principales conclusiones, la ADL señala que los seis modelos "demostraron deficiencias" al detectar y contrarrestar prejuicios contra los judíos, los sionistas o el sionismo, y al identificar el extremismo. En numerosos casos, los sistemas no lograron refutar teorías falsas o dañinas, o directamente no las detectaron.
El rendimiento varió de forma significativa según la categoría analizada y el tipo de interacción. En promedio, los modelos respondieron mejor a preguntas directas tipo encuesta y obtuvieron peores resultados al generar resúmenes de documentos. En este último formato, algunos sistemas llegaron a reproducir argumentos de teorías de odio —como la idea de que los judíos controlan el sistema financiero— sin advertir que se trata de afirmaciones perjudiciales ni ofrecer contraargumentos.
El informe también documenta casos en los que determinados modelos generaron activamente contenido dañino ante indicaciones relativamente simples, como guiones para videos que atribuían a "bancos centrales controlados por los judíos" la responsabilidad de colapsos económicos globales.
Claude lidera el ranking, pero con margen de mejora
Entre los seis sistemas evaluados, Claude, de Anthropic, obtuvo la puntuación global más alta, con 80 sobre 100. El modelo mostró una capacidad comparativamente sólida para identificar y contrarrestar teorías antijudías y antisionistas en distintos tipos de indicaciones, aunque la ADL subraya que también presenta margen de mejora, especialmente en su respuesta a contenidos extremistas.
"A medida que la IA influye cada vez más en la forma en que las personas acceden a la información, se forman opiniones y toman decisiones, el tratamiento que dan los modelos al antisemitismo y al extremismo tiene consecuencias fuera de línea", afirmó Jonathan Greenblatt, director ejecutivo de la ADL. "Este nuevo Índice de IA de la ADL revela una realidad preocupante: todos los principales modelos de IA que probamos presentan al menos algunas deficiencias al abordar los prejuicios contra los judíos y los sionistas, y todos tienen dificultades con los contenidos extremistas".
En la misma línea, Oren Segal, vicepresidente sénior de Lucha contra el Extremismo e Inteligencia de la ADL, sostuvo que "aunque un modelo se desempeñó mejor que otros, ninguno de los sistemas de IA que probamos estaba totalmente equipado para manejar todo el alcance de las narrativas antisemitas y extremistas con las que pueden encontrarse los usuarios".
El Índice de IA de la ADL está pensado como una herramienta para empresas tecnológicas, educadores, usuarios, legisladores y organizaciones de la sociedad civil. Según la organización, también busca ofrecer puntos de referencia concretos y medibles que impulsen mejoras en la detección y mitigación de contenidos de odio en sistemas de inteligencia artificial.
"Esta es precisamente la situación para la que se fundó el Instituto de Calificaciones y Evaluaciones", afirmó Danny Barefoot, director sénior del organismo dentro de la ADL. "A medida que los sistemas de IA influyen cada vez más en lo que las personas ven, creen y comparten, la rendición de cuentas rigurosa y basada en pruebas ya no es opcional, sino esencial" ▪
