Claude 3.5 tiene gran habilidad para escribir en español perfecto, detectar intenciones y generar respuestas coherentes en 47 idiomas. Sin embargo, pregúntale qué significa "dejar en visto" en México versus Argentina, o por qué "guay" varía entre Madrid y Barcelona, y notarás un tropiezo común en los LLMs: confunden competencia lingüística con comprensión cultural. Lo curioso es que el problema no es su desempeño en idiomas, sino que los modelos operan con patrones estadísticos, no con experiencias vividas.
Photo: Igor Omilaev on Unsplash
Esto es clave, porque en 2026, muchas startups integran LLMs sin considerar que están creando productos ciegos a la cultura. Un chatbot puede hablar español neutral, pero no captar que un cliente colombiano se ofenda al escuchar "vos" en lugar de "usted". No es un bug de traducción, sino arquitectura: transformers aprenden correlaciones entre tokens, no significado contextual arraigado en historia, geografía o identidad colectiva.
Los transformers procesan distribuciones, no experiencias
La arquitectura transformer, base de Claude 3.5, GPT-4 y otros modelos, predice el siguiente token más probable según una secuencia de entrada. Esto es eficaz para sintaxis, gramática, coherencia narrativa y cierto razonamiento lógico. Dicho esto, el matiz cultural no se basa en probabilidades, sino en contexto acumulado que solo cobra sentido al entender por qué un grupo humano usa ciertas expresiones en momentos específicos.
Al entrenar un modelo con billones de tokens de internet, lo que más me sorprende es que muchas veces se alimenta con textos predominantemente en inglés estadounidense, seguido por español europeo, francés de Francia y chino mandarín. El español latinoamericano aparece fragmentado en variantes: mexicano, argentino, chileno, colombiano. Todas tratadas como ruido estadístico dentro de un idioma, cuando en realidad son sistemas culturales con códigos propios.
Claude puede reproducir frases como "qué chévere" o "qué padre", pero sin saber cuándo usarlas correctamente. En febrero de 2026, una fintech colombiana revertió el despliegue de Claude 3.5 tras tres días: usuarios decían que el bot "sonaba como gringo intentando ser colombiano". El modelo aprendió vocabulario, no uso situado.
El sesgo geográfico del entrenamiento no es accidental
Photo: Jo Lin on Unsplash
Los datasets que alimentan estos modelos no son muestras neutrales del lenguaje humano. Reflejan sesgos de poder económico, infraestructura digital y producción de contenido. Estados Unidos, por ejemplo, genera más texto indexable per cápita que cualquier país latinoamericano. España produce más contenido digital en español que México, a pesar de tener una quinta parte de su población.
Esto implica que cuando Claude 3.5 procesa consultas en español, opera con una representación donde el español de Madrid pesa más que el de Buenos Aires. No porque sea mejor, sino porque hay más datos y los modelos no cuestionan sus fuentes: optimizan para minimizar pérdida en el conjunto de entrenamiento.
Un caso concreto: en marzo de 2026, una plataforma educativa peruana que usaba Claude para generar contenido pedagógico descubrió que el 40% de las analogías culturales referían a experiencias europeas o estadounidenses. "El modelo sugería comparar fracciones con rebanadas de pizza cuando en escuelas rurales de Cusco los niños aprenden con quinua y papas", explicaba el CTO en un post de LinkedIn. No es malicia, el modelo aprende de lo que ve y ve, desproporcionadamente, un solo tipo de experiencia.
La ilusión del español "neutro"
Muchas startups optan por el español neutro, un lenguaje aséptico que evita localismos buscando ser universalmente comprensible. El problema es que el español neutro también es una construcción cultural que históricamente ha privilegiado formas peninsulares. Decir "ordenador" en lugar de "computadora" puede sonar neutro en España, pero extranjero en México o Chile. Honestamente, esto subestima la riqueza de nuestras variantes.
Claude 3.5 tiende al español neutro porque sus evaluadores humanos probablemente operaban bajo la lógica de evitar conflicto eligiendo lo más "estándar". Pero en contextos como atención al cliente, educación o salud mental, esta neutralidad se percibe como distancia emocional. ¿Un usuario argentino quiere que le hablen como locutor de aeropuerto o como argentino?
Los modelos no captan ironía situada ni humor contextual
El humor es un terreno peligroso para los LLMs, pues depende de timing, contexto social compartido y transgresión calculada de expectativas. Claude puede reconocer sarcasmo obvio ("Oh, genial, justo lo que necesitaba: otro correo"), pero falla con la ironía sutil o el humor que requiere conocimiento de referencias locales.
Todo un dilema ocurre al pedirle a Claude que explique el chiste mexicano: "¿Cómo se dice 'pésame' en chino? Chin-gao". Puede reconocer el juego de palabras, pero no comprende la carga cultural de "chingao" ni por qué ese tipo de humor funciona en ciertos contextos mexicanos y es incomprensible en España. La gracia no está en la fonética, está en el uso transgresor de lenguaje coloquial en un contexto formal.
En enero de 2026, una agencia de marketing brasileña usó Claude para generar copys publicitarios localizados. El modelo producía textos técnicamente correctos en portugués brasileño, pero sin "malicia", esa picardía que caracteriza mucha publicidad local. Era como si un robot hubiera estudiado portugués en Coimbra y luego intentara vender cervezas en Río. El problema: el modelo fue entrenado con demasiado portugués europeo y documentación técnica en portugués brasileño, pero poco con el registro informal, juguetón y sugerente que funciona en publicidad local.
Modismos como tokens huérfanos
Los modismos son problemáticos, su significado no es composicional. "Estar en las nubes" no se deduce solo de "estar", "en", "las" y "nubes". Son unidades de significado cultural que el modelo debe haber visto suficiente para aprender su uso situado.
La frecuencia de modismos en datasets de entrenamiento es irregular. "Estar en las nubes" aparece mucho, es pan-hispánico y figura en literatura, subtítulos, artículos. Pero "estar con el Jesús en la boca" (mexicano, estar aterrado) o "estar hasta la pija" (argentino vulgar para estar harto) son menos frecuentes o filtrados como inapropiados.
El resultado: Claude usa modismos comunes, pero no regionales ni vulgares. En muchas culturas, lo vulgar no es accesorio, es el registro donde ocurre la conexión emocional auténtica. ¿No es fascinante cómo el lenguaje refleja la identidad?
El problema de las jerarquías y el tratamiento formal
América Latina tiene códigos de formalidad sutiles que varían por país, región, clase social y contexto generacional. En Colombia, "usted" puede ser respeto o distancia fría según el tono. En Argentina, "vos" es universal, y usar "tú" suena pretencioso. En México, el "tú" es estándar, pero puede sonar invasivo con extraños en contextos formales.
Claude 3.5 no navega esto, su entrenamiento no incluyó metadata sobre relaciones sociales. El modelo ve textos, no interacciones situadas. Puede detectar que "usted" se usa en unos contextos y "tú" en otros, pero no inferir cuándo cambiar de registro sin información clara sobre la relación entre hablantes.
Una startup chilena de recursos humanos usó Claude para automatizar entrevistas preliminares en 2026. Técnicamente funcionaba bien, pero los candidatos estaban incómodos: el bot oscilaba entre "usted" y "tú" de forma inconsistente. No era un error de programación, sino que el modelo no tenía un modelo mental de la relación con el usuario.
La arquitectura no soporta memoria cultural
Los transformers tienen ventanas de contexto (en Claude 3.5, hasta 200K tokens), pero esa memoria es efímera: solo dura durante la conversación. No hay persistencia de aprendizaje cultural entre sesiones. Cada nueva conversación inicia desde cero en términos de adaptación cultural.
Aunque enseñes a Claude que tu audiencia mexicana prefiere cierto tono, esa calibración no se transfiere a la siguiente sesión. No hay "memoria cultural" acumulativa. Cada inferencia es estadísticamente independiente, informada solo por el entrenamiento base y el contexto inmediato.
Algunas empresas usan RAG (Retrieval-Augmented Generation), inyectando documentos con guías de estilo cultural antes de cada consulta. Pero esto es un parche: forzar al modelo a "recordar" información que debería estar integrada en sus pesos, no recuperada ad-hoc.
Fine-tuning no arregla el problema de raíz
El fine-tuning con datasets culturales específicos parece la solución obvia. Funciona hasta cierto punto: mejora vocabulario, frases comunes, preferencias estilísticas. Pero no enseña comprensión de contexto social si el modelo base no tiene arquitectura para representarla.
Los transformers codifican información como embeddings vectoriales en espacios de alta dimensionalidad. Pueden aprender que "chévere" está cerca de "genial". Pero no codifican que "chévere" es marcador de identidad colombiana, que en España puede sonar condescendiente, o que en Argentina es poco serio.
En abril de 2026, Mercado Libre publicó sobre sus experimentos con fine-tuning de Claude para atención al cliente regionalizada. Entrenaron variantes para México, Argentina, Brasil y Chile con millones de transcripciones reales. Los resultados mejoraron marginalmente, pero concluyeron que "el modelo seguía siendo un traductor mejorado, no un hablante nativo". ¿Es suficiente para tus necesidades?
El dilema del corpus regional
Incluso si quisieras hacer fine-tuning serio con datos culturales específicos, existe un problema logístico: falta suficiente texto digital de calidad en muchas culturas no-dominantes. Dialectos regionales, lenguas minoritarias y registros informales están subrepresentados en internet porque las comunidades que los usan no producen contenido indexable al mismo ritmo.
Esto crea un círculo vicioso: los modelos no entienden culturas no-dominantes porque no hay datos → las empresas no invierten en recopilar esos datos porque los modelos actuales no los justifican → las culturas no-dominantes permanecen excluidas de los avances en IA.
Lo que viene: ¿modelos culturalmente situados o adaptadores de contexto?
Algunas investigaciones apuntan a arquitecturas alternativas. Anthropic experimenta con "culture embeddings": representaciones vectoriales de contexto cultural inyectables durante la inferencia para modular la conducta del modelo. La idea es que, en lugar de un modelo por cultura, haya un modelo base con capacidad de "activar" conciencia cultural según metadata de entrada.
OpenAI explora la constitucional AI con valores culturalmente específicos: en lugar de alinear todos los modelos a los mismos principios universales (a menudo occidentales en la práctica), permitir que diferentes despliegues tengan diferentes constituciones éticas y culturales. Es interesante, aunque plantea preguntas complejas sobre quién decide los valores de una cultura, especialmente en sociedades plurales.
Otra dirección es el RAG híbrido: modelos que no solo recuperan documentos, sino contexto cultural en tiempo real. Si un usuario mexicano interactúa con tu sistema, el modelo consulta automáticamente una base de conocimiento de usos culturales mexicanos antes de responder. Es más costoso computacionalmente, pero más flexible que el fine-tuning.
La realidad es que probablemente necesitemos las tres cosas: mejores datos, arquitecturas más sofisticadas y sistemas híbridos que combinen modelos generales con conocimiento cultural específico. Pero mientras tanto, si construyes un producto con Claude 3.5 o cualquier LLM, asume que el modelo no entiende tu cultura. Puede imitarla si le das suficiente contexto explícito, pero no la vive.
Para cerrar: sintaxis no es semántica, y semántica no es cultura
El verdadero límite de modelos como Claude 3.5 no es técnico en el sentido estrecho. La arquitectura transformer captura patrones lingüísticos con poder asombroso. El límite es epistemológico: estos modelos aprenden de texto, y el texto siempre es una representación parcial de la cultura. La cultura vive en gestos, tonos de voz, silencios significativos, contexto histórico compartido y experiencias corporales que nunca llegan a internet.
Puedes hacer que Claude suene más natural con prompts cuidadosos, RAG contextual y fine-tuning específico. Pero no puedes hacer que entienda por qué un chileno se ofende al oír "huevón" en el tono equivocado, o por qué un mexicano puede llamarte "pendejo" de cariño mientras que dicho por un extraño es una agresión. Eso requiere haber vivido esas dinámicas, no solo haber leído sobre ellas.
¿La pregunta entonces no es cuándo los LLMs dominarán los matices culturales, sino si la arquitectura actual es siquiera capaz de hacerlo, o si necesitamos algo fundamentalmente distinto? ¿Tu startup está construyendo para usuarios culturalmente diversos? ¿Cómo estás validando que el modelo realmente los entiende, o solo los está imitando?