Imagina por un momento que eres un GPS extraordinario que ha memorizado cada calle, cada atajo, cada ruta posible de tu ciudad. Puedes definir el camino más eficiente hacia cualquier destino conocido, incluso predecir el tráfico con precisión milimétrica. Eres tan bueno que la gente te considera casi mágico, una mente digital capaz de resolver cualquier problema de navegación.
Pero entonces sucede lo inevitable, construyen una nueva carretera, o un accidente masivo bloquea simultáneamente varias calles principales, o simplemente alguien te pide que navegues una ciudad diferente. Y ahí es cuando todo se desmorona.
No calculas una nueva ruta. No razonas hacia una solución alternativa. Simplemente te congelas y te quedas “recalculando” hasta el infinito, atrapado en un loop, algo tan simple, te vuelve obsoleto.
Esto es exactamente lo que acaba de descubrir Apple sobre la inteligencia artificial en este estudio. Es prestidigitación computacional. Aquí es donde se demuestra la manera distinta de pensar de las mentes brillantes de esta compañía.
El experimento que cambió todo
Los investigadores de Apple hicieron algo brillante y aterrador a la vez. Tomaron el GSM8K, un benchmark clásico de 8 mil problemas matemáticos de primaria y crearon algo que llamaron GSM-Symbolic. Un benchmark es básicamente un examen estándar que usan para medir qué tan listos son estos sistemas.
El experimento es genial en su simplicidad: le daban a los LLMs más avanzados (Large Language Models, o sea, los ChatGPTs más inteligentes que existen) un problema como este: “Si tienes 3 manzanas y compras 2 más, ¿cuántas manzanas tienes?” Y obviamente respondían bien: 5.
Pero después les daban exactamente el mismo problema, pero esta vez agregaron lo que en el mundo técnico llamamos “información irrelevante”: “Si tienes 3 manzanas rojas brillantes y compras 2 más que pesan exactamente 150 gramos cada una, ¿cuántas manzanas tienes?” Y entonces el sistema se confundía y respondía 7.
Es como si le dijeras a alguien que sume 2 + 2, y responda 4. Pero si le dices “suma 2 manzanas rojas + 2 manzanas verdes”, responda 6. Los colores no cambian la matemática, pero estos sistemas se dejan engañar por detalles que no importan. Es decir, no piensan.
Esto no es inteligencia. Es lo que yo llamo “reconocimiento de patrones sofisticado” un loro muy elegante que se confunde cuando le cambias el color de las plumas.
Los investigadores descubrieron algo que en el mundo de la AI llamamos “inconsistencia de rendimiento” básicamente, que estos sistemas son como empleados bipolares. Un día resuelven problemas complejos perfectamente, al día siguiente fallan con el mismo tipo de problema si le cambias pequeños detalles irrelevantes.
Es como tener un empleado brillante que un lunes puede hacer análisis financieros complejos, pero el martes no puede sumar 2 + 2 si los números están escritos en rojo en lugar de negro. No son flexibles, n son adaptables, no tienen criterio.
Encontraron tres patrones claros:
- En problemas súper simples, los sistemas normales funcionan mejor que los de “razonamiento avanzado”.
- En problemas de dificultad media, los sistemas “inteligentes” tienen ventaja.
- Cuando los problemas se vuelven realmente complejos, todos experimentan un colapso de precisión, o sea, se rompen por igual.
No están haciendo lo que creemos que están haciendo, y casi nadie se lo cuestionó.
Lo que realmente está pasando
Aquí está la verdad que nadie quiere escuchar: estos sistemas no hacen “razonamiento lógico genuino” no piensan como nosotros creemos. En realidad hacen, son bibliotecarios extraordinariamente sofisticados que han memorizado conexiones entre millones de textos, pero no pueden encontrarlo si le cambias el color a las portadas. No improvisa. No innova. Se queda parado.
Los investigadores de Apple encontraron que cuando los problemas se vuelven más complejos, estos sistemas no solo empeoran gradualmente. Experimentan un colapso completo de precisión o sea, se desploman.
Es como ver a un equilibrista experto caminar 10 metros sin problemas, pero cuando extiendes la cuerda a 11 metros, no se tambalea, se cae directo al suelo.
No hay degradación gradual. No hay lucha. Solo colapso total.
Lo que pasa es que estos sistemas sufren de algo que los expertos llamamos “sesgo de tokens” básicamente, se dejan influenciar por palabras irrelevantes que no deberían afectar la respuesta.
Esto no es solo un problemita técnico. Es una revelación que sacude toda la industria tecnológica más poderosa del mundo.
Resulta que estos sistemas que nos van a “revolucionar” la vida, que van a ser más inteligentes que nosotros, que van a resolver todos nuestros problemas... no saben realmente resolver problemas. Solo saben reconocer patrones que ya vieron antes.
Los sistemas más avanzados que tenemos se rompen con problemas de matemáticas de primaria cuando les cambias un poquito el contexto.
Y esa diferencia no es filosófica. Es la diferencia entre tener herramientas que nos ayudan y tener sistemas que nos reemplazan. Entre evolución y revolución. Entre progreso real y humo publicitario.
Apple acaba de prender una luz a la realidad y estado de desarrollo de AI. Muchos ya especulaban que los LLMs ya tenian conciencia. Las implicaciones son positivas en todas las formas, es muy importante saber donde estamos parados y crear tests adecuados que nos permitan validad la calidad de los modelos para avanzar en el desarrollo, y también salió a la luz el valor de la mente, creatividad y flexibilidad humana.
Hasta la próxima,
Manuel