La última gran carrera por los datos de la IA

Desde mi perspectiva, estamos presenciando una nueva etapa crítica en la evolución de la inteligencia artificial: una batalla silenciosa por el control de los datos.

“Solo tenemos un internet”, dijo Ilya Sutskever, cofundador de OpenAI, durante una charla en NeurIPS 2024. Con esa frase, lanzó una advertencia clara y contundente al mundo de la inteligencia artificial: el suministro de datos de calidad libremente disponibles —el combustible que ha entrenado a los modelos de lenguaje más avanzados— se está agotando. Estamos llegando al límite de lo que se puede raspar, minar y modelar. Lo que venga después no dependerá de quién tenga el modelo más grande, sino de quién tenga los datos más valiosos.

Como si regresáramos a la era del petróleo, los datos vuelven a ser el nuevo recurso estratégico. Pero esta vez no solo alimentan industrias: determinan quién tiene acceso al futuro. En un escenario donde los contenidos abiertos del internet empiezan a escasear, las empresas que controlan ecosistemas cerrados de datos humanos serán quienes dominen la próxima ola de la IA. La nueva economía de la IA no se definirá solo por GPUs o algoritmos, sino por quién controla el lenguaje, el contexto y la interacción a gran escala.

Aquí entra Elon Musk con su último movimiento: fusionar su empresa de IA, xAI, con X (antes Twitter). A primera vista, parece una reorganización corporativa. Pero en realidad intuyo que es una jugada estratégica para consolidar datos y distribución. Con esta fusión, Musk tiene acceso directo a un flujo inagotable de lenguaje natural generado por humanos: texto en tiempo real, emocional, cotidiano, con opiniones, y más diverso que cualquier conjunto de datos disponible públicamente. En muchos sentidos, es un movimiento que refleja la estrategia de Meta con LLaMA, entrenado con datos de Facebook e Instagram. Distintos fundadores, mismo instinto: quien controla la red, controla el futuro de la IA.

Este giro pone presión sobre OpenAI, Anthropic y hasta Google. Las dos primeras dependen de datos públicos, acuerdos de licenciamiento y retroalimentación humana. Google, aunque no tiene una red social, posee una de las fuentes de datos más potentes: búsquedas diarias, interacciones en YouTube, y metadatos de Gmail. Si Musk y Zuckerberg extraen emociones, Google extrae intención. Aun así, ninguno de estos pozos es infinito. Y como dijo Sutskever, el apretón por los datos ya comenzó.

En México, el panorama es otro. Hasta ahora no hemos visto un esfuerzo serio, ni desde el gobierno ni desde la iniciativa privada, por construir un modelo de lenguaje grande entrenado en nuestra realidad lingüística y cultural. No existe un LLM que entienda el español coloquial, los modismos mexicanos o nuestras lenguas indígenas. Y mientras los gigantes del mundo cierran el acceso a sus datos, la ventana de oportunidad se va cerrando. Ya sea desde un consorcio universitario, una startup o una iniciativa pública, alguien tiene que dar el primer paso. La próxima etapa de la IA no se trata solo de tecnología: se trata de representación. Y no podemos permitirnos quedar fuera de esa conversación. ¿Podría ser este el momento para que universidades, centros de investigación y empresas tecnológicas mexicanas se unan en un proyecto nacional de IA?

La última gran carrera por los datos de la IA

Como si regresáramos a la era del petróleo, los datos vuelven a ser el nuevo recurso estratégico. Pero esta vez no solo alimentan industrias: determinan quién tiene acceso al futuro.

COLUMNAS ANTERIORES