Se topa la IA con falta de datos de internet y está latente el riesgo de publicación de bulos

Redacción

El rápido avance de la inteligencia artificial está topándose con un obstáculo inesperado: la falta de datos suficientes en Internet para alimentar a estos gigantes hambrientos de información.
Empresas como OpenAI y Anthropic están en una carrera contra el tiempo para encontrar nuevas fuentes de datos que permitan entrenar a la próxima generación de modelos de IA.
Este el asunto;
Los modelos de IA más avanzados, como GPT-4 de OpenAI, necesitan cantidades astronómicas de datos para aprender. Estamos hablando de hasta 100 billones de tokens (palabras y partes de palabras).Pero se estima que solo un 10% de la información disponible en Internet es realmente útil para este propósito. La mayoría son fragmentos inservibles.Y para complicar aún más las cosas, plataformas como Facebook e Instagram están limitando el acceso a sus datos.
Ante este desafío, las empresas de IA están explorando alternativas creativas. OpenAI ha discutido usar transcripciones de videos públicos de YouTube para entrenar a GPT-5. Otras apuestan por generar sus propios datos sintéticos, aunque esto lleva el riesgo de crear modelos que solo hablen disparates.
En perspectiva: La escasez de datos de calidad podría frenar el desarrollo de la IA en un futuro próximo. Pero, al igual que ocurrió con el temido “pico del petróleo”, es probable que la innovación y la tecnología terminen superando este desafío.
Con información del WSJ