Pensemos por un momento que los modelos que desarrollan las empresas de IA (inteligencia artificial) son como bebés que necesitan comer para crecer más y más. Si determinamos que el internet es una cierta cantidad de comida específica, en algún momento esos bebés se la acabarán y necesitarán buscar comida en otro lugar para seguir creciendo.
Esto es justamente el escenario al que se enfrentan las empresas de IA: la información que está en internet les está quedando pequeña para entrenar a sus nuevos modelos.
A ver. Los modelos de lenguaje para la Inteligencia Artificial se crean usando texto traído de Internet. Esa información incluye investigaciones científicas, artículos de noticias e incluso las entradas que aparecen en Wikipedia.
A partir de ello los modelos aprenden a formular expresiones humanas. Entonces, entre más datos usan los modelos se vuelven más capaces de hacer su chamba, cualquiera que sea.
Pero qué pasa cuando las empresas que luchan por desarrollar el modelo de IA más potente se topan con pared. Las bases de datos disponibles para alimentar los nuevos modelos llegarán a su fin en algún momento ¿y luego?
Expertos citados por The Wall Street Journal explican que los sistemas desarrollados por ejemplo por OpenIA, Google y demás empresas requieren cada vez de más información, situación que está agotando los datos públicos de calidad que están disponibles en línea.
A eso hay que agregarle que algunos propietarios de datos en línea bloquean el acceso a empresas de inteligencia artificial.
“Algunos ejecutivos e investigadores dicen que la necesidad de la industria de datos de texto de alta calidad podría superar la oferta dentro de dos años, lo que podría ralentizar el desarrollo de la IA“, se lee en el texto de TWSJ.
De acuerdo con Originality.AI, un detector de contenido de inteligencia artificial, casi el 20% de los mil sitios web más importantes en todo el mundo están bloqueando los robots rastreadores que recopilan datos web para los servicios de inteligencia artificial.
Solo para que nos demos una idea: el New York Times, Reuters, Axios, Amazon, Indeed y CNN, entre otros, comenzaron ya a bloquear GPTBot, el ‘explorador’ de OpenAI.
Y la cosa es que la falta eventual de información pública en internet no es el único problema a futuro para el desarrollo de la Inteligencia Artificial.
De igual forma, los chips que se necesitan para ejecutar los modelos de lenguaje son escasos. Además de los centros de datos y la electricidad para alimentarlos.
Por ejemplo, Pablo Villalobos que estudia inteligencia artificial para el instituto de investigación Epoch, estima que GPT-4 fue entrenado con hasta 12 billones de tokens, conjuntos de palabras y partes de palabras que entrenan a los modelos para formular expresiones humanas.
Partiendo de eso, entonces el modelo siguiente, GPT-5, necesitaría entre 60 y 100 billones de tokens de datos. Más y más y más información que en algún momento encontrará un tope en varios sentidos.
En lo que las empresas encuentran nuevas formas para entrenar a los modelos futuros y se asoma una ley que regule el asunto del acceso a la información y los derechos de autor pagados, OpenIA está discutiendo la posibilidad de usar video y audio.
Entonces usan su herramienta de reconocimiento de voz para transcribir el material en audio y video público para seguir alimentando los nuevos modelos. U otra opción un tanto… riesgosa: que las empresas de IA generen sus propios contenidos.
Un estudio publicado en mayo de 2023 habla y ejemplifica del “colapso del modelo”, algo que ocurre cuando los nuevos modelos generativos de IA se entrenan usando contenido generado por modelos antiguos de IA y el resultado es catastrófico.
Así en grandes rasgos los modelos comienzan a perder información y a producir resultados cada vez más similares, menos diversos y después de varias generaciones de modelos, resultados erróneos.
“Los modelos de IA generativa deben entrenarse con datos producidos por humanos para funcionar. Cuando se entrenan con contenido generado por modelos, los nuevos modelos presentan defectos irreversibles. Sus resultados se vuelven cada vez más “incorrectos” y homogéneos. Los investigadores descubrieron que incluso en las mejores condiciones de aprendizaje, el colapso del modelo era inevitable“, explica TechTarget a partir del estudio.
Vamos a poner un ejemplo: cómo pasar de arquitectura inglesa del siglo XIV a especies de conejos que, por cierto, no existen.
Le pidieron a varias generaciones de un modelo OPT (modelos abiertos de lenguaje transformador preentrenados) que ‘hablara’ sobre algunos detalles de la arquitectura inglesa en una época definida.
La generación 0 del modelo se enfocó en la arquitectura del Renacimiento con el estilo Perpendicular y hasta pone como ejemplo la Catedral de San Juan en Londres.
Para la generación 9 del modelo la respuesta incluye la palabra ‘arquitectura’ pero luego pasa las poblaciones más grandes del mundo de liebres de cola roja, de cola azul y de cola amarillas.
Es importante mencionar que cada nueva generación se entrenó con datos producidos por la generación anterior. Los modelos nuevos necesitan de información producida por humanos para funcionar.
The post Resulta que las empresas de IA ya ‘se acabaron’ internet para entrenar sus modelos appeared first on Sopitas.com.
CDMX afirma que agua en Benito Juárez está en parámetros normales tras una contaminación, pero persiste la duda sobre si es segura para consumo humano
NotiPress
Los chilenos pueden disfrutar del juego en línea en plataformas accesibles con una amplia variedad de juegos. La industria ofrece opciones de entretenimiento tradicionales y modernas; por ejemplo, el casino en línea Pin Up tiene varias categorías de juegos que también están seccionadas según temas, características y otras características. E
Lado.mx
Cuando planificas tus vacaciones o un viaje de negocios, uno de los primeros aspectos a considerar es el alojamiento. Elegir entre los diferentes planes de alojamiento puede marcar la diferencia en tu experiencia de viaje.
Lado.mx
El aumento del interés por las nuevas fórmulas de ocio online para adultos, como el casino o las casas de apuestas, ha propiciado un aumento desmesurado de las plataformas dedicadas a ofrecer este servicio.
Lado.mx
Zócalo Saltillo
El candidato propone dar prioridad a los negocios locales, antes que privilegiar a los grandes conglomerados comerciales
El Informador
El país, donde una amplia mayoría apoya unirse a la Unión Europea, se ha visto sacudido por protestas mientras su gobierno impulsa un proyecto de ley sobre "agentes extranjeros" al estilo de Putin. EE.UU. dice que Rusia usó agentes asfixiantes contra soldados ucranianos Cómo una serie de terribles sucesos internos condujeron a la i
CNN en Español
Los Hammers ocupan el noveno lugar en la Premier League y la continuidad de David Moyes está en duda.
ESPNdeportes.com
Redacción Hora Cero El Instituto Mexicano del Seguro Social (IMSS) en Veracruz Norte advierte sobre el mal de gota o enfermedad reumática, que se produce por la formación de cristales de ácido úrico en las articulaciones y partes blandas. “La presencia alta de ácido úrico puede ser por una mayor producción de ácido o […]The
Hora Cero
Carlos Fernando Márquez Padilla García se suicidó en las instalaciones de Pemex, pero su familia es acusada de corrupción para hacer pasar el hecho como un accidente y así cobrar pensiones millonarias
SDP Noticias
Criterio Hidalgo Digital
Marca Claro
El Financiero Bloomberg TV
Recientemente circuló en redes información sobre la visita de Eva Longoria al encuentro entre el Necaxa y Rayados, reviviendo la información sobre su papel como socia del equipo de Aguascalientes y posteriormente, Ryan Reynolds se convirtió en accionista del mismo, pero estas superestrellas no son las únicas que han decidido ir más allá de l
Vanguardia.com.mx
Recientemente circuló en redes información sobre la visita de Eva Longoria al encuentro entre el Necaxa y Rayados, reviviendo la información sobre su papel como socia del equipo de Aguascalientes y posteriormente, Ryan Reynolds se convirtió en accionista del mismo, pero estas superestrellas no son las únicas que han decidido ir más allá de l
Vanguardia.com.mx
La Champions League está de vuelta, el mejor torneo de clubes del Viejo Continente ha regresado, y ahora con las Semifinales del torneo, que tendrán grandes duelos, como el de Bayern Múnich vs Real Madrid.Los comandados por Ancelotti viajarán a tierras alemanas para disputar el partido de ida frente al Bayern Múnich de Thomas Tuchel en el Alli
Vanguardia.com.mx
México.-El Clausura 2024 ha terminado para el Club Tijuana y Miguel Herrera ha tomado la decisión de dar un paso al costado y terminar su relación laboral con el equipo fronterizo. Según informes, Miguel Herrera se despidió hoy de jugadores, staff y directiva del Club Tijuana, para de esta forma poner fin a su segunda etapa con la instit
Elarsenal.net
México.-La sorpresiva eliminación del Club América en la Concachampions 2024 a manos del CF Pachuca ha generado un impacto económico significativo para el equipo mexicano. La importancia de la Concachampions para el Club América radicaba en la oportunidad de competir en el escenario internacional y asegurar un lugar en el Mundial de Club
Elarsenal.net
El multicampeón con la ‘U’ criticó con dureza al administrador luego de responsabilizar a Edwin Ordoñez de la caída por la Liga 1. “Es una vergüenza”, añadió
Infobae
La ‘U’ no pudo en la altura de Tarma y perdió su invicto. Los ‘blanquiazules’ jugarán en el Nacional. Sporting Cristal se enfrentará a Alianza Atlético el domingo
Infobae
El joven atacante, a quien le habían anulado un tanto previamente, le filtró un pase al ‘Pirata’ y este la mandó a guardar. Desahogo total por parte del venezolano en el Estadio Nacional
Infobae
Últimas noticias
Prohíben el “yoga con perros” en Italia por maltrato
¿Cómo se celebra el Día de Star Wars hoy 04 de mayo?
¿Y la mexicana? Estas son consideradas las mejores pizzas del mundo
Real Madrid quiere asegurar el título
La contundente frase de Ariel Galeano para los hinchas de Libertad
Dispara contra cinco, en León
Muere motociclista en accidente en Apaseo el Alto
Sueño hecho realidad
Mhoni Vidente: Números de la suerte y colores mágicos para cada signo en mayo
Nana Calistar: Horóscopos de HOY 4 de mayo
Fondo de pensiones, inconstitucional/Alejandro Moreno
Detienen a profe Universitario por grabar a mujeres en Feria de Puebla y difundir contenido íntimo
Sheinbaum y María Amparo Casar
Gustavo Petro anunció que vendrían nuevos despidos por el escándalo de los carrotanques
OMM: "El 50 % de población mundial no tiene acceso a alertas meteorológicas tempranas"