Resulta que las empresas de IA ya ‘se acabaron’ internet para entrenar sus modelos Sopitas.com

Resulta que las empresas de IA ya ‘se acabaron’ internet para entrenar sus modelos. Noticias en tiempo real 09 de Abril, 2024 19:20

La inteligencia artificial y nos nuevos modelos

Pensemos por un momento que los modelos que desarrollan las empresas de IA (inteligencia artificial) son como bebés que necesitan comer para crecer más y más. Si determinamos que el internet es una cierta cantidad de comida específica, en algún momento esos bebés se la acabarán y necesitarán buscar comida en otro lugar para seguir creciendo.

Esto es justamente el escenario al que se enfrentan las empresas de IA: la información que está en internet les está quedando pequeña para entrenar a sus nuevos modelos.

inteligencia artificial ChatGPT crisis
Imagen: Pixabay

Las empresas de IA se están acabando el internet ¿y luego?

A ver. Los modelos de lenguaje para la Inteligencia Artificial se crean usando texto traído de Internet. Esa información incluye investigaciones científicas, artículos de noticias e incluso las entradas que aparecen en Wikipedia. 

A partir de ello los modelos aprenden a formular expresiones humanas. Entonces, entre más datos usan los modelos se vuelven más capaces de hacer su chamba, cualquiera que sea. 

Pero qué pasa cuando las empresas que luchan por desarrollar el modelo de IA más potente se topan con pared. Las bases de datos disponibles para alimentar los nuevos modelos llegarán a su fin en algún momento ¿y luego?

Expertos citados por The Wall Street Journal explican que los sistemas desarrollados por ejemplo por OpenIA, Google y demás empresas requieren cada vez de más información, situación que está agotando los datos públicos de calidad que están disponibles en línea.

A eso hay que agregarle que algunos propietarios de datos en línea bloquean el acceso a empresas de inteligencia artificial.

Algunos ejecutivos e investigadores dicen que la necesidad de la industria de datos de texto de alta calidad podría superar la oferta dentro de dos años, lo que podría ralentizar el desarrollo de la IA“, se lee en el texto de TWSJ.

Una foto que ilustra la inteligencia artificial en Estados Unidos
Foto: Pexels

De acuerdo con Originality.AI, un detector de contenido de inteligencia artificial, casi el 20% de los mil sitios web más importantes en todo el mundo están bloqueando los robots rastreadores que recopilan datos web para los servicios de inteligencia artificial. 

Solo para que nos demos una idea: el New York Times, Reuters, Axios, Amazon, Indeed y CNN, entre otros, comenzaron ya a bloquear GPTBot, el ‘explorador’ de OpenAI.

Y la cosa es que la falta eventual de información pública en internet no es el único problema a futuro para el desarrollo de la Inteligencia Artificial. 

De igual forma, los chips que se necesitan para ejecutar los modelos de lenguaje son escasos. Además de los centros de datos y la electricidad para alimentarlos. 

Por ejemplo, Pablo Villalobos que estudia inteligencia artificial para el instituto de investigación Epoch, estima que GPT-4 fue entrenado con hasta 12 billones de tokens, conjuntos de palabras y partes de palabras que entrenan a los modelos para formular expresiones humanas. 

Partiendo de eso, entonces el modelo siguiente, GPT-5, necesitaría entre 60 y 100 billones de tokens de datos. Más y más y más información que en algún momento encontrará un tope en varios sentidos.

inteligencia-artificial-oms
Foto: Lintao Zhang-Getty Images.

En lo que las empresas encuentran nuevas formas para entrenar a los modelos futuros y se asoma una ley que regule el asunto del acceso a la información y los derechos de autor pagados, OpenIA está discutiendo la posibilidad de usar video y audio. 

Entonces usan su herramienta de reconocimiento de voz para transcribir el material en audio y video público para seguir alimentando los nuevos modelos. U otra opción un tanto… riesgosa: que las empresas de IA generen sus propios contenidos.

El colapso del modelo y los conejitos

Un estudio publicado en mayo de 2023 habla y ejemplifica del “colapso del modelo”, algo que ocurre cuando los nuevos modelos generativos de IA se entrenan usando contenido generado por modelos antiguos de IA y el resultado es catastrófico.

Así en grandes rasgos los modelos comienzan a perder información y a producir resultados cada vez más similares, menos diversos y después de varias generaciones de modelos, resultados erróneos. 

Los modelos de IA generativa deben entrenarse con datos producidos por humanos para funcionar. Cuando se entrenan con contenido generado por modelos, los nuevos modelos presentan defectos irreversibles. Sus resultados se vuelven cada vez más “incorrectos” y homogéneos. Los investigadores descubrieron que incluso en las mejores condiciones de aprendizaje, el colapso del modelo era inevitable“, explica TechTarget a partir del estudio.

Vamos a poner un ejemplo: cómo pasar de arquitectura inglesa del siglo XIV a especies de conejos que, por cierto, no existen.

conejo-zacatuche-monte-tlaloc
Foto: CONANP

Le pidieron a varias generaciones de un modelo OPT (modelos abiertos de lenguaje transformador preentrenados) que ‘hablara’ sobre algunos detalles de la arquitectura inglesa en una época definida.

La generación 0 del modelo se enfocó en la arquitectura del Renacimiento con el estilo Perpendicular y hasta pone como ejemplo la Catedral de San Juan en Londres.

Para la generación 9 del modelo la respuesta incluye la palabra ‘arquitectura’ pero luego pasa las poblaciones más grandes del mundo de liebres de cola roja, de cola azul y de cola amarillas.

Es importante mencionar que cada nueva generación se entrenó con datos producidos por la generación anterior. Los modelos nuevos necesitan de información producida por humanos para funcionar.

Foto: Model Collapse, estudio

The post Resulta que las empresas de IA ya ‘se acabaron’ internet para entrenar sus modelos appeared first on Sopitas.com.


Compartir en:
   

 

 

CDMX asegura que agua está en parámetros normales ¿Sirve para consumo humano?.06:22

CDMX afirma que agua en Benito Juárez está en parámetros normales tras una contaminación, pero persiste la duda sobre si es segura para consumo humano

NotiPress

Variedad de juegos ofrecidos en los casinos online chilenos.

Los chilenos pueden disfrutar del juego en línea en plataformas accesibles con una amplia variedad de juegos. La industria ofrece opciones de entretenimiento tradicionales y modernas; por ejemplo, el casino en línea Pin Up tiene varias categorías de juegos que también están seccionadas según temas, características y otras características. E

Lado.mx

Planes de alojamiento: guía para elegir la mejor opción.

Cuando planificas tus vacaciones o un viaje de negocios, uno de los primeros aspectos a considerar es el alojamiento. Elegir entre los diferentes planes de alojamiento puede marcar la diferencia en tu experiencia de viaje. 

Lado.mx

Tecnología aplicada a las casas de apuestas.

El aumento del interés por las nuevas fórmulas de ocio online para adultos, como el casino o las casas de apuestas, ha propiciado un aumento desmesurado de las plataformas dedicadas a ofrecer este servicio.

Lado.mx

“Chema” Martínez propone rescatar los barrios con una economía circular. 04:51

El candidato propone dar prioridad a los negocios locales, antes que privilegiar a los grandes conglomerados comerciales

El Informador

Cómo Georgia, candidato a la Unión Europea, podría convertirse en "otro Belarús". 04:20

El país, donde una amplia mayoría apoya unirse a la Unión Europea, se ha visto sacudido por protestas mientras su gobierno impulsa un proyecto de ley sobre "agentes extranjeros" al estilo de Putin. EE.UU. dice que Rusia usó agentes asfixiantes contra soldados ucranianos Cómo una serie de terribles sucesos internos condujeron a la i

CNN en Español

West Ham se reune con Lopetegui, según fuentes a ESPN.Ayer, 13:36

Los Hammers ocupan el noveno lugar en la Premier League y la continuidad de David Moyes está en duda.

ESPNdeportes.com

Advierte IMSS en Veracruz Norte sobre gota, enfermedad reumática. Ayer, 23:40

Redacción Hora Cero El Instituto Mexicano del Seguro Social (IMSS) en Veracruz Norte advierte sobre el mal de gota o enfermedad reumática, que se produce por la formación de cristales de ácido úrico en las articulaciones y partes blandas.   “La presencia alta de ácido úrico puede ser por una mayor producción de ácido o […]The

Hora Cero

¿Quién fue Carlos Fernando Márquez Padilla García? Esposo de María Amparo Casar, acusada por Pemex. Ayer, 21:20

Carlos Fernando Márquez Padilla García se suicidó en las instalaciones de Pemex, pero su familia es acusada de corrupción para hacer pasar el hecho como un accidente y así cobrar pensiones millonarias

SDP Noticias

Athletic Football Club Bournemouth

Estrellas en la cancha: celebridades que han decidido invertir en clubes deportivos. 01 de Mayo, 2024 12:50

Recientemente circuló en redes información sobre la visita de Eva Longoria al encuentro entre el Necaxa y Rayados, reviviendo la información sobre su papel como socia del equipo de Aguascalientes y posteriormente, Ryan Reynolds se convirtió en accionista del mismo, pero estas superestrellas no son las únicas que han decidido ir más allá de l

Vanguardia.com.mx

De Ryan Reynolds y Eva Longoria con Necaxa, hasta Beckham con Inter Miami: famosos inversores en el deporte. 01 de Mayo, 2024 13:30

Recientemente circuló en redes información sobre la visita de Eva Longoria al encuentro entre el Necaxa y Rayados, reviviendo la información sobre su papel como socia del equipo de Aguascalientes y posteriormente, Ryan Reynolds se convirtió en accionista del mismo, pero estas superestrellas no son las únicas que han decidido ir más allá de l

Vanguardia.com.mx

Arsenal Football Club

Bayern Múnich recibirá al Real Madrid en la ida de las Semifinales de la Champions League, ¿Quién podrá sacar ventaja?. 29 de Abril, 2024 13:00

La Champions League está de vuelta, el mejor torneo de clubes del Viejo Continente ha regresado, y ahora con las Semifinales del torneo, que tendrán grandes duelos, como el de Bayern Múnich vs Real Madrid.Los comandados por Ancelotti viajarán a tierras alemanas para disputar el partido de ida frente al Bayern Múnich de Thomas Tuchel en el Alli

Vanguardia.com.mx

Miguel Herrera dejará al Club Tijuana: ¿Cuál sería su nuevo equipo en la Liga MX?. 30 de Abril, 2024 19:41

México.-El Clausura 2024 ha terminado para el Club Tijuana y Miguel Herrera ha tomado la decisión de dar un paso al costado y terminar su relación laboral con el equipo fronterizo. Según informes, Miguel Herrera se despidió hoy de jugadores, staff y directiva del Club Tijuana, para de esta forma poner fin a su segunda etapa con la instit

Elarsenal.net

Club América pierde más de 500 millones al ser eliminado por Pachuca en Concachampions 2024. 02 de Mayo, 2024 11:40

México.-La sorpresiva eliminación del Club América en la Concachampions 2024 a manos del CF Pachuca ha generado un impacto económico significativo para el equipo mexicano. La importancia de la Concachampions para el Club América radicaba en la oportunidad de competir en el escenario internacional y asegurar un lugar en el Mundial de Club

Elarsenal.net

Liga 1

Paolo Maldonado explotó contra Jean Ferrari por culpar a árbitro de la derrota de Universitario ante ADT: “Quedas como llorón”. Ayer, 18:11

El multicampeón con la ‘U’ criticó con dureza al administrador luego de responsabilizar a Edwin Ordoñez de la caída por la Liga 1. “Es una vergüenza”, añadió

Infobae

Tabla de posiciones de la Liga 1 2024 Perú tras derrota de Universitario vs ADT y previo al Alianza Lima vs UTC . Ayer, 19:50

La ‘U’ no pudo en la altura de Tarma y perdió su invicto. Los ‘blanquiazules’ jugarán en el Nacional. Sporting Cristal se enfrentará a Alianza Atlético el domingo

Infobae

Gol de Hernán Barcos con asistencia de Jeriel De Santis, quien celebró eufórico, en Alianza Lima vs UTC por Liga 1 2024. Ayer, 21:30

El joven atacante, a quien le habían anulado un tanto previamente, le filtró un pase al ‘Pirata’ y este la mandó a guardar. Desahogo total por parte del venezolano en el Estadio Nacional

Infobae

La información agregada y la responsabilidad de esta, pertenece a los sitios que lo publican. Lado.mx solo se encarga de publicarla.