El viernes pasado, Meta anunció su nuevo modelo de lenguaje grande (LLM) basado en IA llamado LLaMA-13B. La compañía dice que puede superar al modelo GPT-3 de su rival OpenAI «en la mayoría de los puntos de referencia».
GPT-3 es la base del famoso chatbot de inteligencia artificial ChatGPT. Si estas afirmaciones son ciertas, un modelo de tamaño reducido podría funcionar en entornos independientes, como computadoras portátiles individuales o incluso teléfonos inteligentes.
El LLaMA viene en varias variedades que difieren en tamaño. El modelo de lenguaje más pequeño de esta familia contiene 7 mil millones de parámetros, mientras que la variante más compleja contiene 65 mil millones de parámetros.
A modo de comparación, el GPT-3 de OpenAI (el que se usa en ChatGPT) se construye utilizando 175 mil millones de parámetros.
Meta también anunció en Twitter que sus modelos LLaMA se entrenaron utilizando conjuntos de datos disponibles públicamente, incluidos Common Crawl, Wikipedia y C4. Por lo tanto, también lanzaron los pesos del modelo para todas las versiones de LLaMA-13B como código abierto.
Hoy lanzamos LLaMA, 4 modelos de base que van desde los parámetros 7B a 65B.
LLaMA-13B supera a OPT y GPT-3 175B en la mayoría de los puntos de referencia. LLaMA-65B es competitivo con Chinchilla 70B y PaLM 540B.
Los pesos para todos los modelos están abiertos y disponibles en https://t.co/q51f2oPZlE
1/n pic.twitter.com/DPyJFBfWEq— Guillaume Lample (@GuillaumeLample) 24 de febrero de 2023
“A diferencia de Chinchilla, PaLM o GPT-3, solo usamos conjuntos de datos disponibles públicamente, lo que hace que nuestro trabajo sea compatible con código abierto y reproducible, mientras que la mayoría de los modelos existentes se basan en datos que no están disponibles públicamente o no están documentados”, dijo Guillaume Lample, miembro del proyecto LLaMA-13B en Meta.
Algunos expertos de la industria ya reaccionaron a esta noticia diciendo que los modelos de lenguaje de IA podrían ejecutarse en teléfonos móviles y computadoras portátiles, brindándoles una gran cantidad de capacidades nativas de un ChatGPT sustancialmente más grande.
!function(f,b,e,v,n,t,s){if(f.fbq)return;n=f.fbq=function(){n.callMethod?n.callMethod.apply(n,arguments):n.queue.push(arguments)};if(!f._fbq)f._fbq=n;n.push=n;n.loaded=!0;n.version=’2.0′;n.queue=[];t=b.createElement(e);t.async=!0;t.src=v;s=b.getElementsByTagName(e)[0];s.parentNode.insertBefore(t,s)}(window,document,’script’,’https://connect.facebook.net/en_US/fbevents.js’);fbq(‘init’,’1254095111342376′);fbq(‘track’,’PageView’);
Source link