InicioTecnologíaEl nuevo enfoque entrena modelos de lenguaje grande el doble de rápido

El nuevo enfoque entrena modelos de lenguaje grande el doble de rápido

-


Un equipo de Stanford ha desarrollado Sophia, una nueva forma de optimizar el entrenamiento previo de modelos de lenguaje grandes que es el doble de rápido que los enfoques actuales.

ChatGPT y otras aplicaciones que dependen de modelos de lenguaje grande (LLM) están ganando un uso generalizado y atrayendo abundante atención de los medios.

Pero un puñado de empresas tecnológicas grandes y bien financiadas dominan el espacio LLM porque el entrenamiento previo de estos modelos es extremadamente costoso, con estimaciones de costos que comienzan en $ 10 millones y potencialmente alcanzan decenas o cientos de veces más.

Un cronómetro - foto ilustrativa. Un cronómetro - foto ilustrativa.

Un cronómetro – foto ilustrativa. Crédito de la imagen: Agê Barros a través de Unsplash, licencia gratuita

“Los modelos de lenguaje grandes no son muy accesibles para organizaciones más pequeñas o grupos académicos”, dice Hong Liu, estudiante de posgrado en ciencias de la computación en la Universidad de Stanford.

Para cambiar eso, Liu y sus colegas se propusieron mejorar los métodos de optimización LLM actuales. El resultado: un enfoque llamado Sophia que reduce el tiempo de preentrenamiento a la mitad.

Optimización Optimización

Para optimizar mejor la capacitación previa de LLM, Liu y sus colegas, incluido el becario postdoctoral de Stanford Zhiyuan Li, el ingeniero de investigación de Stanford David Hall, el profesor asistente de informática tengyu may Profesor Asociado Percy Liang, usó dos trucos. La primera, conocida como estimación de la curvatura, no es nueva, pero el equipo de Stanford encontró una manera de hacerla más eficiente.

Para comprender su enfoque, considere una línea de montaje de fábrica. Para funcionar de manera eficiente, el gerente de la fábrica necesita optimizar la cantidad de pasos para convertir las materias primas en un producto final y comprender y dotar de personal adecuado a la carga de trabajo en cada paso a lo largo de la línea.

Inteligencia artificial, aprendizaje automático, grandes modelos de lenguaje: interpretación artística.Inteligencia artificial, aprendizaje automático, grandes modelos de lenguaje: interpretación artística.

Inteligencia artificial, aprendizaje automático, grandes modelos de lenguaje: interpretación artística. Crédito de la imagen: Gerd Altmann a través de Pixabay, licencia gratuita

Lo mismo es cierto para la formación previa de un LLM. Estos modelos tienen millones o incluso miles de millones de parámetros que Liu compara con los trabajadores de una fábrica que se esfuerzan por alcanzar los mismos objetivos. Una propiedad de estos parámetros es su curvatura, que Liu considera la velocidad máxima alcanzable que alcanzan a medida que avanzan hacia el objetivo final de un LLM preentrenado. En la metáfora de la fábrica, la curvatura es similar a la carga de trabajo de un trabajador de fábrica.

Si un programa de optimización puede estimar esa curvatura (carga de trabajo), puede hacer que el entrenamiento previo de LLM sea más eficiente. El problema es este: estimar la curvatura con los métodos existentes es notablemente difícil y costoso.

“De hecho, es más costoso que hacer el trabajo real sin hacer predicciones de curvatura”, dice Liu. Esa es en parte la razón por la cual los enfoques actuales de vanguardia para optimizar el preentrenamiento LLM (Adam y sus variantes) renuncian al paso de estimación de la curvatura.

Aún así, Liu y sus colegas notaron una posible ineficiencia en los métodos anteriores que usaban la estimación de curvatura paramétrica: los investigadores anteriores actualizaron sus estimaciones de curvatura en cada paso de la optimización. El equipo de Stanford se preguntó si podrían hacer que el proceso fuera más eficiente al disminuir la cantidad de actualizaciones.

Para probar esa idea, el equipo de Stanford diseñó a Sophia para estimar la curvatura de los parámetros solo cada 10 pasos. “Eso resultó ser una gran victoria”, dice Liu.

El segundo truco de optimización del equipo, llamado recorte, aborda un problema relacionado: el problema de la estimación imprecisa de la curvatura. “Si la estimación es incorrecta, es como darles a las personas con trabajos difíciles aún más trabajo por hacer. Empeora las cosas que si no hubiera ninguna estimación”.

El recorte evita eso al establecer un umbral o una estimación de curvatura máxima. “En nuestra metáfora de fábrica, es como establecer un límite de carga de trabajo para todos los empleados”, dice Liu.

Otra metáfora que se aplica a menudo a la optimización es un paisaje de colinas y valles donde el objetivo es terminar en el valle más bajo. Sin recorte, dice Liu, es posible aterrizar en una silla de montar entre dos montañas. “En optimización, ahí no es donde quieres estar”, dice.

Logotipo de ChatGPT en la pantalla de un teléfono inteligente.  El logotipo de OpenAI es visible en el fondo.Logotipo de ChatGPT en la pantalla de un teléfono inteligente.  El logotipo de OpenAI es visible en el fondo.

Logotipo de ChatGPT en la pantalla de un teléfono inteligente. El logotipo de OpenAI es visible en el fondo. Crédito de la imagen: Mojahid Mottakin a través de Unsplash, licencia gratuita

Prueba de Sophia y ampliación

Liu y sus colegas usaron a Sophia para entrenar previamente un LLM relativamente pequeño usando el mismo tamaño y configuración de modelo que se usaron para crear el GPT-2 de OpenAI.

La combinación de estimación de curvatura y recorte de Sophia permitió que la optimización del preentrenamiento de LLM avanzara sin problemas hasta el valle más bajo en la mitad del número de pasos y la mitad del tiempo requerido por Adam.

“La adaptabilidad de Sophia la diferencia de Adam”, dice Liu. «Es más difícil para Adam manejar parámetros con curvaturas heterogéneas porque no puede predecirlos por adelantado».

También es la primera vez en nueve años que alguien ha mostrado una mejora sustancial con respecto a Adam en el entrenamiento previo del modelo de lenguaje, dice Liu. “Esto podría significar una gran reducción en el costo de entrenar modelos grandes del mundo real”. Y a medida que los modelos escalan, las ventajas de Sophia solo deberían aumentar, dice.

A continuación, Liu y sus colegas esperan desarrollar un LLM más grande utilizando a Sophia. También espera ver a Sophia aplicada a otras áreas del aprendizaje automático, como modelos de visión por computadora o modelos multimodales. “Se necesitaría algo de tiempo y recursos para trasladar a Sophia a un nuevo dominio, pero debido a que es de código abierto, la comunidad ciertamente podría hacerlo”.

Fuente: Universidad Stanford

!function(f,b,e,v,n,t,s){if(f.fbq)return;n=f.fbq=function(){n.callMethod?
n.callMethod.apply(n,arguments):n.queue.push(arguments)};if(!f._fbq)f._fbq=n;
n.push=n;n.loaded=!0;n.version=’2.0′;n.queue=[];t=b.createElement(e);t.async=!0;
t.src=v;s=b.getElementsByTagName(e)[0];s.parentNode.insertBefore(t,s)}(window,
document,’script’,’https://connect.facebook.net/en_US/fbevents.js’);
fbq(‘init’, ‘1254095111342376’);
fbq(‘track’, ‘PageView’);



Source link

Deja un comentario

- Publicidad -spot_img

Selección