Descripción general del ajuste de modelos

Ajustar un modelo de base puede mejorar su rendimiento. Los modelos de base se entrenan para usos generales y, a veces, no se realizan tareas como deseas. Esto puede deberse a que las tareas que deseas que realice el modelo son tareas especializadas que son difíciles de enseñar a un modelo solo con el diseño de prompts.

En estos casos, puedes usar el ajuste de modelos para mejorar el rendimiento de un modelo en tareas específicas. El ajuste del modelo también puede ayudar a cumplir con los requisitos de salida específicos cuando las instrucciones no son suficientes. En esta página, se proporciona una descripción general del ajuste de modelos, se describen las opciones de ajuste disponibles en Vertex AI y se te ayuda a determinar cuándo se debe usar cada opción de ajuste.

Descripción general del ajuste del modelo

El ajuste del modelo proporciona un modelo con un conjunto de datos de entrenamiento que contiene muchos ejemplos de una tarea única. Para tareas únicas o de especialidad, puedes obtener mejoras significativas en el rendimiento del modelo si lo ajustas en una cantidad simple de ejemplos. Después de ajustar un modelo, se requieren menos ejemplos en sus instrucciones.

Vertex AI admite los siguientes métodos para ajustar los modelos de base.

Gemini

Ajuste supervisado

El ajuste supervisado para los modelos de Gemini mejora el rendimiento del modelo, ya que le enseña una nueva habilidad. Los datos que contienen cientos de ejemplos etiquetados se usan para enseñarle al modelo a imitar un comportamiento o una tarea deseados. Cada ejemplo etiquetado demuestra lo que deseas que el modelo genere durante la inferencia.

Cuando ejecutas un trabajo de ajuste supervisado, el modelo aprende parámetros adicionales que lo ayudan a codificar la información necesaria para realizar la tarea deseada o aprender el comportamiento deseado. Estos parámetros se usan durante la inferencia. El resultado del trabajo de ajuste es un modelo nuevo que combina los parámetros recién aprendidos con el modelo original.

El ajuste supervisado de un modelo de texto es una buena opción cuando el resultado de tu modelo no es complejo y es relativamente fácil de definir. Se recomienda el ajuste supervisado para la clasificación, el análisis de opiniones, la extracción de entidades, el resumen del contenido que no es complejo y la escritura de consultas específicas del dominio. Para los modelos de código, la única opción es el ajuste supervisado.

PaLM

Ajuste supervisado

El ajuste supervisado para los modelos PaLM mejora el rendimiento del modelo mediante la enseñanza de una habilidad nueva. Los datos que contienen cientos de ejemplos etiquetados se usan para enseñarle al modelo a imitar un comportamiento o una tarea deseados. Cada ejemplo etiquetado demuestra lo que deseas que el modelo genere durante la inferencia.

Cuando ejecutas un trabajo de ajuste supervisado, el modelo aprende parámetros adicionales que lo ayudan a codificar la información necesaria para realizar la tarea deseada o aprender el comportamiento deseado. Estos parámetros se usan durante la inferencia. El resultado del trabajo de ajuste es un modelo nuevo que combina los parámetros recién aprendidos con el modelo original.

El ajuste supervisado de un modelo de texto es una buena opción cuando el resultado de tu modelo no es complejo y es relativamente fácil de definir. Se recomienda el ajuste supervisado para la clasificación, el análisis de opiniones, la extracción de entidades, el resumen del contenido que no es complejo y la escritura de consultas específicas del dominio. Para los modelos de código, la única opción es el ajuste supervisado.

Aprendizaje por refuerzo con retroalimentación humana (RLHF)

El aprendizaje por refuerzo con retroalimentación humana (RLHF) para modelos de PaLM usa preferencias especificadas por personas para optimizar un modelo de lenguaje. Mediante el uso de los comentarios humanos para ajustar los modelos, puedes hacer que los modelos se alineen mejor con las preferencias humanas y reducir los resultados dañinos en situaciones en las que las personas tienen intuiciones complejas sobre una tarea. Por ejemplo, el RLHF puede ayudar con una tarea ambigua, como cómo escribir un poema sobre el mar, ya que ofrece dos poemas sobre el océano y permite que esa persona elija su preferido.

El ajuste de RLHF es una buena opción cuando el resultado de tu modelo es complejo y no se logra con facilidad con el ajuste supervisado. Se recomienda el ajuste del RLHF para responder preguntas, resumir contenido complejo y crear contenido, como una reescritura. El ajuste del RLHF no es compatible con los modelos de código.

Destilación de modelos

Destilación de modelos de PaLM: La destilación es una buena opción si tienes un modelo grande que deseas hacer más pequeño sin disminuir su capacidad de hacer lo que deseas. El proceso de destilación crea un modelo entrenado nuevo y más pequeño cuyo uso cuesta menos y tiene una latencia más baja que el modelo original.

Recomendaciones de LoRA y QLoRA para LLM

También puedes usar la adaptación de clasificación baja de modelos grandes de lenguaje (LoRA) para ajustar los modelos de Vertex AI LLM.

En esta sección, se proporcionan recomendaciones para usar LoRA y su versión con mayor eficiencia de memoria, QLoRA.

Recomendaciones de ajuste de LoRA

La siguiente tabla resume recomendaciones para ajustar LLM mediante LoRA o QLoRA:

Especificación Recomendado Detalles
Eficiencia de la memoria de GPU QloRA QLoRA tiene un uso de memoria de GPU máximo un 75% más pequeño en comparación con LoRA.
Velocidad Laura En cuanto a la velocidad de ajuste, LoRA es alrededor de un 66% más rápido que QLoRA.
Cost efficiency Laura Si bien ambos métodos son relativamente económicos, LoRA es hasta un 40% menos costoso que QLoRA.
Mayor longitud de secuencia máxima QloRA Una mayor longitud máxima de secuencia aumenta el consumo de la memoria de GPU. QLoRA usa menos memoria de GPU para que pueda admitir longitudes de secuencia máximas más altas.
Mejora de precisión Igual Ambos métodos ofrecen mejoras de exactitud similares.
Mayor tamaño de lote QloRA QLoRA admite tamaños de lote mucho más altos. Por ejemplo, las siguientes son recomendaciones de tamaño del lote para ajustar openLLaMA-7B en las siguientes GPU:
  • 1 A100 40G:
    • LoRA: Se recomienda un tamaño de lote de 2.
    • QLoRA: Se recomienda un tamaño de lote de 24.
  • 1 x L4:
    • LoRA: El tamaño del lote de 1 falla con un error de memoria insuficiente (OOM).
    • QLoRA: Se recomienda un tamaño del lote de 12.
  • 1 x V100:
    • LoRA: El tamaño del lote de 1 falla con un error de memoria insuficiente (OOM).
    • QLoRA: Se recomienda un tamaño de lote de 8.

¿Qué sigue?