Scaling Instruction-Finetuned Language Models

¿Qué hay de nuevo?

FLAN1

Fuente de la imagen: Scaling Instruction-Finetuned Language Models (opens in a new tab)

Este documento explora los beneficios del escalado del ajuste de instrucciones (instruction finetuning (opens in a new tab)) y cómo mejora el rendimiento en una variedad de modelos (PaLM, T5), configuraciones de prompts (zero-shot, few-shot, CoT) y referencias (MMLU, TyDiQA). Esto se explora con los siguientes aspectos: escalar el número de tareas (1,8K tareas), escalar el tamaño del modelo y ajustar los datos en la cadena de pensamiento (se usaron 9 conjuntos de datos).

Procedimiento de finetuning:

  • 1.8K tareas se formularon como instrucciones y se usaron para ajustar el modelo
  • Se utilizan tanto con como sin ejemplos, y con y sin CoT

Se muestran las tareas de finetuning y las tareas retenidas a continuación:

FLAN11

Capacidades y resultados clave

  • El ajuste de instrucciones escala bien con el número de tareas y el tamaño del modelo; esto sugiere la necesidad de escalar el número de tareas y el tamaño del modelo aún más
  • Agregar conjuntos de datos CoT en el finetuning permite un buen rendimiento en tareas de razonamiento
  • Flan-PaLM tiene mejores habilidades multilingües; mejora del 14.9% en TyDiQA de una sola pasada; mejora del 8.1% en razonamiento aritmético en idiomas subrepresentados
  • Plan-PaLM también tiene un buen rendimiento en preguntas de generación abierta, lo que es un buen indicador de una mejor usabilidad
  • Mejora el rendimiento en referencias de IA responsable (RAI)
  • Los modelos de ajuste de instrucciones de Flan-T5 demuestran fuertes capacidades de few-shot y superan a los puntos de control públicos como T5

Los resultados al escalar el número de tareas de ajuste y el tamaño del modelo: se espera que la escalabilidad tanto del tamaño del modelo como del número de tareas de ajuste continúe mejorando el rendimiento, aunque la escalabilidad del número de tareas tiene retornos disminuidos.

FLAN2

Fuente de la imagen: Scaling Instruction-Finetuned Language Models (opens in a new tab)

Resultados al ajustar con datos no-CoT y CoT: El ajuste conjunto con datos no-CoT y CoT mejora el rendimiento en ambas evaluaciones, en comparación con el ajuste en solo uno u otro.

FLAN3

Fuente de la imagen: Scaling Instruction-Finetuned Language Models (opens in a new tab)

Además, la autoconsistencia combinada con CoT logra resultados de estado del arte en varios benchmarks. CoT + autoconsistencia también mejora significativamente los resultados en benchmarks que involucran problemas matemáticos (por ejemplo, MGSM, GSM8K).

FLAN4

Fuente de la imagen: Scaling Instruction-Finetuned Language Models (opens in a new tab)

El ajuste de CoT desbloquea el razonamiento sin ayuda (zero-shot), activado por la frase "pensemos paso a paso", en tareas de BIG-Bench. En general, Flan-PaLM CoT sin ayuda supera en rendimiento a PaLM CoT sin ajuste.

FLAN6

Fuente de la imagen: Scaling Instruction-Finetuned Language Models (opens in a new tab)

A continuación se presentan algunas demostraciones de CoT sin ayuda para PaLM y Flan-PaLM en tareas no vistas.

FLAN5

Fuente de la imagen: Scaling Instruction-Finetuned Language Models (opens in a new tab)

A continuación se presentan más ejemplos de prompts zero-shot. Muestra cómo el modelo PaLM tiene dificultades con las repeticiones y no responde a las instrucciones en el ajuste sin ayuda, mientras que Flan-PaLM puede desempeñarse bien. Los ejemplos con pocos ejemplos pueden mitigar estos errores.

FLAN7

Fuente de la imagen: Scaling Instruction-Finetuned Language Models (opens in a new tab)

A continuación se presentan algunos ejemplos que demuestran las capacidades sin ayuda (zero-shot) del modelo Flan-PaLM en varios tipos diferentes de preguntas abiertas complejas:

FLAN8

Fuente de la imagen: Scaling Instruction-Finetuned Language Models (opens in a new tab)

FLAN9

Fuente de la imagen: Scaling Instruction-Finetuned Language Models (opens in a new tab)

FLAN10

Fuente de la imagen: Scaling Instruction-Finetuned Language Models (opens in a new tab)

Puedes probar los modelos Flan-T5 en el Hugging Face Hub (opens in a new tab).