🚀 Master Prompt Engineering and building AI Agents in our NEW courses! Use PROMPTING20 for 20% off ➜ Enroll now
Flan

Escalat de models de llenguatge amb ajust fi per instruccions

Què hi ha de nou?

FLAN1

Font de la imatge: Scaling Instruction-Finetuned Language Models (opens in a new tab)

Aquest article explora els avantatges de l'escalat de l'ajust fi per instruccions (opens in a new tab) i com millora el rendiment en una varietat de models (PaLM, T5), configuracions de sol·licitud (zero-shot, few-shot, CoT) i avaluacions (MMLU, TyDiQA). Això s'explora amb els següents aspectes: escalat del nombre de tasques (1.8K tasques), escalat de la mida del model i ajust fi en dades de cadena de pensament (9 conjunts de dades utilitzats).

Procediment d'ajust fi:

  • Es van formular 1.8K tasques com a instruccions i es van utilitzar per ajustar fi el model.
  • S'utilitzen amb i sense exemplars, i amb i sense CoT.

A continuació es mostren les tasques d'ajust fi i les tasques retingudes:

FLAN11

Capacitats i resultats clau

  • L'ajust fi per instruccions escala bé amb el nombre de tasques i la mida del model; això suggereix la necessitat d'escalar encara més el nombre de tasques i la mida del model.
  • Afegir conjunts de dades CoT a l'ajust fi permet obtenir un bon rendiment en tasques de raonament.
  • Flan-PaLM té millorades habilitats multilingües; 14,9% de millora en TyDiQA amb un sol exemple; 8,1% de millora en raonament aritmètic en llengües poc representades.
  • El Plan-PaLM també funciona bé en preguntes de generació obertes, la qual cosa és un bon indicador de millora en la usabilitat.
  • Millora el rendiment en les avaluacions de IA responsable (RAI).
  • Els models Flan-T5 ajustats per instruccions demostren fortes capacitats de few-shot i superen els punts de control públics com T5.

Els resultats quan s'escala el nombre de tasques d'ajust fi i la mida del model: s'espera que escalar tant la mida del model com el nombre de tasques d'ajust fi continuï millorant el rendiment, encara que escalar el nombre de tasques té rendiments decreixents.

FLAN2

Font de la imatge: Scaling Instruction-Finetuned Language Models (opens in a new tab)

Els resultats quan s'ajusta fi amb dades no-CoT i CoT: ajustar-se conjuntament en dades no-CoT i CoT millora el rendiment en ambdues avaluacions, en comparació amb ajustar-se només en una o l'altra.

FLAN3

Font de la imatge: Scaling Instruction-Finetuned Language Models (opens in a new tab)

A més, la consistència pròpia combinada amb CoT aconsegueix resultats SoTA en diversos avaluacions. CoT + autoconsistència també millora significativament els resultats en avaluacions que involucren problemes matemàtics (per exemple, MGSM, GSM8K).

FLAN4

Font de la imatge: Scaling Instruction-Finetuned Language Models (opens in a new tab)

L'ajust fi CoT desbloqueja el raonament en zero-shot, activat per la frase "anem a pensar pas a pas", en tasques BIG-Bench. En general, el Flan-PaLM zero-shot CoT supera el PaLM zero-shot CoT sense ajust fi.

FLAN6

Font de la imatge: Scaling Instruction-Finetuned Language Models (opens in a new tab)

A continuació es mostren algunes demostracions de CoT zero-shot per a PaLM i Flan-PaLM en tasques no vistes.

FLAN5

Font de la imatge: Scaling Instruction-Finetuned Language Models (opens in a new tab)

A continuació es mostren més exemples de sol·licitud zero-shot. Es mostra com el model PaLM té problemes amb les repeticions i no respon a les instruccions en l'entorn zero-shot, mentre que el Flan-PaLM és capaç de funcionar bé. Els exemplars de few-shot poden mitigar aquests errors.

FLAN7

Font de la imatge: Scaling Instruction-Finetuned Language Models (opens in a new tab)

A continuació es mostren alguns exemples que demostren més capacitats zero-shot del model Flan-PALM en diversos tipus de preguntes obertes i desafiantes:

FLAN8

Font de la imatge: Scaling Instruction-Finetuned Language Models (opens in a new tab)

FLAN9

Font de la imatge: Scaling Instruction-Finetuned Language Models (opens in a new tab)

FLAN10

Font de la imatge: Scaling Instruction-Finetuned Language Models (opens in a new tab)

Podeu provar els models Flan-T5 a Hugging Face Hub (opens in a new tab).