Prompt Zero-shot

Prompt Zero-Shot

I grandi LLM di oggi, come GPT-3, sono regolati per seguire le istruzioni e sono addestrati su grandi quantità di dati; quindi sono in grado di eseguire alcuni compiti "zero-shot".

Nella sezione precedente abbiamo provato alcuni esempi zero-shot. Ecco uno degli esempi utilizzati: Prompt:

Classificare il testo in neutro, negativo o positivo. 

Testo: Penso che le vacanze siano ok.
Sentimento:

Output:

Neutro

Si noti che nel prompt non abbiamo fornito al modello alcun esempio di testo insieme alle relative classificazioni; l'LLM capisce già il "sentiment": si tratta delle capacità zero-shot al lavoro.

La messa a punto delle istruzioni ha dimostrato di migliorare l'apprendimento zero-shot Wei et al. (2022) (opens in a new tab). La messa a punto delle istruzioni è essenzialmente il concetto di perfezionamento dei modelli su insiemi di dati descritti tramite istruzioni. Inoltre, l'RLHF (opens in a new tab) (reinforcement learning from human feedback, apprendimento per rinforzo dal feedback umano) è stato adottato per scalare la messa a punto delle istruzioni, in cui il modello viene allineato per adattarsi meglio alle preferenze umane. Questo recente sviluppo alimenta modelli come ChatGPT. Discuteremo tutti questi approcci e metodi nelle prossime sezioni.

Quando zero-shot non funziona, si raccomanda di fornire dimostrazioni o esempi nel prompt, il che porta ai prompt few-shot. Nella prossima sezione mostreremo i prompt few-shot.