Estudi de cas de classificació de feines per a graduats

Clavié et al., 2023 (opens in a new tab) proporcionen un estudi de cas sobre l'enginyeria de prompts aplicada a un cas d'ús de classificació de text a escala mitjana en un sistema de producció. Utilitzant la tasca de classificar si una feina és veritablement una "feina d'inici", adequada per a un graduat recent, o no, van avaluar una sèrie de tècniques d'enginyeria de prompts i informen dels seus resultats utilitzant GPT-3.5 (gpt-3.5-turbo).

El treball mostra que els LLMs superen tots els altres models provats, inclosa una base de comparació molt sòlida amb DeBERTa-V3. gpt-3.5-turbo també supera notablement les variants anteriors de GPT3 en totes les mètriques clau, però requereix una anàlisi addicional de la sortida, ja que la seva capacitat per seguir una plantilla sembla ser pitjor que les altres variants.

Els resultats clau de la seva aproximació a l'enginyeria de prompts són:

Per a tasques com aquesta, on no es requereix coneixement expert, el Few-shot CoT prompting va obtenir pitjors resultats que el Zero-shot prompting en tots els experiments.
L'impacte del prompt per obtenir el raonament correcte és enorme. Simplement demanant al model que classifiqui una feina determinada, es produeix una puntuació F1 de 65,6, mentre que el model post-enganieria de prompts aconsegueix una puntuació F1 de 91,7.
Intentar forçar el model a seguir una plantilla redueix el rendiment en tots els casos (aquest comportament desapareix en les proves preliminars amb GPT-4, que són posteriors al document).
Moltes petites modificacions tenen un impacte considerable en el rendiment.
- Les taules a continuació mostren totes les modificacions provades.
- Donar instruccions correctes i repetir els punts clau sembla ser el principal impulsor del rendiment.
- Alguna cosa tan senzilla com donar al model un nom (humà) i referir-se a ell com a tal augmenta la puntuació F1 en 0,6 punts.

Modificacions de prompts provades

Nom curt	Descripció
Base	Proporcionar una oferta de feina i preguntar si és adequada per a un graduat.
CoT	Donar alguns exemples de classificació precisa abans de consultar.
Zero-CoT	Demanar al model que raoni pas a pas abans de proporcionar la seva resposta.
rawinst	Donar instruccions sobre el seu rol i la tasca afegint al missatge de l'usuari.
sysinst	Donar instruccions sobre el seu rol i la tasca com a missatge de sistema.
bothinst	Repartir les instruccions amb el rol com a missatge de sistema i la tasca com a missatge d'usuari.
mock	Donar instruccions de la tasca simulant una discussió on el model les reconeix.
reit	Reforçar els elements clau de les instruccions repetint-los.
strict	Demanar al model que respongui seguint estrictament una plantilla donada.
loose	Demanar que només la resposta final es doni seguint una plantilla donada.
right	Demanar al model que arribi a la conclusió correcta.
info	Proporcionar informació addicional per abordar errors de raonament comuns.
name	Donar al model un nom pel qual ens referim a ell en la conversa.
pos	Proporcionar retroalimentació positiva al model abans de consultar-lo.

Impacte en el rendiment de totes les modificacions de prompts

	Precisió	Sensibilitat	F1	Adherència a la plantilla
Base	61,2	70,6	65,6	79%
CoT	72,6	85,1	78,4	87%
Zero-CoT	75,5	88,3	81,4	65%
+rawinst	80	92,4	85,8	68%
+sysinst	77,7	90,9	83,8	69%
+bothinst	81,9	93,9	87,5	71%
+bothinst+mock	83,3	95,1	88,8	74%
+bothinst+mock+reit	83,8	95,5	89,3	75%
+bothinst+mock+reit+strict	79,9	93,7	86,3	98%

Generació de Codi Prompt Function