Fallstudie zur Klassifizierung von Absolventenjobs

Fallstudie zur Klassifizierung von Absolventenjobs

Clavié et al., 2023 (opens in a new tab) bieten eine Fallstudie zum Thema Prompt-Engineering, das auf einen mittelgroßen Anwendungsfall der Textklassifizierung in einem Produktionssystem angewandt wurde. Mit der Aufgabe, zu klassifizieren, ob ein Job wirklich eine "Einstiegsposition" ist, die für einen frischgebackenen Absolventen geeignet ist, oder nicht, bewerteten sie eine Reihe von Prompting-Techniken und berichten über ihre Ergebnisse unter Verwendung von GPT-3.5 (gpt-3.5-turbo).

Die Arbeit zeigt, dass LLMs alle anderen getesteten Modelle übertreffen, einschließlich einer extrem starken Ausgangsbasis in DeBERTa-V3. gpt-3.5-turbo übertrifft auch deutlich ältere GPT3-Varianten in allen Schlüsselmetriken, erfordert jedoch zusätzliches Output-Parsing, da seine Fähigkeit, sich an eine Vorlage zu halten, schlechter zu sein scheint als bei den anderen Varianten.

Die wichtigsten Erkenntnisse ihres Prompt-Engineering-Ansatzes sind:

  • Bei Aufgaben wie dieser, bei denen kein Expertenwissen erforderlich ist, erzielte Few-shot CoT-Prompting schlechtere Ergebnisse als Zero-shot-Prompting in allen Experimenten.
  • Der Einfluss des Prompts auf das Hervorrufen des richtigen Entscheidungsprozesses ist enorm. Wenn das Modell einfach darum gebeten wird, einen angegebenen Job zu klassifizieren, resultiert das in einer F1-Bewertung von 65,6, wohingegen das Modell nach dem Prompt-Engineering eine F1-Bewertung von 91,7 erreicht.
  • Der Versuch, das Modell dazu zu zwingen, sich strikt an eine Vorlage zu halten, senkt die Leistung in allen Fällen (dieses Verhalten verschwindet in frühen Tests mit GPT-4, die nach der Veröffentlichung der Studie stattfanden).
  • Viele kleine Änderungen haben eine unverhältnismäßig große Auswirkung auf die Leistung.
    • Die unten stehenden Tabellen zeigen alle getesteten Modifikationen.
    • Klare Anweisungen zu erteilen und die Schlüsselpunkte zu wiederholen, scheint der größte Leistungstreiber zu sein.
    • Etwas so Einfaches wie das Modell mit einem (menschlichen) Namen zu versehen und es als solches zu bezeichnen, erhöhte die F1-Bewertung um 0,6 Punkte.

Getestete Prompt-Modifikationen

KurzbezeichnungBeschreibung
BaselineStelle einen Stellenbeitrag zur Verfügung und frage, ob er für einen Absolventen geeignet ist.
CoTGib einige Beispiele für korrekte Klassifikationen an, bevor du eine Anfrage stellst.
Zero-CoTBitte das Modell, seine Überlegungen Schritt für Schritt darzulegen, bevor es seine Antwort gibt.
rawinstGib Anweisungen zu seiner Rolle und der Aufgabe, indem du sie zur Benutzernachricht hinzufügst.
sysinstGib Anweisungen zu seiner Rolle und der Aufgabe als Systemnachricht.
bothinstTeile die Anweisungen auf, mit der Rolle als Systemnachricht und der Aufgabe als Benutzernachricht.
mockGib Anweisungen zur Aufgabe, indem du eine Diskussion simulierst, in der es sie anerkennt.
reitVerstärke Schlüsselelemente in den Anweisungen durch ihre Wiederholung.
strictBitte das Modell, die Antwort strikt nach einer vorgegebenen Vorlage zu geben.
looseFrage nur nach der endgültigen Antwort, die einer gegebenen Vorlage folgen soll.
rightBitte das Modell, zur richtigen Schlussfolgerung zu kommen.
infoStelle zusätzliche Informationen zur Verfügung, um häufige Denkfehler anzugehen.
nameGib dem Modell einen Namen, mit dem wir uns im Gespräch darauf beziehen.
posGib dem Modell positives Feedback, bevor du eine Anfrage stellst.

Leistungsauswirkungen aller Prompt-Modifikationen

PräzisionGenauigkeitF1Template-Treue
Baseline61.270.665.679%
CoT72.685.178.487%
Zero-CoT75.588.381.465%
+rawinst8092.485.868%
+sysinst77.790.983.869%
+bothinst81.993.987.571%
+bothinst+mock83.395.188.874%
+bothinst+mock+reit83.895.589.375%
+bothinst+mock+reit+strict79.993.786.398%
+bothinst+mock+reit+loose80.594.887.195%
+bothinst+mock+reit+right8495.989.677%
+bothinst+mock+reit+right+info84.996.590.377%
+bothinst+mock+reit+right+info+name85.796.890.979%
+bothinst+mock+reit+right+info+name+pos86.99791.781%

Template-Treue bezieht sich darauf, wie häufig das Modell die Antwort im gewünschten Format gibt.