Graduate Job Classification Case Study

Vastavalmistuneiden työluokittelun tapaustutkimus

Clavié ym., 2023 (opens in a new tab)-julkaisussa tutkitaan kehotesuunnittelun soveltamista tekstin luokittelutehtävässä tuotantojärjestelmässä. Tutkimuksessa selvitetään, onko tarjolla oleva työpaikka todellinen "aloitustason työ", joka sopii äskettäin valmistuneelle. He testaavat useita kehotesuunnittelutekniikoita ja raportoivat tuloksensa käyttäen GPT-3.5-mallia (gpt-3.5-turbo)

Tutkimus osoittaa, että LLM:t suoriutuvat paremmin kuin kaikki muut testatut mallit, mukaan lukien erittäin vahva vertailukohta DeBERTa-V3. gpt-3.5-turbo suoriutuu myös huomattavasti paremmin kuin vanhemmat GPT3-variantit kaikissa keskeisissä mittareissa, mutta sen tulosten jäsentämistä on tehostettava, koska sen kyky noudattaa mallipohjaa näyttää olevan heikompi kuin muiden varianttien.

Julkaisun keskeiset kehotesuunnitteluun liittyvät havainnot ovat:

  • Tehtävissä, joissa ei tarvita asiantuntijatietoa, vähäisen ohjauksen CoT -kehote suoriutui huonommin kuin nollaoppimisen kehote kaikissa kokeissa.
  • Kehotteen vaikutus oikean perustelun saamiseen on merkittävä. Mallin pyytäminen luokittelemaan annettu työpaikka johtaa F1-pistemäärään 65,6, kun taas malli saavuttaa kehotesuunnittelun jälkeen F1-pistemäärän 91,7
  • Mallin pakottaminen noudattamaan mallipohjaa heikentää suorituskykyä kaikissa tapauksissa (tämä käyttäytyminen katoaa GPT-4:llä, joka on julkaistu tutkimuksen jälkeen).
  • Monet pienet muutokset vaikuttavat suuresti suorituskykyyn.
    • Alla olevat taulukot näyttävät kaikki testatut muutokset.
    • Oikeiden ohjeiden antaminen ja keskeisten kohtien toistaminen näyttää olevan suurin suorituskyvyn ajuri.
    • Ihmisen nimen antaminen mallille ja siihen viittaaminen lisäsi F1-pistemäärää 0,6 pisteellä.

Testatut kehotemuokkaukset

Short nameDescription
BaselineProvide a a job posting and asking if it is fit for a graduate.
CoTGive a few examples of accurate classification before querying.
Zero-CoTAsk the model to reason step-by-step before providing its answer.
rawinstGive instructions about its role and the task by adding to the user msg.
sysinstGive instructions about its role and the task as a system msg.
bothinstSplit instructions with role as a system msg and task as a user msg.
mockGive task instructions by mocking a discussion where it acknowledges them.
reitReinforce key elements in the instructions by repeating them.
strictAsk the model to answer by strictly following a given template.
looseAsk for just the final answer to be given following a given template.
rightAsking the model to reach the right conclusion.
infoProvide additional information to address common reasoning failures.
nameGive the model a name by which we refer to it in conversation.
posProvide the model with positive feedback before querying it.

Kaikkien kehotemuokkausten suorituskykyvaikutus

PrecisionRecallF1Template Stickiness
Baseline61.270.665.679%
CoT72.685.178.487%
Zero-CoT75.588.381.465%
+rawinst8092.485.868%
+sysinst77.790.983.869%
+bothinst81.993.987.571%
+bothinst+mock83.395.188.874%
+bothinst+mock+reit83.895.589.375%
+bothinst+mock+reit+strict79.993.786.398%
+bothinst+mock+reit+loose80.594.887.195%
+bothinst+mock+reit+right8495.989.677%
+bothinst+mock+reit+right+info84.996.590.377%
+bothinst+mock+reit+right+info+name85.796.890.979%
+bothinst+mock+reit+right+info+name+pos86.99791.781%

Mallipohjan "stickiness" viittaa siihen, kuinka usein malli vastaa halutussa muodossa.