Graduate Job Classification Case Study

ケーススタディ: 新卒にふさわしい仕事の分類

Clavié et al., 2023 (opens in a new tab) は、プロダクションシステムにおける中規模なテキスト分類の応用にプロンプトエンジニアリングを適用した事例を掲載しています。彼らは、新卒のメンバーに割り当てる仕事として本当にふさわしいものであるかどうかを分類するというタスクを題材にして、 GPT-3.5 (gpt-3.5-turbo) を用いて一連のプロンプトエンジニアリング手法を評価しその結果を報告しました。

この取り組みは、 LLMs が他の DeBERTa-V3 の強力なベースラインも含めてテストされた他のすべてのモデルよりも優れていることを示しています。また gpt-3.5-turbo はすべての主要な指標で古い GPT3 のバリアントよりも優れていますが、テンプレートに従う能力が他のバリアントよりも劣るように見えるため、追加の出力解析が求められます。

彼らのプロンプトエンジニアリングのアプローチによる主要な発見は以下のとおりです。

  • このような専門家の知識が不要なタスクでは、すべての実験において Few-shot CoT プロンプティングは Zero-shot プロンプティングよりも悪いパフォーマンスでした。
  • 正しい推論を引き出すことにおいてプロンプトの影響は非常に大きいです。与えられた仕事を分類するだけのモデルでは F1 スコアが 65.6 であるのに対し、プロンプトエンジニアリング後のモデルでは F1 スコアが 91.7 を達成しています。
  • モデルを強制的にテンプレートに沿うようにすると、すべてのケースでパフォーマンスが低下します(この振る舞いは、論文の後半にある GPT-4 を使用した初期のテストでは見られません)。
  • 多くの小さな調整がパフォーマンスに多大な影響を与えます。
    • 以下のテーブルはテストされたすべての調整を示します。
    • 適切に指示を出し、重要なポイントを繰り返すことがパフォーマンスを最大限に引き出します。
    • モデルに(人間の)名前を付けて呼ぶだけで、 F1 スコアが 0.6pts 上昇しました。

テストされた調整プロンプトたち

Short nameDescription
Baseline求人情報を与えて、それが新卒に適した仕事であるかどうかを聞く。
CoTクエリを送信する前に、いくつかの正確な分類例を与える。
Zero-CoTその答えを与える前に、モデルにステップバイステップで推論してもらう。
rawinstそのユーザーのメッセージに追加して、その役割とタスクについて指示を与える。
sysinstシステムのメッセージに追加して、その役割とタスクについて指示を与える。
bothinstシステムのメッセージとしての役割とユーザーのメッセージとしてのタスクを使って指示を分割する。
mock認められた議論をモックして、タスクの指示を与える。
reit主要な要素を繰り返すことで強調する。
strict与えられたテンプレートに厳密に従うように求める。
loose与えられたテンプレートに従って、最終的な答えだけを求める。
right正しい結論に達することをモデルに求める。
info一般的な推論の間違いに対処するために、追加情報を与える。
name会話で使う呼び名をモデルに与える。
posクエリを送信する前に、ポジティブなフィードバックをモデルに与える。

調整プロンプトが与えるパフォーマンスへの影響

PrecisionRecallF1Template Stickiness
Baseline61.270.665.679%
CoT72.685.178.487%
Zero-CoT75.588.381.465%
+rawinst8092.485.868%
+sysinst77.790.983.869%
+bothinst81.993.987.571%
+bothinst+mock83.395.188.874%
+bothinst+mock+reit83.895.589.375%
+bothinst+mock+reit+strict79.993.786.398%
+bothinst+mock+reit+loose80.594.887.195%
+bothinst+mock+reit+right8495.989.677%
+bothinst+mock+reit+right+info84.996.590.377%
+bothinst+mock+reit+right+info+name85.796.890.979%
+bothinst+mock+reit+right+info+name+pos86.99791.781%

Template stickness はモデルがどれくらいの頻度で希望のフォーマットで答えるかを意味します。