Platons Dialog bewerten
Hintergrund
Der folgende Prompt testet die FÀhigkeit eines LLM, die Ausgaben von zwei verschiedenen Modellen zu evaluieren, als ob es ein Lehrer wÀre.
Zuerst werden zwei Modelle (z.B. ChatGPT & GPT-4) mit dem folgenden Prompt angeregt:
Platons Gorgias ist eine Kritik der Rhetorik und der sophistischen Redekunst, in der er darauf hinweist, dass dies nicht nur keine angemessene Kunstform ist, sondern der Gebrauch von Rhetorik und Redekunst oft schÀdlich und bösartig sein kann. Können Sie einen Dialog von Platon schreiben, in dem er stattdessen die Nutzung von autoregressiven Sprachmodellen kritisiert?
Danach werden diese Ausgaben unter Verwendung des nachstehenden Bewertungs-Prompts evaluiert.
Prompt
Kannst du die beiden untenstehenden Ausgaben vergleichen, als ob du ein Lehrer wÀrst?
Ausgabe von ChatGPT: {Ausgabe 1}
Ausgabe von GPT-4: {Ausgabe 2}
Code / API
from openai import OpenAI
client = OpenAI()
response = client.chat.completions.create(
model="gpt-4",
messages=[
{
"role": "user",
"content": "Can you compare the two outputs below as if you were a teacher?\n\nOutput from ChatGPT:\n{output 1}\n\nOutput from GPT-4:\n{output 2}"
}
],
temperature=1,
max_tokens=1500,
top_p=1,
frequency_penalty=0,
presence_penalty=0
)