LLM Einstellungen
Beim Entwerfen und Testen von Prompts interagieren Sie normalerweise ĂŒber eine API mit dem LLM. Sie können einige Parameter konfigurieren, um unterschiedliche Ergebnisse fĂŒr Ihre Prompts zu erhalten. Das Anpassen dieser Einstellungen ist wichtig, um die ZuverlĂ€ssigkeit und ErwĂŒnschtheit der Antworten zu verbessern, und es bedarf des Experimentierens, um die richtigen Einstellungen fĂŒr Ihre AnwendungsfĂ€lle herauszufinden. Unten finden Sie die gĂ€ngigen Einstellungen, auf die Sie bei der Verwendung verschiedener LLM-Anbieter stoĂen werden:
Temperatur - Kurz gesagt, je niedriger die temperature
, desto deterministischer sind die Ergebnisse in dem Sinne, dass immer das wahrscheinlichste nĂ€chste Token gewĂ€hlt wird. Eine Erhöhung der Temperatur kann zu mehr ZufĂ€lligkeit fĂŒhren und damit vielfĂ€ltigere oder kreativere Ausgaben fördern. Sie erhöhen im Grunde das Gewicht der anderen möglichen Tokens. Im Hinblick auf die Anwendung möchten Sie vielleicht einen niedrigeren Temperaturwert fĂŒr Aufgaben wie faktenbasierte QA verwenden, um prĂ€zisere und knappere Antworten zu fördern. FĂŒr die Generierung von Gedichten oder andere kreative Aufgaben könnte es vorteilhaft sein, den Temperaturwert zu erhöhen.
Top P - Eine Stichprobentechnik mit Temperatur, bekannt als Nucleus Sampling, bei der Sie steuern können, wie deterministisch das Modell ist. Wenn Sie nach exakten und faktischen Antworten suchen, halten Sie diesen Wert niedrig. Wenn Sie nach vielfĂ€ltigeren Antworten suchen, erhöhen Sie ihn auf einen höheren Wert. Wenn Sie Top P verwenden, bedeutet das, dass nur die Token berĂŒcksichtigt werden, die die top_p
Wahrscheinlichkeitsmasse bilden, sodass ein niedriger top_p
Wert die selbstsichersten Antworten auswÀhlt. Dies bedeutet, dass ein hoher top_p
Wert es dem Modell ermöglicht, mehr mögliche Wörter zu betrachten, einschlieĂlich unwahrscheinlicher, was zu vielfĂ€ltigeren Ausgaben fĂŒhrt. Die allgemeine Empfehlung ist, entweder die Temperatur oder Top P zu Ă€ndern, aber nicht beides.
Maximale LĂ€nge (max length
) - Sie können die Anzahl der vom Modell generierten Tokens steuern, indem Sie max length
anpassen. Wenn Sie eine maximale LĂ€nge angeben, helfen Sie dabei, lange oder irrelevante Antworten zu verhindern und die Kosten zu kontrollieren.
Stop-Sequenzen (stop sequence
) - Eine stop sequence
ist eine Zeichenfolge, die das Modell daran hindert, weitere Tokens zu generieren. Die Angabe von Stop-Sequenzen ist eine weitere Möglichkeit, die LĂ€nge und Struktur der Antwort des Modells zu kontrollieren. Sie können zum Beispiel dem Modell sagen, dass es Listen generieren soll, die nicht mehr als 10 Elemente haben, indem Sie "11" als Stop-Sequenz hinzufĂŒgen.
Frequenzstrage (frequence penalty
) - Die frequency penalty
wendet eine Strafe auf das nÀchste Token an, die proportional dazu ist, wie oft dieses Token bereits in der Antwort und im Prompt aufgetaucht ist. Je höher die HÀufigkeitsstrafe, desto unwahrscheinlicher wird ein Wort erneut erscheinen. Diese Einstellung reduziert die Wiederholung von Wörtern in der Antwort des Modells, indem Tokens, die hÀufiger vorkommen, eine höhere Strafe bekommen.
Anwesenheitsstrafe (presence penalty
) - Die presence penalty
wendet ebenfalls eine Strafe auf wiederholte Token an, aber im Gegensatz zur Frequenzstrafe ist die Strafe fĂŒr alle wiederholten Token gleich. Ein Token, das zweimal und ein Token, das 10 Mal erscheint, werden gleich bestraft. Diese Einstellung verhindert, dass das Modell Phrasen zu oft in seiner Antwort wiederholt. Wenn Sie möchten, dass das Modell vielfĂ€ltigen oder kreativen Text generiert, möchten Sie vielleicht eine höhere Anwesenheitsstrafe verwenden. Oder, wenn Sie benötigen, dass das Modell fokussiert bleibt, versuchen Sie, eine niedrigere Anwesenheitsstrafe zu verwenden.
Ăhnlich wie bei temperature
und top_p
lautet die allgemeine Empfehlung, entweder die HÀufigkeitsstrafe oder die PrÀsenzstrafe zu verÀndern, nicht beides.
Bevor Sie mit einigen grundlegenden Beispielen beginnen, behalten Sie im Hinterkopf, dass Ihre Ergebnisse je nach Version des LLM, das Sie verwenden, variieren können.