Claude 3

Anthropic kündigt Claude 3 an, ihre neue Modellfamilie, die Claude 3 Haiku, Claude 3 Sonnett und Claude 3 Opus umfasst.

Claude 3 Opus (das stärkste Modell) wird berichtet, dass es GPT-4 und alle anderen Modelle in gängigen Benchmarks wie MMLU und HumanEval übertrifft.

Ergebnisse und Fähigkeiten

Die Fähigkeiten von Claude 3 beinhalten fortgeschrittenes Schlussfolgern, Basis-Mathematik, Analyse, Datenextraktion, Prognostizierung, Inhalteerstellung, Code-Generierung und das Umwandeln in nicht-englische Sprachen wie Spanisch, Japanisch und Französisch. Die nachfolgende Tabelle zeigt, wie Claude 3 im Vergleich zu anderen Modellen bei mehreren Benchmarks abschneidet, wobei Claude 3 Opus alle genannten Modelle übertrifft:

"Claude 3 Benchmarks"

Claude 3 Haiku ist das schnellste und kosteneffizienteste Modell der Serie. Claude 3 Sonnett ist 2x schneller als vorherige Iterationen von Claude und Opus ist so schnell wie Claude 2.1 mit überlegenen Fähigkeiten.

Die Claude 3 Modelle bieten Unterstützung für 200K Kontextfenster, können aber auf 1M Tokens für ausgewählte Kunden erweitert werden. Claude 3 Opus erreichte nahezu perfektes Recall beim Needle In A Haystack (NIAH) Evaluation, die die Fähigkeit des Modells misst, Informationen in einem großen Korpus zu erinnern und lange Kontext-Prompts effektiv zu verarbeiten.

Die Modelle verfügen auch über starke Vision-Fähigkeiten für das Verarbeiten von Formaten wie Fotos, Diagrammen und Grafiken.

"Claude 3 Vision Capabilities"

Anthropic behauptet ebenfalls, dass diese Modelle ein nuancierteres Verständnis von Anfragen haben und seltener Ablehnungen vornehmen. Opus zeigt auch signifikante Verbesserungen bei der Beantwortung von faktischen Fragen bei offenen Fragen und verringert falsche Antworten oder Halluzinationen. Die Claude 3 Modelle sind auch besser als die Claude 2 Modelle bei der Erzeugung strukturierter Ausgaben wie JSON-Objekte.

Referenzen

ChatGPT Code Llama