LLM-Sammlung

LLM-Sammlung

Dieser Abschnitt besteht aus einer Sammlung und Zusammenfassung bemerkenswerter und grundlegender LLMs (Large Language Models).

Modelle

ModellVeröffentlichungsdatumGröße (B)CheckpointsBeschreibung
Falcon LLM (opens in a new tab)Sep 20237, 40, 180Falcon-7B (opens in a new tab), Falcon-40B (opens in a new tab), Falcon-180B (opens in a new tab)Falcon LLM ist ein grundlegendes Large Language Model mit 180 Milliarden Parametern, trainiert mit 3500 Milliarden Tokens. TII hat nun Falcon LLM veröffentlicht – ein 180B-Modell.
Mistral-7B-v0.1 (opens in a new tab)Sep 20237Mistral-7B-v0.1 (opens in a new tab)Mistral-7B-v0.1 ist ein vortrainiertes generatives Textmodell mit 7 Milliarden Parametern. Das Modell basiert auf einer Transformer-Architektur mit Funktionen wie Grouped-Query Attention, Byte-fallback BPE Tokenizer und Sliding-Window Attention.
CodeLlama (opens in a new tab)Aug 20237, 13, 34CodeLlama-7B (opens in a new tab), CodeLlama-13B (opens in a new tab), CodeLlama-34B (opens in a new tab)Die Code Llama-Familie ist für die allgemeine Synthese und das Verständnis von Code konzipiert. Sie ist speziell für das Befolgen von Anweisungen und sichereren Einsatz optimiert. Die Modelle sind autoregressiv und verwenden eine optimierte Transformer-Architektur. Sie sind für kommerzielle und Forschungszwecke in Englisch und relevanten Programmiersprachen vorgesehen.
Llama-2 (opens in a new tab)Jul 20237, 13, 70Llama-2-7B (opens in a new tab), Llama-2-13B (opens in a new tab), Llama-2-70B (opens in a new tab)LLaMA-2, entwickelt von Meta AI, wurde im Juli 2023 mit Modellen von 7, 13 und 70 Milliarden Parametern veröffentlicht. Es behält eine ähnliche Architektur wie LLaMA-1, verwendet aber 40 % mehr Trainingsdaten. LLaMA-2 umfasst grundlegende Modelle und dialogoptimierte Modelle, bekannt als LLaMA-2 Chat, und steht für viele kommerzielle Anwendungen zur Verfügung, allerdings mit einigen Einschränkungen.
XGen-7B-8K (opens in a new tab)Jul 20237XGen-7B-8K (opens in a new tab)Das von Salesforce AI Research entwickelte XGen-7B-8K ist ein Sprachmodell mit 7 Milliarden Parametern.
Claude-2 (opens in a new tab)Jul 2023130-Claude 2 ist ein grundlegendes LLM, das von Anthropic entwickelt wurde und sicherer und "steuerbarer" als seine Vorgängerversion sein soll. Es ist konversationsfähig und kann für eine Vielzahl von Aufgaben wie Kundensupport, Q&A und mehr verwendet werden. Es kann große Textmengen verarbeiten und eignet sich gut für Anwendungen, die umfangreiche Daten wie Dokumente, E-Mails, FAQs und Chat-Transkripte verarbeiten müssen.
Tulu (opens in a new tab)Jun 20237, 13, 30, 65Tulu-7B (opens in a new tab), Tulu-13B (opens in a new tab) Tulu-30B (opens in a new tab), Tulu-65B (opens in a new tab)Tulu ist eine Modellfamilie, die vom Allen Institute for AI entwickelt wurde. Die Modelle sind LLaMa-Modelle, die auf einer Mischung von Anweisungsdatensätzen feinabgestimmt wurden, darunter FLAN V2, CoT, Dolly, Open Assistant 1, GPT4-Alpaca, Code-Alpaca und ShareGPT. Sie sind darauf ausgelegt, komplexe Anweisungen bei verschiedenen NLP-Aufgaben zu befolgen.
ChatGLM2-6B (opens in a new tab)Jun 20236ChatGLM2-6B (opens in a new tab)ChatGLM2-6B ist die zweite Generation des quelloffenen zweisprachigen (Chinesisch-Englisch) Chat-Modells ChatGLM-6B. Es zeigt verbesserte Leistungen, längere Kontextfähigkeiten, effizientere Inferenz und eine offene Lizenz für akademische und kommerzielle Nutzung. Das Modell verwendet eine hybride Zielfunktion und wurde mit 1,4 Billionen zweisprachigen Tokens trainiert. Es zeigt erhebliche Verbesserungen in der Leistung auf verschiedenen Datensätzen im Vergleich zu seinem Vorgängermodell.
Nous-Hermes-13B (opens in a new tab)Jun 202313Nous-Hermes-13B (opens in a new tab)Nous-Hermes-13B ist ein von Nous Research feinabgestimmtes Sprachmodell mit über 300.000 Anweisungen.
Baize-v2 (opens in a new tab)May 20237, 13Baize-v2-13B (opens in a new tab)Baize-v2 ist ein Open-Source-Chat-Modell, das von UCSD und Sun Yat-Sen University entwickelt wurde und mit LoRA feinabgestimmt sowie mit überwachtem Feinabstimmen (SFT) und Selbstdestillation mit Feedback (SDF) trainiert wurde.
RWKV-4-Raven (opens in a new tab)May 20231.5, 3, 7, 14RWKV-4-Raven (opens in a new tab)RWKV-4-Raven ist eine Serie von Modellen. Diese Modelle wurden auf verschiedenen Datensätzen wie Alpaca, CodeAlpaca, Guanaco, GPT4All und ShareGPT feinabgestimmt. Sie folgen einer zu 100 % RNN-Architektur für das Sprachmodell.
Guanaco (opens in a new tab)May 20237, 13, 33, 65Guanaco-7B (opens in a new tab), Guanaco-13B (opens in a new tab), Guanaco-33B (opens in a new tab) Guanaco-65B (opens in a new tab)Guanaco-Modelle sind Open-Source-Chatbots, die durch 4-Bit-QLoRA-Tuning von LLaMA-Basismodellen auf dem OASST1-Datensatz feinabgestimmt wurden. Sie sind für Forschungszwecke vorgesehen. Die Modelle ermöglichen kostengünstige und lokale Experimente mit hochwertigen Chatbot-Systemen.
PaLM 2 (opens in a new tab)May 2023--Ein Sprachmodell, das bessere multilinguale und logische Fähigkeiten hat und recheneffizienter ist als sein Vorgänger PaLM.
Gorilla (opens in a new tab)May 20237Gorilla (opens in a new tab)Gorilla: Großes Sprachmodell verbunden mit massiven APIs
RedPajama-INCITE (opens in a new tab)May 20233, 7RedPajama-INCITE (opens in a new tab)Eine Modellfamilie, die Basis-, an Anweisungen angepasste und Chat-Modelle umfasst.
LIMA (opens in a new tab)May 202365-Ein 65 Milliarden Parameter großes LLaMa-Sprachmodell, das mit dem standardmäßigen überwachten Verlust nur auf 1.000 sorgfältig kuratierten Prompts und Antworten feinabgestimmt wurde, ohne jegliches Reinforcement Learning oder Modellierung von menschlichen Präferenzen.
Replit Code (opens in a new tab)May 20233Replit Code (opens in a new tab)replit-code-v1-3b-Modell ist ein 2,7 Milliarden LLM, trainiert auf 20 Sprachen aus dem Stack Dedup v1.2-Datensatz.
h2oGPT (opens in a new tab)May 20237, 12, 20, 40h2oGPT (opens in a new tab)h2oGPT ist ein LLM-Feinabstimmungs-Rahmenwerk und Chatbot-UI mit der Fähigkeit zur Dokumentenfrage-Antwort.
CodeGen2 (opens in a new tab)May 20231, 3, 7, 16CodeGen2 (opens in a new tab)Code-Modelle für die Programmsynthese.
CodeT5 und CodeT5+ (opens in a new tab)May 202316CodeT5 (opens in a new tab)CodeT5 und CodeT5+-Modelle für Code-Verständnis und -Generierung von Salesforce Research.
StarCoder (opens in a new tab)May 202315StarCoder (opens in a new tab)StarCoder: Ein State-of-the-Art LLM für Code
MPT (opens in a new tab)May 20237, 30MPT-7B (opens in a new tab), MPT-30B (opens in a new tab)MPT-Modelle von MosaicML sind quelloffene kommerziell lizenzierte Large Language Models, die optimierte KI-Lösungen für verschiedene NLP-Aufgaben bieten.
DLite (opens in a new tab)May 20230.124 - 1.5DLite-v2-1.5B (opens in a new tab)Leichtgewichtige modelle nach Anleitung, die Interaktivität im Stil von ChatGPT zeigen.
WizardLM (opens in a new tab)Apr. 202370, 30, 13WizardLM-13B (opens in a new tab), WizardLM-30B (opens in a new tab), WizardLM-70B (opens in a new tab)WizardLM ist eine Familie von großen Sprachmodellen, die darauf ausgelegt sind, komplexe Anweisungen zu befolgen. Die Modelle leisten gute Arbeit in den Bereichen Programmierung, mathematisches Denken und offene Gespräche. Sie sind lizenzfreundlich und übernehmen ein Prompt-Format von Vicuna für mehrzügige Konversationen. Die Modelle wurden vom WizardLM-Team entwickelt und sind für verschiedene NLP-Aufgaben konzipiert.
FastChat-T5-3B (opens in a new tab)Apr. 20233FastChat-T5-3B (opens in a new tab)FastChat-T5 ist ein Open-Source-Chatbot, der durch Feinabstimmung von Flan-t5-xl (mit 3 Milliarden Parametern) auf von Benutzern geteilten Gesprächen, die von ShareGPT gesammelt wurden, trainiert wurde. Es basiert auf einer Encoder-Decoder-Transformer-Architektur und kann autoregressiv Antworten auf Eingaben der Benutzer generieren.
GPT4All-13B-Snoozy (opens in a new tab)Apr. 202313GPT4All-13B-Snoozy (opens in a new tab)GPT4All-13B-Snoozy ist ein GPL-lizenzierter Chatbot, der über ein massives, kuratiertes Korpus an Assistenteninteraktionen trainiert wurde, einschließlich Wortproblemen, mehrzügigem Dialog, Code, Gedichten, Liedern und Geschichten. Es wurde ausgehend von LLama 13B feinabgestimmt und ist von Nomic AI entwickelt worden. Das Modell ist für interaktive Assistentendaten ausgelegt und hauptsächlich auf Englisch.
Koala-13B (opens in a new tab)Apr. 202313Koala-13B (opens in a new tab)Koala-13B ist ein Chatbot, der von Berkeley AI Research (BAIR) erstellt wurde. Er wurde feinabgestimmt auf LLama von Meta und konzentriert sich auf Dialogdaten, die aus dem Web geschabt wurden. Das Modell zielt darauf ab, Leistung und Kosten auszugleichen, indem es eine leichtere, Open-Source-Alternative zu Modellen wie ChatGPT bietet. Es wurde auf Interaktionsdaten trainiert, die Gespräche mit hochfähigen, proprietären Modellen wie ChatGPT einschließen.
OpenAssistant (Llama-Familie) (opens in a new tab)Apr. 202330, 70Llama2-30b-oasst (opens in a new tab), Llama2-70b-oasst (opens in a new tab)OpenAssistant-LLaMA-Modelle sind Sprachmodelle aus der Arbeit von OpenAssistant an den Llama-Modellen. Sie unterstützen CPU + GPU-Inferenz mithilfe des GGML-Formats und zielen darauf ab, eine Open-Source-Alternative für Aufgaben zu bieten, bei denen Anweisungen befolgt werden müssen.
Dolly (opens in a new tab)Apr. 20233, 7, 12Dolly-v2-3B (opens in a new tab), Dolly-v2-7B (opens in a new tab), Dolly-v2-12B (opens in a new tab)Ein anweisungsbefolgendes LLM, das von einem menschlich generierten Anweisungsdatensatz lizenziert für Forschung und kommerzielle Nutzung feinabgestimmt wurde.
StableLM (opens in a new tab)Apr. 20233, 7StableLM-Alpha-3B (opens in a new tab), StableLM-Alpha-7B (opens in a new tab)Die Serie von Sprachmodellen StableLM von Stability AI
Pythia (opens in a new tab)Apr. 20230.070 - 12Pythia (opens in a new tab)Eine Suite von 16 LLMs, die alle anhand öffentlicher Daten trainiert wurden, die in exakter derselben Reihenfolge zu sehen sind und in der Größe von 70M bis 12B Parametern variieren.
Open Assistant (Pythia-Familie) (opens in a new tab)März 202312Open Assistant (opens in a new tab)OpenAssistant ist ein Chat-basierter Assistent, der Aufgaben versteht, mit Drittsystemen interagieren kann und dynamisch Informationen abrufen kann, um dies zu tun.
Med-PaLM 2 (opens in a new tab)März 2023--Auf dem Weg zu Experten-Ebene medizinisches Frage-Antworten mit großen Sprachmodellen
ChatGLM-6B (opens in a new tab)März 20236ChatGLM-6B (opens in a new tab)ChatGLM-6B ist ein Open-Source, zweisprachiges (Chinesisch-Englisches) Dialogmodell auf Basis der General Language Model (GLM)-Architektur mit 6,2 Milliarden Parametern. Trotz seiner geringen Größe, die einige faktische oder mathematisch-logische Probleme verursacht, ist es geschickt für chinesische Frage-Antwort-Aufgaben, Zusammenfassungen und konversationelle Aufgaben aufgrund seines Trainings an über 1 Billion englischen und chinesischen Tokens.
GPT-3.5-turbo (opens in a new tab)März 2023175-GPT-3.5-Turbo ist OpenAIs fortgeschrittenes Sprachmodell, das für Chats optimiert ist, aber auch gut für traditionelle Vervollständigungsaufgaben funktioniert. Es bietet eine bessere Leistung in allen Aspekten im Vergleich zu GPT-3 und ist 10-mal kostengünstiger pro Token.
Vicuna (opens in a new tab)März 20237, 13, 33Vicuna-7B (opens in a new tab), Vicuna-13B (opens in a new tab)Vicuna ist eine Familie von autoregressiven Sprachmodellen, basierend auf der Transformer-Architektur. Sie wurden von LLaMA feinabgestimmt und sind hauptsächlich für Forschung an großen Sprachmodellen und Chatbots gedacht. Sie wurden von LMSYS entwickelt und haben eine nicht-kommerzielle Lizenz.
Alpaca-13B (opens in a new tab)März 202313-Alpaca ist ein anweisungsbefolgendes Sprachmodell, das von Meta's LLaMA 7B feinabgestimmt wurde. Es ist für akademische Forschung konzipiert, um Themen wie Fehlinformationen und Toxizität anzugehen. Alpaca wurde anhand von 52K anweisungsbefolgenden Demonstrationen trainiert und zielt darauf ab, eine zugänglichere Option für akademische Studien zu sein. Es ist aufgrund von Lizenz- und Sicherheitsbedenken nicht für kommerzielle Zwecke gedacht.
Claude-1 (opens in a new tab)März 2023137-Claude ist ein grundlegendes großes Sprachmodell (LLM), das von Anthropic entwickelt wurde. Es soll als hilfreicher, ehrlicher und harmloser KI-Assistent dienen. Es kann eine Vielzahl von konversationellen und Textverarbeitungsaufgaben durchführen und ist über eine Chat-Schnittstelle und API zugänglich.
Cerebras-GPT (opens in a new tab)März 20230.111 - 13Cerebras-GPT (opens in a new tab)Cerebras-GPT: Offene Computer-optimierte Sprachmodelle, trainiert auf dem Cerebras Wafer-Scale-Cluster
BloombergGPT (opens in a new tab)März 202350-BloombergGPT: Ein großes Sprachmodell für die Finanzbranche
PanGu-Σ (opens in a new tab)März 20231085-PanGu-Σ: Hin zu einem Billion-Parameter-Sprachmodell mit sparsamer heterogener Berechnung
GPT-4 (opens in a new tab)März 2023--Technischer Bericht zu GPT-4
LLaMA (opens in a new tab)Feb. 20237, 13, 33, 65LLaMA (opens in a new tab)LLaMA: Offene und effiziente Grundlagensprachmodelle
ChatGPT (opens in a new tab)Nov. 2022--Ein Modell namens ChatGPT, das auf konversationelle Weise interagiert. Das Dialogformat ermöglicht es ChatGPT, Folgefragen zu beantworten, Fehler einzugestehen, falsche Prämissen in Frage zu stellen und unangemessene Anfragen abzulehnen.
Galactica (opens in a new tab)Nov. 20220.125 - 120Galactica (opens in a new tab)Galactica: Ein großes Sprachmodell für die Wissenschaft
mT0 (opens in a new tab)Nov. 202213mT0-xxl (opens in a new tab)Crosslinguale Generalisierung durch Multitask Feinabstimmung
BLOOM (opens in a new tab)Nov. 2022176BLOOM (opens in a new tab)BLOOM: Ein 176-Milliarden-Parameter-Open-Access-Mehrsprachiges Sprachmodell
U-PaLM (opens in a new tab)Okt. 2022540-Überwindung von Skalierungsgesetzen mit 0,1% zusätzlicher Rechenleistung
UL2 (opens in a new tab)Okt. 202220UL2, Flan-UL2 (opens in a new tab)UL2: Vereinigung von Sprachlernparadigmen
Sparrow (opens in a new tab)Sep. 202270-Verbesserung der Ausrichtung von Dialogagenten über gezielte menschliche Beurteilungen
Flan-T5 (opens in a new tab)Okt. 202211Flan-T5-xxl (opens in a new tab)Skalierung von anweisungsfreinabgestimmten Sprachmodellen
AlexaTM (opens in a new tab)Aug. 202220-AlexaTM 20B: Few-Shot-Lernen mit einem großangelegten, mehrsprachigen Seq2Seq-Modell
GLM-130B (opens in a new tab)Okt. 2022130GLM-130B (opens in a new tab)GLM-130B: Ein offenes, zweisprachiges vortrainiertes Modell
OPT-IML (opens in a new tab)Dez. 202230, 175OPT-IML (opens in a new tab)OPT-IML: Skalierung von Sprachmodell-Anweisungs-Metallernen durch die Linse der Generalisierung
OPT (opens in a new tab)Mai 2022175OPT-13B (opens in a new tab), OPT-66B (opens in a new tab)OPT: Open Pre-trained Transformer Sprachmodelle
PaLM (opens in a new tab)Apr. 2022540-PaLM: Skalierung von Sprachmodellierung mit Pathways
Tk-Instruct (opens in a new tab)Apr. 202211Tk-Instruct-11B (opens in a new tab)Super-NaturalInstructions: Generalisierung über deklarative Anweisungen zu 1600+ NLP-Aufgaben
GPT-NeoX-20B (opens in a new tab)Apr. 202220GPT-NeoX-20B (opens in a new tab)GPT-NeoX-20B: Ein Open-Source-Autoregressives Sprachmodell
Chinchilla (opens in a new tab)März 202270-Zeigt, dass die besten Ergebnisse bei einem Rechenbudget nicht von den größten Modellen, sondern von kleineren Modellen erzielt werden, die mit mehr Daten trainiert werden.
InstructGPT (opens in a new tab)März 2022175-Training von Sprachmodellen, um Anweisungen mit menschlichem Feedback zu befolgen
CodeGen (opens in a new tab)März 20220.350 - 16CodeGen (opens in a new tab)CodeGen: Ein offenes großes Sprachmodell für Code mit mehrstufiger Programmsynthese
AlphaCode (opens in a new tab)Feb. 202241-Wettbewerbsfähige Codeerzeugung mit AlphaCode
MT-NLG (opens in a new tab)Jan 2022530-Verwendung von DeepSpeed und Megatron zur Schulung von Megatron-Turing NLG 530B, einem großflächigen generativen Sprachmodell
LaMDA (opens in a new tab)Jan 2022137-LaMDA: Sprachmodelle für Dialoganwendungen
GLaM (opens in a new tab)Dez 20211200-GLaM: Effiziente Skalierung von Sprachmodellen mit Mixture-of-Experts
Gopher (opens in a new tab)Dez 2021280-Skalierung von Sprachmodellen: Methoden, Analyse & Einsichten aus dem Training von Gopher
WebGPT (opens in a new tab)Dez 2021175-WebGPT: Browsergestützte Frage-Antwort-Systeme mit menschlichem Feedback
Yuan 1.0 (opens in a new tab)Okt 2021245-Yuan 1.0: Großflächiges vortrainiertes Sprachmodell im Zero-Shot- und Few-Shot-Learning
T0 (opens in a new tab)Okt 202111T0 (opens in a new tab)Multitask Prompt-Anweisungen ermöglichen die Generalisierung von Aufgaben ohne Beispiele
FLAN (opens in a new tab)Sep 2021137-Feinabgestimmte Sprachmodelle sind Lerner ohne Beispiele
HyperCLOVA (opens in a new tab)Sep 202182-Welche Veränderungen können großflächige Sprachmodelle mit sich bringen? Intensive Studie über HyperCLOVA: generative vortrainierte Transformer in koreanischer Sprache im Milliarden-Maßstab
ERNIE 3.0 Titan (opens in a new tab)Jul 202110-ERNIE 3.0 Titan: Erforschung vortrainierter Sprachmodelle im größeren Maßstab mit Wissensverstärkung für das Sprachverständnis und die Generierung
Jurassic-1 (opens in a new tab)Aug 2021178-Jurassic-1: Technische Details und Bewertung
ERNIE 3.0 (opens in a new tab)Jul 202110-ERNIE 3.0: Wissensgestütztes großflächiges Vortraining für Sprachverständnis und -generierung
Codex (opens in a new tab)Jul 202112-Bewertung von großflächigen Sprachmodellen, die auf Code trainiert wurden
GPT-J-6B (opens in a new tab)Jun 20216GPT-J-6B (opens in a new tab)Ein 6 Milliarden Parameter großes, autoregressives Textgenerierungsmodell, das auf The Pile trainiert wurde.
CPM-2 (opens in a new tab)Jun 2021198CPM (opens in a new tab)CPM-2: Großflächige kosteneffektive vortrainierte Sprachmodelle
PanGu-α (opens in a new tab)Apr 202113PanGu-α (opens in a new tab)PanGu-α: Großflächige autoregressive vortrainierte chinesische Sprachmodelle mit automatischer paralleler Berechnung
mT5 (opens in a new tab)Okt 202013mT5 (opens in a new tab)mT5: Ein massiv mehrsprachiges vortrainiertes Text-zu-Text-Transformationssystem
BART (opens in a new tab)Jul 2020-BART (opens in a new tab)Lärmreduzierendes Sequenz-zu-Sequenz-Vortraining für natürliche Sprachgenerierung, Übersetzung und Verständnis
GShard (opens in a new tab)Jun 2020600-GShard: Skalierung riesiger Modelle mit bedingter Berechnung und automatischem Sharding
GPT-3 (opens in a new tab)Mai 2020175-Sprachmodelle sind Lerner mit wenigen Beispielen
CTRL (opens in a new tab)Sep 20191.63CTRL (opens in a new tab)CTRL: Ein bedingtes Transformer-Sprachmodell zur kontrollierbaren Generierung
ALBERT (opens in a new tab)Sep 20190.235ALBERT (opens in a new tab)ALBERT: Ein Lite BERT für die selbstüberwachte Lernung von Sprachdarstellungen
XLNet (opens in a new tab)Jun 2019-XLNet (opens in a new tab)Generalisiertes autoregressives Vortraining für Sprachverständnis und -generierung
T5 (opens in a new tab)Okt 20190.06 - 11Flan-T5 (opens in a new tab)Erforschung der Grenzen von Transferlernen mit einem einheitlichen Text-zu-Text-Transformer
GPT-2 (opens in a new tab)Nov 20191.5GPT-2 (opens in a new tab)Sprachmodelle sind unbeaufsichtigte Multitask-Lerner
RoBERTa (opens in a new tab)Jul 20190.125 - 0.355RoBERTa (opens in a new tab)Ein robust optimierter BERT-Vortrainingsansatz
BERT (opens in a new tab)Okt 2018-BERT (opens in a new tab)Bidirektionale Encoder-Darstellungen aus Transformers
GPT (opens in a new tab)Jun 2018-GPT (opens in a new tab)Verbesserung des Sprachverständnisses durch generatives Vortraining
⚠️

Dieser Abschnitt befindet sich in Entwicklung.

Daten übernommen von Papers with Code (opens in a new tab) und der jüngsten Arbeit von Zhao et al. (2023) (opens in a new tab).