🚀 Master Prompt Engineering and building AI Agents in our NEW courses! Use PROMPTING20 for 20% off ➜ Enroll now

Sora

OpenAI stellt Sora vor, sein neues Text-zu-Video-KI-Modell. Sora kann Videos von bis zu einer Minute realistischer und fantasievoller Szenen nach Textanweisungen erstellen.

OpenAI berichtet, dass seine Vision darin besteht, KI-Systeme zu entwickeln, die die physische Welt in Bewegung verstehen und simulieren und Modelle trainieren, um Probleme zu lösen, die reale Interaktion erfordern.

FĂ€higkeiten

Sora kann Videos generieren, die eine hohe visuelle QualitĂ€t und die Einhaltung eines Benutzer-Prompts gewĂ€hrleisten. Sora hat auch die FĂ€higkeit, komplexe Szenen mit mehreren Charakteren, unterschiedlichen Bewegungsarten und HintergrĂŒnden zu generieren und zu verstehen, wie sie miteinander in Beziehung stehen. Weitere FĂ€higkeiten umfassen das Erstellen mehrerer Aufnahmen innerhalb eines einzigen Videos mit Persistenz ĂŒber Charaktere und visuellen Stil hinweg. Unten sind einige Beispiele von Videos aufgefĂŒhrt, die von Sora generiert wurden.

Prompt:

Eine stilvolle Frau geht eine Tokioter Straße entlang, die von warm leuchtenden Neonlichtern und animierter Stadtschilderung erfĂŒllt ist. Sie trĂ€gt eine schwarze Lederjacke, ein langes rotes Kleid und schwarze Stiefel und hat eine schwarze Handtasche dabei. Sie trĂ€gt Sonnenbrille und roten Lippenstift. Sie geht selbstbewusst und locker. Die Straße ist feucht und spiegelnd, wodurch ein Spiegeleffekt der bunten Lichter entsteht. Viele FußgĂ€nger gehen umher.

Prompt:

Ein Filmtrailer, der die Abenteuer des 30-jĂ€hrigen Raumfahrers zeigt, der einen roten Woll- gestrickten Motorradhelm trĂ€gt, blauer Himmel, SalzwĂŒste, kinematografischer Stil, auf 35mm Film gedreht, leuchtende Farben.

Videoquelle: https://openai.com/sora (opens in a new tab)

Methoden

Es wird berichtet, dass Sora ein Diffusionsmodell ist, das ganze Videos generieren oder generierte Videos erweitern kann. Es verwendet auch eine Transformer-Architektur, die zu einer skalierenden Leistung fĂŒhrt. Videos und Bilder werden Ă€hnlich wie Token in GPT als Patches dargestellt, was zu einem einheitlichen Videosystem fĂŒhrt, das lĂ€ngere Dauern, Auflösungen und Bildformate ermöglicht. Sie verwenden die in DALL·E 3 verwendete Neubeschriftungstechnik, damit Sora den Textanweisungen genauer folgen kann. Sora kann auch Videos aus einem gegebenen Bild generieren, was es dem System ermöglicht, das Bild genau zu animieren.

EinschrÀnkungen und Sicherheit

Zu den berichteten EinschrĂ€nkungen von Sora gehören die Simulation von Physik und der Mangel an Ursache und Wirkung. RĂ€umliche Details und Ereignisse, die in den Prompts beschrieben werden (z.B. Kameratrajektorie), werden manchmal auch von Sora missverstanden. OpenAI berichtet, dass sie Sora Red Teamern und Erstellern zur VerfĂŒgung stellen, um SchĂ€den und FĂ€higkeiten zu bewerten.

Prompt:

Szene im Schritt-Druck-Verfahren einer rennenden Person, kinematografische Filmaufnahme in 35mm.

Videoquelle: https://openai.com/sora (opens in a new tab)

Finden Sie hier mehr Beispiele fĂŒr Videos, die vom Sora-Modell generiert wurden: https://openai.com/sora (opens in a new tab)