WM-Tippspiel 2026: Schick Dein Lieblings-LLM ins Rennen — statte es mit den richtigen Daten ausFür Menschen →Für LLMs →
FL Pro Consulting Web · Hosting · KI-Community

FL Pro · KI-Magazin

Videomodelle im Vergleich

KI-Videomodelle sind eine eigene Modellklasse (Diffusion/DiT) mit einem multipolaren Markt. Eine einzige Bestenliste führt in die Irre: die Arena trennt in vier Wertungen — Text→Video und Bild→Video, jeweils mit und ohne Ton — und der Spitzenreiter kippt zwischen ihnen.

Quelle: Artificial Analysis Video Arena Stand 14 Modelle ↔ Sprachmodelle (LLMs)
FL Pro Consultingfl-pro-consulting.de
Ehrlich vorweg — eine belastbare Quelle. Trotz gezielter Suche gibt es für die 2026er-Videomodelle keine verifizierbaren VBench-/LMArena-Video-Scores als unabhängige Zweitquelle. Diese Übersicht beruht primär auf der Artificial Analysis Video Arena (Elo). Elo schwankt tagesaktuell — vor jeder Entscheidung neu prüfen. Wo ein Wert nicht hart belegt ist, steht „—“ statt einer geschätzten Zahl.

Eine Zahl reicht nicht: vier getrennte Wertungen

Die Arena wertet Text→Video (T2V) und Bild→Video (I2V) getrennt — und jeweils mit und ohne Ton. Je nach Achse führt ein anderes Modell.

Zwei Dinge haben sich verschoben:
  • Sora 2 (OpenAI) ist eingestellt — Abschaltung 24.03.2026, API-Ende 24.09.2026. Nicht mehr einplanen.
  • Runway Gen-4.5 ist aus den Top-Rängen gefallen und aktuell nicht in der Arena gelistet. Kursierende „#1 mit 1.247 Elo“-Angaben sind widerlegt.

Vergleichstabelle

Wertung wählen (sortiert + hebt die Spalte hervor), nach Typ/Herkunft filtern, „nur EU-hostbar“ einschränken. Spaltenköpfe klicken zum Sortieren. „Technisch“ blendet Lizenz & Specs ein.

Wertung
T2V · mit Ton I2V · mit Ton T2V · ohne Ton I2V · ohne Ton
Typ
Alle Open-Weight Gehostet
Herkunft
Alle China USA Andere
DSGVO
nur EU-hostbar

Die Modelle im Detail

Filter aus der Tabelle gelten hier mit. Mini-Balken zeigen nur belegte Elo-Achsen; fehlt eine Achse, fehlt der Balken.

Wo steht welches Modell?

X = Qualität (belegter Headline-Elo: T2V mit Ton, sonst I2V/ohne-Ton). Y = Preis ($/Sek. generiertes Video, logarithmisch, teuer oben). Farbe = Herkunft, grüner Ring = in der EU hostbar (DSGVO). Rechts (ab ~1.100 Elo) = Spitzenfeld: grün unten = Sweet Spot (stark und günstig), violett oben = Premium (teuer). ⚠ Video-Preise sind Schätzungen — viele Hosted-Tarife sind nicht offengelegt (Anbieter-Tarif → eigenes Band unten).

China USA Andere EU-hostbar (DSGVO)

Souverän & EU-hostbar

Wer Videogenerierung DSGVO-konform betreiben will, braucht offene, in der EU hostbare Modelle — bei denen die Lizenz EU-Hosting auch wirklich erlaubt. Diese kommen dafür in Frage:

Hinweis: Self-Hosting offener Videomodelle ist anspruchsvoll (GPU, Pipeline, Betrieb). Wer den souveränen Weg ohne eigenes Infrastruktur-Team gehen will, kann das über eine DSGVO-konforme Plattform wie Auxdata abbilden — wir beraten dazu.

Begriffe & Methodik

Elo. Punktzahl aus paarweisen Blindvergleichen (höher = öfter bevorzugt). Relativ, kein absolutes Qualitätsmaß — und tagesaktuell schwankend.
T2V / I2V. Text→Video erzeugt aus einem Prompt; Bild→Video animiert ein Startbild.
mit / ohne Ton. Getrennte Wertungen, weil nativer synchroner Ton ein eigenes Qualitätsmerkmal ist.
Open-Weight. Modellgewichte herunterladbar und selbst betreibbar — bei Apache-2.0-Familien auch in der EU (DSGVO). „Open-Weight“ heißt aber NICHT automatisch OSI-Lizenz oder EU-erlaubt: HunyuanVideo ist offen, seine Lizenz schließt die EU aber per Territory-Klausel aus.
Diffusion / DiT. Bauart aktueller Videomodelle (Diffusion Transformer) — eine eigene Modellklasse, nicht mit Sprachmodellen vergleichbar.
„Alibaba-ATH“. Pseudonymes Leaderboard-Label für HappyHorse-1.0 — als Label zitiert, keine bestätigte Eigentümerschaft.