Video-KI - das Problem mit dem Storytelling

2 min lesen

Beim Generieren von Texten und Bildern ist die KI schon ziemlich gut.

Ist sie das auch beim Erstellen von bewegten Bildern? Die Antwort ist Jain.

Was Video-KI schon kann: Du stehst vor der Kamera und sprichst kluge Worte zu deinem Thema - aber bist du das überhaupt? Oder spricht da dein Avatar?

Obwohl gerade erst gestartet, ist Video-KI in manchen Bereichen schon richtig weit. Zum Beispiel wenn es darum geht, deinen Avatar oder gefilmte, fotografierte und illustrierte Personen zum Sprechen zu bringen, sogar lippensynchron auf Japanisch, wenn‘s sein muss. Was auch schon ganz gut funktioniert, sind KI-basierte Tools in Video-Apps wie Videoleap, CapCut & Co. Hier sorgt die KI gleichermaßen für coole Effekte und Postproduktions-Möglichkeiten, die es zumindest am Smartphone zuvor nicht gab.

Wo Video-KI noch Probleme hat: Du kannst auch schon KI-generierte Bilder zu kurzen, meist 4-sekündigen Videosequenzen machen. Jedoch ist hier der Perfektionsgrad entsprechender Tools wie Runway, Pika Labs, Moonvalley & Co. deutlich reduzierter.

Insbesondere wenn es darum geht, die Bilder nicht nur irgendwie in Bewegung zu setzen, sondern genau die Bewegungen zu bekommen, die deiner Storyidee entsprechen, haben durch die Bank alle Tools noch ihre Probleme.

Mit anderen Worten: echtes Storytelling ist alleine mit KI zur Zeit noch nicht möglich.

Wir haben in unserer auf kurze, ungewöhnliche Videos spezialisierten Snack-Content Company die Probe aufs Exempel gemacht und wollten vom Filmklassiker „Das Schweigen der Lämmer“ ein kleines Remake erstellen.

Wir haben als erstes zu den von uns ausgedachten Szenen Bilder erstellt. Dazu nutzten wir DALL-E 3. Das hat zu weiten Teilen gut funktioniert. Den von uns gewünschten Stil, die Schafe und den Wald konnte die KI sehr gut umsetzen. Bei außergewöhnlicheren Bildideen, wie einem Xylophon im Wald oder Schafen, die Xylophonschlägel in den Hufen halten, mussten wir mit Adobe Photoshop nacharbeiten.

Die größeren Probleme begannen beim Umwandeln dieser Bilder in Videosequenzen, denn keines der Video-KI Tools war in der Lage, unsere Prompt-Vorgaben korrekt umzusetzen.

Im Startbild morphten die Schafe im Vordergrund nach zwei Sekunden ineinander.

In einigen weiteren Bildern gelang es noch nicht einmal ansatzweise, die abgebildeten Schafe auf dem vor ihnen stehenden Xylophon musizieren zu lassen.

Rein mit Video-KI Tools wäre unser Vorhaben also gescheitert.

Aber es gibt ja glücklicherweise noch eine Lösung, die besser funktioniert als die KI - und zwar den Menschen. Genauer gesagt die Menschen, die sich mit Animationstools wie Adobe After Effects auskennen, also wir.

Wir haben unsere Storytelling-Ideen dort händisch umgesetzt, wo die KI noch ihre Schwachstellen zeigte. Unter anderem mithilfe von Masken, dem Kopierstempel und dem M

Dieser Artikel ist erschienen in...