Sora & DALL·E im Reality-Check:
Was KI heute leistet – und was im Business wirklich funktioniert

Derzeit grassieren überall im Netz, insbesondere bei Instagram, aber auch bei LinkedIn, KI-Bilder von Nutzern, die sich und ihre Freunde im Stile der Animefilme von Studio Ghibli oder als Actionfiguren darstellen lassen. Doch kaum jemand weiß, was technisch genau dahintersteckt. Nahezu zeitgleich laufen Stars wie Dua Lipa oder Sir Paul McCartney Sturm, um den Gesetzgeber dazu zu bringen, KI-Anbietern wie OpenAI, zu untersagen, ihre Modelle mit den künstlerischen Schöpfungen von Musikern oder Malern zu trainieren. Die Frage ist, was menschliche Kunst noch wert ist, wenn KI sie in Sekundenschnelle ebenso kreieren kann? Welche Gefahren bestehen für Kulturschaffende? Wie unterstützt oder ersetzt KI menschliche Kreativität? Und wie können Unternehmen die Möglichkeiten, insbesondere in der Bild- und Videoproduktion, mit Sora und DALL·E nutzen, um ihre Werbekosten zu senken? Diese und weitere Fragen werden im folgenden Artikel behandelt.

Inhalt:

Was genau ist Sora – und wie funktioniert die Video-KI von OpenAI?

Was erzeugt Sora wirklich – und wo beginnt DALL·E?

Sora oder DALL·E? Warum viele nicht merken, wer was erzeugt

Was KI heute wirklich kann – und was das für Unternehmen bedeutet

Kann KI fotorealistische Bilder von Menschen?

Was KI bei Prominenten darf – und wann es rechtlich riskant wird

Wie überzeugend ist KI bei Städten, Landschaften und touristischer Ästhetik?

Wie gut kann KI Marken, Produkte und Werbung abbilden?

Kann man mit KI Werbemittel ersetzen – und trifft das auch die Filmindustrie?

Was genau ist Sora – und wie funktioniert die Video-KI von OpenAI?

Am 28. Februar war es soweit, und OpenAI veröffentlichte ihr Text-to-Video-Tool Sora endlich auch in der EU, Großbritannien, der Schweiz, Norwegen, Liechtenstein und Island. Die Anwendung wurde bereits im Dezember des Vorjahres für Plus- und Pro-Nutzer in den USA freigeschaltet. Für Standardnutzer ist es derzeit weder in den Staaten noch in Europa verfügbar. Sora ist in der Lage, hyperrealistische Videos entweder auf Basis von Texteingaben oder mit Bild- oder Videovorlagen zu erstellen. Den Namen hat das dahinterstehende Entwicklerteam aus dem japanischen Wort 空 (So-ra) abgeleitet, was so viel wie Himmel heißt, um die unbegrenzten Möglichkeiten der Technologie zu betonen. Auch gab man bekannt, dass das Tool perspektivisch in ChatGPT integriert werden soll, wie es bereits bei DALL·E der Fall war.

Was erzeugt Sora wirklich – und wo beginnt DALL·E?

Sora ist derzeit nur in der Desktop-Anwendung von OpenAI verfügbar und kann dort oberhalb der Custom-GPTs in der linken Menüleiste ausgewählt werden. Es können Videos in einer Länge von 5, 10, 15 oder 20 Sekunden generiert werden. Als Formatoptionen stehen 16:9, 9:16, 3:2, 2:3 oder das quadratische 1:1 zur Verfügung. Außer Videos kann man über das Tool auch Fotos generieren. Diese Funktion ist jedoch kein Bestandteil des Sora-Modells selbst, sondern lediglich eine Oberfläche, die auf die DALL·E-Engine zugreift (vgl. Sora oder DALL·E? Warum viele nicht merken, wer was erzeugt). Nutzer können, um eine Auswahl zu haben, frei wählen, ob Sora ein, zwei oder vier Varianten eines Videos gleichzeitig erstellen soll.

Besonders spannend ist die Funktion des Storyboards, die es Nutzern ermöglicht, einzelne Sequenzen ihrer Videos vorab mit Texten oder Bildern zu beschreiben und so auch Übergänge klar zu definieren. Bei der derzeit verfügbaren Gesamtlänge der Videos ist der Nutzen zwar überschaubar, dennoch ist es interessant, weil es zeigt, dass perspektivisch deutlich längere Videos generierbar sein könnten. Dass die Qualität bereits heute für Unternehmen nutzbar ist, zeigt die aus Großbritannien stammende Creatorin Josephine Miller. Sie nutzt Sora bspw., um bei Kunden zu pitchen und Ideen vorab zu visualisieren. Allerdings gibt es auch kritische Stimmen und rechtliche Schranken (vgl. Kann man mit KI Werbemittel ersetzen – und trifft das auch die Filmindustrie?).

Ich habe Sora und die neue Bildgenerierung in ChatGPT in einem Feldversuch ausgiebig getestet und stelle in den nachfolgenden Absätzen vor, was Sora (bereits) kann und was nicht, bevor ich darauf eingehe, für welche Anwendungszwecke es besonders geeignet ist und wozu es Unternehmen bereits heute einsetzen könn(t)en.

Sora oder DALL·E? Warum viele nicht merken, wer was erzeugt

Zunächst muss man verstehen, dass Sora nicht gleich Sora ist. Zum einen gibt es den kreativen Workspace, den der Nutzer sieht, wenn er in der Menüleiste der Desktop-Anwendung von ChatGPT (bislang nur in der Desktop-Anwendung und nicht in der App verfügbar) auf die gleichnamige Schaltfläche klickt. Die Anwendung öffnet sich standardmäßig in einem separaten Browser-Tab. Dort sieht man einen Feed mit derzeit beliebten Bildern und Videos, die andere Nutzer generiert haben. Diese kann man remixen, den genutzten Prompt einsehen oder aber ein Like verteilen.

Abb. 1: Das Interface von Sora mit dem Feed, der beliebten Content anderer Nutzer zeigt.

STAY CONNECTED

Jetzt kostenfrei den Newsletter abonnieren – erhalten Sie die neuesten KI-Trends und wertvolle Insights für Ihren Unternehmenserfolg direkt ins Postfach!

Im Eingabefeld am unteren Rand des Bildschirms kann zwischen „Video“ oder „Image“ gewählt werden. Hier können Nutzer eigene Inhalte kreieren. Wichtig zu verstehen ist, dass nicht alle präsentierten Inhalte auch durch Sora-produzierter Content sind. Wohingegen die Videos tatsächlich mit dem gleichnamigen Text-to-Video-Modell erstellt wurden, sind die Bilder eigentlich mit DALL·E 3 aber im Sora-Interface erstellt worden, ohne dass der Nutzer dies sieht. Feststellen konnte ich dies mit einer Reihe von Vergleichstests. Bei Eingabe des gleichen Prompts in Sora unterschieden sich die generierten Videos optisch deutlich von den Bildern. Als ich den gleichen Prompt in ChatGPT eingegeben habe, kamen jedoch nahezu baugleiche Bilder zu denen in Sora heraus und das teilweise sogar mit einem zeitlichen Versatz von mehreren Tagen. Dies zeigt, dass man zwar im Sora-Interface auch Bilder generieren kann, die Bildfunktion in Sora aber nicht Teil des Sora-Modells selbst ist – sondern technisch gesehen nichts anderes als die Bildgenerierung wie sie auch direkt in ChatGPT verfügbar ist. Damit ist Sora derzeit ein Interface für zwei getrennte Systeme: Zum einen das gleichnamige Text-to-Video-Modell – zum anderen ein integrierter Zugang zur Bildgenerierung via DALL·E 3. Das erklärt, warum Bild- und Videoergebnisse bei gleichem Prompt deutlich voneinander abweichen: Sie basieren nicht auf dem gleichen Modell, sondern auf unterschiedlichen Engines mit separatem Training und Output-Verhalten.

Abb. 2 & 3: Mit demselben Ursprungsbild einer Person wurde sowohl in Sora, als auch in ChatGPT die Anweisung gegeben, die Garderobe der Person in einen Business-Look zu transformieren. Sora (li.) und ChatGPT (re.) haben nahezu identische Ergebnisse generiert und das sogar mit mehreren Tagen Abstand.

Abb. 4 & 5: Das in Sora generierte Werbebild (li.) und das aus ChatGPT (re.) basieren auf dem identischen Prompt und sind nahezu gleich umgesetzt.

Auch werbliche Inhalte wurden nahezu identisch umgesetzt (vgl. Abb. 4 und 5), so kam bei Eingabe des identischen Prompts in beiden Systemen eine von der Bildsprache nahezu gleiche fiktive Anzeige für den Sportartikelhersteller Nike heraus. Beide Beispiele zeigen, dass sowohl bei visueller Vorlage als auch bei rein textlichem Input, die Ergebnisse nahelegen, dass die Bildfunktion in Sora nicht nativ ist, sondern ein UI-Zugang zu DALL·E angesteuert wird. Um die OpenAI-Architektur korrekt zu beschreiben, kann man also festhalten, dass es in ChatGPT die integrierte Bildgenerierung DALL·E gibt und im kreativen Workspace Sora, neben dem gleichnamigen Text-to-Video-Tool auch die Möglichkeit besteht ebenfalls mittels DALL·E Bilder zu erstellen.

Was KI heute wirklich kann – und was das für Unternehmen bedeutet

Unabhängig von der Anwendung ist für (professionelle) Nutzer jedoch wirtschaftlich interessant, was die beiden Tools leisten können und was (noch) nicht. Hier habe ich eine Reihe von Anwendungsfällen geprüft, u.a. die realitätsgetreue Darstellung von Werbeanzeigen, Produkten, Landschaften sowie architektonischen Landmarken. Aber auch Menschen, generische sowie prominente wurden generiert, da menschliche Darstellungen in der Vergangenheit KI-Anwendungen häufig vor Herausforderungen stellten.

Kann KI fotorealistische Bilder von Menschen?

Eines vorweg, die Zeiten von KI-Bildern, in denen Menschen den ein oder anderen Finger zu viel aufwiesen, sind vorbei. Wie die Abbildungen 2 und 3 zeigen, ist die Bildgenerierung in der Lage, aus visuellen Vorlagen relativ realistische Bilder mit Abwandlung zu generieren. Die Abbildungen 6 und 7 zeigen, dass auch gänzlich generische Personen ohne visuelle Vorlage erzeugt werden können, deren Darstellungen nahezu fotorealistisch sind. Es ist derzeit aber ab und an noch nötig, es zwei- oder dreimal zu versuchen und ggf. zwischen dem ChatGPT- und Sora-Interface zu wechseln, um tatsächlich fotorealistische Bilder zu erhalten. Allgemein kann jedoch festgehalten werden, dass es mit OpenAI möglich ist, realistische Darstellungen von Personen zu erzeugen.

Abb. 6 & 7: Beide Bilder, ob im Sora- (li.) oder ChatGPT-Interface (re.) generiert, können per se als nahezu perfekte fotorealistische Bilder bewertet werden.

Was KI bei Prominenten darf – und wann es rechtlich riskant wird

Besonders spannend wird es aber, wenn wir uns anschauen, wie es sich mit der Darstellung von Prominenten verhält. Insbesondere da hier in den vergangenen Tagen ein Paradigmenwechsel stattgefunden hat und OpenAI offenkundig seine Richtlinien geändert hat. In einer ganzen Testreihe wurde versucht, KI-Bilder verschiedener Celebrities zu erzeugen. Interessant war, dass es offenbar einen großen Unterschied macht, weswegen die Person bekannt ist und auch in welchem Land. Zunächst kann festgehalten werden, dass Politiker und Wirtschaftsbosse, aber auch herausgehobene Staatsbedienstete ohne Weiteres generiert werden können. So hatte das System keinerlei Probleme mit Videos oder Bildern von US-Präsident Donald Trump oder der ehemaligen Bundeskanzlerin Angela Merkel. Dabei wurde kein Unterschied gemacht, ob es sich um einen realitätsnahen Kontext (Pressekonferenz im Weißen Haus) oder um eine für die betreffende Person ungewöhnliche Situation handelt (Merkel an einem Currywurststand) (vgl. Abb. 8 & 9).

Abb. 8 & 9: Im Sora-Video von Donald Trump wurde auch Gestik und Mimik täuschend echt getroffen (li.), auch die langjährige Kanzlerin konnte realistisch dargestellt werden (re.). Einziges Manko im Bild sind die fehlenden Zacken der Gabel.

Eine Reihe von Tests ergab aber, dass insbesondere in Europa die internationale Bekanntheit ausschlaggebend für die Qualität der Bilder und Videos ist. Die Trainingsdaten scheinen derzeit jedoch noch sehr stark US-lastig zu sein. Weder Präsident Donald Trump, OpenAI-Chef Sam Altman, US-Verfassungsrichterin Ruth Bader Ginsburg noch Ex-US-Generalstabschef Mark Milley stellten die Systeme vor größere Herausforderungen (vgl. Abb 10). In Europa sah dies anders aus. Die langjährige und international extrem bekannte Bundeskanzlerin Angela Merkel konnte realitätsnah dargestellt werden, ihr Nachfolger als CDU-Chef und Kanzler in spe, Friedrich Merz, war zwar erkennbar, aber weit weg von fotorealistisch. Ebenso verhielt es sich mit führenden Beamten wie dem Generalinspekteur der Bundeswehr, General Carsten Breuer. Dies legt nahe, dass aus dem öffentlichen Leben in den Staaten vergleichsweise viele Daten ins Training eingeflossen sein dürften, wohingegen in Europa nur die absolut oberste Schicht berücksichtigt wurde. Allerdings muss hinzugesetzt werden, dass auch historische Figuren teils sehr gut abgebildet werden konnten. So waren auch Otto von Bismarck und Konrad Adenauer sehr detailliert generierbar. Letzterer sogar beim Gang über den Broadway in einem Adidas-Trainingsanzug mit einer Tasche von Gucci (vgl. Abb 11).

Abb. 10 & 11: Sowohl die US-Richterin am Supreme Court Ruth Bader Ginsburg (re.), als auch Ex-Bundeskanzler Konrad Adenauer (li.) sind absolut realitätsnah getroffen. Ginsburg wurde bis hin zu Details, wie den Ohrringen, die sie auf Fotografien tatsächlich häufig trägt, dargestellt. Adenauers Gesicht ist realistisch, obwohl der Prompt bewusst darauf ausgelegt war, ihn aus dem üblichen Kontext zu reißen.

Eine große Überraschung ergab sich bei Prominenten aus dem Showgeschäft. Meine Annahme war, dass es von diesen mit Abstand am meisten Material geben müsse und diese daher besonders gut in den Trainingsdaten präsent sein sollten und folglich einfach darstellbar wären. Dem war jedoch zum Zeitpunkt der ersten Erhebung (29. März 2025) nicht so. Weder die Wrestling-Legende John Cena, noch die Schauspielerin Angelina Jolie, Fußballstar Cristiano Ronaldo oder Popstar Taylor Swift konnten auch nur im Ansatz realistisch dargestellt werden. Mehr noch, Sora löschte sogar die Namen aus dem Titel oder gab Fehlermeldungen aus. Meistens generierte es aber schlicht völlig generische Personen, die keinerlei Ähnlichkeit mit der angefragten Persönlichkeit hatten. Der Grund hierfür war jedoch kein technischer, sondern ein rechtlicher. Prominente aus dem Showgeschäft sind zwar das, was Juristen als Personen des öffentlichen Interesses bezeichnen, was es Journalisten erlaubt über diese zu berichten und auch ohne deren Erlaubnis Fotos von ihnen zu veröffentlichen (anders bei Privatpersonen ohne Promistatus), ihre Werke wie Filme, Musikclips etc. sind aber urheberrechtlich geschützt. So wenig wie ich mit einer DVD ein Kino in der Garage betreiben darf, so wenig darf OpenAI Kinofilme nutzen und Bilder oder Clips von Julia Roberts oder Kim Kardashian generieren. Schließlich sind Bildrechte eine veritable Einnahmequelle für die Größen der Unterhaltungsindustrie. So verdient David Beckham beispielsweise jährlich etwa 30 Millionen Pfund nur durch das Vermarkten seiner Bilder. Sollte OpenAI hier generiertes Material bereit stellen, das die Rechteinhaber um Einnahmen bringen könnte, wäre dies gegebenenfalls justiziabel.

Warum ist es also möglich, dass Politiker/innen, Staatsdiener und CEOs, aber nicht Prominente durch Sora und DALL·E dargestellt werden können? Der Grund ist auf beiden Seiten des Atlantiks der gleiche. Wohingegen die Bildrechte Prominenter ein Vermögenswert sind, der nicht ohne Weiteres genutzt werden darf, steht für Politiker/innen eine andere Prämisse im Vordergrund. Nämlich die Meinungsfreiheit, in Deutschland durch Artikel 5 des Grundgesetzes (Meinungs-, Presse- und Kunstfreiheit) geschützt. Als Teil des politischen Diskurses in einer Demokratie muss es möglich sein, seine Meinung frei zu artikulieren, auch in Form von Meinungsartikeln, Satire oder Kunst. Das Recht am eigenen Bild besteht zwar auch bei diesen Personen, wird jedoch im Rahmen der verfassungsrechtlichen Abwägung regelmäßig durch das höher bewertete Grundrecht auf Meinungs- und Kunstfreiheit eingeschränkt – insbesondere bei Beiträgen, die dem öffentlichen Diskurs, der Satire oder der politischen Meinungsbildung dienen. In den USA gilt der First Amendment äquivalent, welcher diese Freiheit sichert.

Abb. 12 & 13: Darstellung von Cristiano Ronaldo am 29.3.25 (li.) und am 8.4.25 (re.). Man sieht die realistischeren Gesichtszüge im neueren Bild.

Doch wie ich bereits angedeutet habe, vollzog OpenAI hier eine 180-Grad-Wende. Denn ab dem 8. April tauchten zunehmend Bilder von Celebrities im Sora-Feed auf. Eine Reihe von Tests zeigte, dass nun doch Bilder generierbar waren, jedoch nach wie vor Beschränkungen vorlagen. So können insbesondere satirische oder künstlerische Bilder von Showstars angefertigt werden, z.B. Angelina Jolie im Outfit ihrer Rolle Lara Croft von 2001, wie sie das dazugehörige PlayStation-Spiel spielt (vgl. Abb. 14). Aber auch typische Szenen, wie Cristiano Ronaldo auf dem Fußballfeld (vgl. Abb. 13), waren plötzlich möglich. Jedoch gibt es auch heute (Stand: 13. April 2025) noch Einschränkungen, so kann Angelina Jolie zwar filmeschauend auf dem Sofa generiert werden, auf dem roten Teppich jedoch noch nicht (vgl. Abb. 15). Ebenso ist Taylor Swift nach wie vor gänzlich gesperrt. Es scheint daher immer noch klar, dass die Technologie zwar realistische Bilder und Videos darstellen kann, dies aber aus rechtlichen Gründen nur eingeschränkt darf.

Abb. 14 & 15: Auch Angelina Jolie wird im neueren Bild mit einer realistischen Optik des Jahres 2001 dargestellt, wohingegen die Red-Carpet-Aufnahme von Ende März eine generische Person zeigt.

Wie sensibel das Thema des Urheberrechts und der Verwendung als Trainingsdaten ist, zeigt auch, dass Alphabet-CEO Sundar Pichai in einem CNBC-Interview jüngst mit juristischen Konsequenzen gedroht hat, sollten YouTube-Inhalte für das Training von KI-Modellen verwendet worden sein. Er verweist hier auf die Nutzungsbedingungen der Plattform.

Wie überzeugend ist KI bei Städten, Landschaften und touristischer Ästhetik?

Die realistische Darstellung von Landschaften gehört definitiv zu den absoluten Stärken künstlicher Intelligenz. Zumindest, solange es keine bestimmte Landschaft sein soll. Jedoch wurden auch in diesem Bereich bedeutende Fortschritte erzielt. Dennoch sind auch die Grenzen der Technologie hier nach wie vor sichtbar. Handelt es sich um sehr bekannte Naturphänomene, von denen viele Bilder und Videos vorliegen und diese somit in großen Mengen in die Trainingsdaten einflossen, so kann Sora beeindruckende Ergebnisse liefern. Bspw., ist ein realistisches Video des in der zentralaustralischen Wüste gelegenen Berges Ayers Rock (Uluru) in hoher Qualität generierbar (vgl. Abb. 16). Der in der breiten Masse der Bevölkerung weit weniger bekannte isländische Wasserfall Gullfoss ist dagegen nur mit viel Fantasie zu erkennen. Zwar ist der Fluss nicht ganz schlecht getroffen, der eigentliche Wasserfall hingegen entspricht nicht im Ansatz dem Original (vgl. Abb. 17).

Abb. 16 & 17: Wohingegen im Video zum Ayers Rock (li.) sogar genaue Anweisungen zum Einfall des Lichts umgesetzt wurden, ist der Gullfoss nicht realitätsnah.

Bei der Darstellung von Städten und Sehenswürdigkeiten verhält es sich ähnlich. Das Problem von KI ist hier die Genauigkeit. KI-Modelle berechnen die Wahrscheinlichkeit des Aussehens auf Basis statistischer Daten. Werden zum Beispiel Unmengen an Fotos und Videos von Berlin analysiert, berechnet die KI, wie hoch die Wahrscheinlichkeit ist, dass das Gebäude neben dem Fernsehturm eine bestimmte Form hat. Da es hier aber nicht um Wahrscheinlichkeit, sondern unumstößliche Fakten geht, liegt Sora hier oftmals daneben. Zwar gelingt die Stadtaufnahme per se recht gut, der Fernsehturm liegt aber leider nicht an der Spree, weswegen dem geneigten Berlin-Kenner der Fehler schnell auffallen dürfte (vgl. Abb. 18). Ähnlich verhält es sich mit einzelnen architektonischen Landmarken. Das Video über die Basiliuskathedrale in Moskau wirkt auf den ersten Blick beeindruckend, der Kenner der Szenerie vermisst aber den bekannten Uhrenturm an der Kremlmauer, der eigentlich neben der Kathedrale zu sehen sein müsste (vgl. Abb. 19).

Abb. 18 & 19: Auf den ersten Blick wirken die Videos von Berlin und Moskau durchaus ansprechend, auf den zweiten Blick sind aber Fehler inkludiert, die eine wirtschaftliche werbliche Nutzung ausschließen.

Wie gut kann KI Marken, Produkte und Werbung abbilden?

Apropos werbliche Verwendung. Zu guter Letzt bleibt die spannende Frage, wie gut Sora und DALL·E in der Darstellung konkreter Produkte sind und ob sie perspektivisch, zumindest aus vorgegebenem Material, brauchbare Werbemittel erstellen können. Die Antwort kann ich vorwegnehmen, ja! Denn tatsächlich sind die Ergebnisse beeindruckend, wenn auch noch nicht perfekt. Zunächst testete ich drei Konsumgüter (ein Auto, ein Smartphone und einen Damenschuh). Die Darstellung der neuesten A-Klasse von Mercedes ist sowohl als Bild, als auch als Videosequenz sehr gut gelungen und das, obwohl im Video nur ein bestimmtes Detail betrachtet werden sollte (vgl. Abb. 20). Auch der Designerschuh “Kate” von Louboutin wurde immens gut getroffen (vgl. Abb. 21). Bei genauerer Betrachtung entspricht das Logo auf der Innenseite nicht ganz dem Original. Im Video ist eine Beschriftung auf der Sohle des Schuhs zu erkennen, die in der Realität nicht vorhanden ist, was auch ein Manko ist. Dennoch bleibt, dass die Bilder und Videos vom Scratch ohne Vorlage entstanden sind. Sollte der KI hier eine entsprechende Vorlage mit Änderungswunsch zur Verfügung stehen, ist von noch besseren Ergebnissen auszugehen.

Abb. 20 – 24: Die Ergebnisse zur A-Klasse von Mercedes und Kate von Louboutin sind beeindruckend. Es wird nicht mehr lange dauern, bis die Marktreife, zumindest für kürzere Display-Ads, erreicht ist.

Auch Apples iPhone wurde dem Test unterzogen. Hierbei hatten Sora und DALL·E überraschenderweise größere Schwächen in der Platzierung und Darstellung. Das Gerät schwebte ab und an über der Tischplatte oder hatte ungewöhnlich viele Kameralinsen. Der allgemeine Eindruck war aber auch hier keineswegs schlecht.

Kann man mit KI Werbemittel ersetzen – und trifft das auch die Filmindustrie?

Was bleibt nun übrig vom Hype um Sora und die neue Bildgenerierung von OpenAI? Vermeintliche Experten beschwören angesichts der neuen Möglichkeiten, die Text-to-Video-Plattformen wie Sora bieten, schon das Ende Hollywoods herauf. Dies erscheint aufgrund der derzeit noch nicht konstant brauchbaren Ergebnisse sowie der äußerst überschaubaren Länge des Outputs allerdings mindestens verfrüht. Man kann sich den Worten des US-amerikanischen Tech-Journalisten Steven Levy nur anschließen. Er erklärte kürzlich, dass die Technik zwar beeindrucke, derzeit aber noch weit weg davon sei, tatsächlich in der Filmindustrie für messbare Umwälzungen zu sorgen. Dennoch ist die Nervosität so groß, dass der bekannte Filmproduzent Tyler Perry jüngst bereits die geplante Erweiterung seines Produktionsstandortes in Atlanta im Wert von 800 Millionen US-Dollar stoppte und dabei auf die zukünftigen Möglichkeiten durch Künstliche Intelligenz verwies. Und in der Tat möchte OpenAI auch in der Filmindustrie Fuß fassen, jedoch mehr als Partner der Kreativschaffenden. So lud man am 19. März zur Veranstaltung “Sora Selects” in die Brain Dead Studios in Los Angeles ein und präsentierte den Filmemachern gezielt die Möglichkeiten der eigenen Technologie. Zuvor umgarnte man die Branchengrößen bereits in New York und plant eine weitere Veranstaltung dieser Art in Tokio. Vor allem sollen Entwürfe und Visualisierungen schnell und kostengünstig umgesetzt werden können, bevor der eigentliche Dreh stattfindet.

Wesentlich stärker dürfte der unmittelbare Niederschlag allerdings in der Werbeindustrie ausfallen. So nutzte die Stuttgarter Digital-Marketing-Agentur Hurra.com Sora jüngst, um aus statischen Bildern eines Kunden aus der Hotellerie Videosequenzen für Display Ads zu erstellen. Die Ergebnisse waren hier schlicht beeindruckend und ermöglichen es zahlreichen Unternehmen, ohne eigenes Videomaterial kostengünstig an Bewegtbildformate zu gelangen.

Letztlich bleiben aber auch zahlreiche Fragen offen. Zum einen weist KI-Inhalt nicht die schöpferische Mindesthöhe auf, um urheberrechtlich geschützt werden zu können. Das würde bedeuten, dass theoretisch der Wettbewerb die eigenen Formate kopieren und ebenfalls nutzen kann, ohne dass dies rechtlich zu Konsequenzen führt. Auch bleibt die Frage, ob die Werke von Künstler/innen ohne deren Einverständnis als Trainingsdaten genutzt werden dürfen. Für Prominente bleibt die Frage, ob der Wert der eigenen Bildrechte durch KI minimiert wird, oder ob sogar umgekehrt eine neue Sichtbarkeit durch Präsenz im Feed von Sora und Co. entstünde. In jedem Fall wird der Umgang mit Bild- und Videogenerierung durch KI für Unternehmen zur strategischen Kompetenz – rechtlich, technisch und kreativ.

Fragen?

Sie möchten besser verstehen, wie Sie KI-Bild- und Video-Tools wie Sora oder DALL·E rechtssicher und strategisch in Ihrem Unternehmen einsetzen können?

Oder suchen Sie einen Speaker, der die Chancen und Grenzen generativer KI verständlich, kritisch und praxisnah einordnet?

Ich unterstütze Sie gerne – mit einem Vortrag, einem Workshop oder einem persönlichen Austausch.

Autor

Sebastian Schulze

Sebastian Schulze ist ein gefragter Keynote Speaker und Experte für Künstliche Intelligenz und Big Data. Mit über einem Jahrzehnt Erfahrung macht er komplexe Technologien für Unternehmen verständlich. Seine Expertise im Marketing hat Unternehmen zu beeindruckenden Umsatzsteigerungen verholfen. Er inspiriert sein Publikum mit fundiertem Wissen und praxisnahen Strategien. Neben seiner beruflichen Tätigkeit engagiert er sich als Reserveoffizier bei der Bundeswehr.