Wie man einen Konferenzvortrag in 2 Tagen mit KI erstellt: Skript, Slides und animierte Videos

Ich habe gerade einen Vortrag auf der PyCon Lithuania 2026 gehalten, beim AI Day. 25 Minuten Präsentation, 26 Slides, jede mit einem Video, eine einheitliche visuelle Identität, Punchlines, Speaker Notes, das volle Paket. In 2 Tagen.

Früher hätte mich diese Art der Vorbereitung 2 Wochen gekostet. Das Thema recherchieren, an der Struktur iterieren, das Skript schreiben und umschreiben. Das ist der schwierige Teil, und den kann man nicht erzwingen. Aber sobald das Skript stand, von null zu einem fertigen Deck zu kommen, mit generierten Bildern und animierten Videos? Das hat 2 Tage gedauert.

Wenn Sie meine früheren Artikel gelesen haben, kennen Sie das Prinzip. Bei Agely nutzen wir KI nicht als Bonus. Wir arbeiten damit. 2 Menschen, Phase 0 bis 1, wir bauen ein KI-Sprachprodukt für Senioren. Wenn Ihr Team klein ist, automatisieren Sie entweder oder Sie gehen unter. Als ich also diesen Vortrag vorbereiten musste, habe ich das gemacht, was wir täglich tun: Ich habe Claude Code benutzt.

Hier ist genau, wie es ablief.

Erst sprechen, nicht schreiben

Ich habe keinen Texteditor geöffnet. Ich habe Claude geöffnet und geredet. Alles, was ich zum Thema im Kopf hatte, “What It Means to Be a CTO in an AI Startup Today.” Keine Struktur, kein Filter. Ein Brain Dump, eine Art mündliche Mind Map. Alle Themen, Geschichten, Meinungen. Claude hat transkribiert und ich hatte mein Rohmaterial.

Wichtiger Punkt: Die Ideen kamen nicht von der KI. Die Erfahrungen, die Meinungen, die Geschichte, wie ich von meinem eigenen Server geflogen bin. Die KI hat den Inhalt nicht erfunden. Sie hat mir geholfen, meine Ideen zu ordnen.

An der Struktur iterieren, bis sie hält

Ich bat Claude, diesen Rohdump zu nehmen und mir 5 verschiedene Gliederungen vorzuschlagen. Die Vorgabe: Er musste nicht alles verwenden. Er konnte auswählen, einen roten Faden finden. Einen schlüssigen Erzählbogen.

Der erste Entwurf? Nicht überzeugend. Also haben wir iteriert. Feedback, Anpassungen, ein neuer Entwurf. Dann begannen wir, einen konkreten Plan zu verfeinern: was jede Slide aussagen sollte, welche Kernbotschaften es gab, wo die Übergänge lagen.

Dann habe ich etwas getan, das sich als entscheidend herausstellte. Ich fragte Claude: « Ehrlich gesagt, glaubst du, dass das die Leute interessiert? »

Und er antwortete: « Ehrlich? Nein ».

Er erklärte mir, dass die aktuelle Version zu flach war, zu beschreibend. Er zeigte die Stellen auf, an denen ich beschrieb statt zu zeigen, wo die Energie abfiel. Wir haben den gesamten Plan auf Basis dieses Feedbacks überarbeitet. Genau das nenne ich Urteilsvermögen. Die schwierigen Fragen stellen und auf die Antworten hören.

Erst das Skript. Die Slides zuletzt. Immer.

Wir haben das komplette Skript geschrieben, bevor wir auch nur eine Slide erstellt haben. Jedes Wort, das ich auf der Bühne sagen würde, Slide für Slide. Keine Stichpunkte. Der tatsächlich gesprochene Text. Das ist ein Fehler, den ich oft sehe: Speaker verstecken sich hinter den Slides und suchen dann nach etwas zu sagen. Drehen Sie es um. Die Botschaft kommt zuerst. Die Slides sind nur die visuelle Unterstützung (danke, Toastmaster).

Ich habe jeden Abschnitt laut geübt. Manche Passagen waren zu lang, andere zu kurz, manche klangen nicht so, wie ich es wollte. Ich habe umgeschrieben, was nötig war, Claude gebeten, den Rest anzupassen, ganze Abschnitte gestrichen. Ich habe den Ton angepasst, damit es nach meiner Sprechweise klingt. Der Vortrag war auf Englisch, und ich wollte, dass es natürlich klingt.

Dann haben wir gerechnet. Ein fließender englischer Speaker schafft etwa 130 Wörter pro Minute. Für 20 Minuten ergibt das rund 2600 Wörter. Claude zählte die Wörter mit einem Python-Skript, identifizierte die zu langen Abschnitte, und wir kürzten, bis es passte. Das Timing ist entscheidend. Wenn Sie überziehen, verlieren Sie das Publikum.

Wir haben auch an den Punchlines gearbeitet. Für jeden Schlüsselmoment schlug Claude mehrere Optionen vor. Ich wählte die, die sich richtig anfühlten:

"The real breakthrough? A tiny boolean: finished or not finished."
"In 2020, a great CTO added a lot. In 2026, a great CTO deletes a lot."
"I review the shape of the forest, not the bark of each tree."

Erst dann bauen wir die Slides

Erst an diesem Punkt haben wir die Präsentation angefasst.

Ich bat Claude, das beste JavaScript-Framework für entwicklerorientierte Slides zu finden. Er recherchierte und wählte Slidev: basierend auf Vue, Slides in Markdown, läuft im Browser. Perfekt für jemanden, der in Code denkt.

Claude implementierte die erste Version: roher Inhalt, Platzhalter-Layout, saubere Struktur. Nichts Spektakuläres, aber ich konnte pnpm dev starten und den Vortrag Form annehmen sehen. Von da aus iterierten wir am Layout, der Typografie, den Farben. 1920px Canvas, Tailwind-Styling, helles Theme mit bernsteinfarbenen Akzenten.

Für die visuelle Identität bat ich Claude, eine wiederkehrende Figur zu erschaffen. Er schlug einen CTO im Comic-Stil vor: zerzauste braune Haare, eckige Brille, dunkelblaues Hoodie mit bernsteinfarbenem Logo. Diese Figur erscheint auf allen 26 Slides: selbstbewusst auf dem Cover, staunend während der Erklärung der Agent-Schleife, frustriert, als er vom Server fliegt, entspannt in einer Hängematte.

Alle Bilder mit KI generieren

Hier wird es spaßig. Ich habe einen MCP-Server aufgebaut, der mit der Bildgenerierung von OpenAI verbunden ist. Es ist derselbe, den ich verwende, um die UI-Mockups unserer Webapp und unserer mobilen App bei Agely zu generieren. Claude nutzt ihn direkt aus dem Terminal.

Zuerst erstellten wir Referenzblätter: ein Charakterblatt mit dem CTO in verschiedenen Posen, ein Requisiten-Blatt mit wiederkehrenden Objekten (Roboter-Hamster im Laufrad, Waage, roter Krabbe als Bösewicht für OpenClaw) und Symbolblätter für die 3 Schlüsselkonzepte: Urteilsvermögen, Geschmack, Löschen.

Dann generierte Claude Slide für Slide die Bilder unter Verwendung dieser Referenzen, um die visuelle Konsistenz zu wahren. Überall derselbe Stil: Cartoon, dicke schwarze Konturen, kräftige Farben, bernstein-goldene Palette, keine Farbverläufe.

Etwa 50% der Bilder waren beim ersten Anlauf gut. Die andere Hälfte brauchte einen zweiten Durchgang, manche einen dritten. Wir prüften die Texte in den Bildern, die Stimmung, die Konsistenz der Figur. Die gesamte Pipeline lief über Claude Code. Kein Photoshop. Kein Figma. Nur Prompts, Generierung, Review, Regenerierung.

Das Sahnehäubchen: animierte Videos

Schöne Bilder reichten nicht. Ich wollte, dass jeder Slide-Hintergrund ein Endlosvideo ist statt eines statischen Bildes. Ich fragte Claude, welches Modell am besten für kurze Cartoon-Animationen aus Standbildern geeignet wäre. Er empfahl Kling 3.0 Pro über fal.ai, hervorragend für Cartoon-Stil, weil es keine realistische Physik simulieren muss.

Claude schrieb ein Python-Skript, das jedes Quell-PNG zu fal.ai hochlädt, einen Bewegungs-Prompt mit subtiler Ambient-Animation sendet (pulsierende Lichter, wehender Stoff, schwebende Partikel, flackernde Bildschirme) und ein nahtlos loopbares 5-Sekunden-MP4 herunterlädt.

Die entscheidende Erkenntnis: keine Figurenbewegung. Kein Gehen, keine Gesten. Nur Ambient-Bewegung. Das macht den Loop unsichtbar, und das Publikum bleibt auf den Speaker konzentriert, nicht auf die Slide.

Ich startete die Batch-Generierung am Abend. Am nächsten Morgen hatte ich 26 Endlosvideos. Alle funktionierten beim ersten Anlauf. Der Negativ-Prompt hat die Hauptarbeit geleistet: "no blur, no distortion, no camera movement, no zoom, no morphing, no extra limbs, no glitch."

In Slidev laufen sie im Hintergrund mit <video autoplay muted loop>. Der Effekt ist subtil, aber eindrucksvoll. Die Leute auf der Konferenz haben die Slides gefilmt. Wenn Ihr Publikum das Handy zückt, um Ihre Visuals festzuhalten, job is done.

So bauen wir alles

Dieser Artikel handelt nicht von einem Vortrag. Er handelt davon, wie wir bei Agely arbeiten.

Wir haben kein Design-Team, kein Content-Team, keine Videoproduktions-Abteilung. Wir haben KI-Agenten in jeden Workflow integriert. Claude Code ist kein Tool, das wir gelegentlich nutzen. Es ist ein Teammitglied, das die Ausführung übernimmt, während wir das Urteilsvermögen beisteuern.

Die Methodik, die ich für diesen Vortrag verwendet habe, ist dieselbe, die ich in meinen früheren Artikeln beschrieben habe:

Der Mensch liefert die Vision: was gebaut werden soll, warum es wichtig ist, wie ein gutes Ergebnis aussieht
Die KI übernimmt die Ausführung: strukturieren, schreiben, generieren, iterieren
Der Mensch wendet sein Urteilsvermögen an: Ist es gut genug? Passt es? Was nicht dient, wird gestrichen
Iterieren, bis es stimmt: nicht “den ersten Output akzeptieren”, sondern echte Zusammenarbeit im Hin und Her

Der Vortrag selbst handelte genau davon. 3 Wörter, die die neue Rolle des CTO definieren: Judgment. Taste. Deletion. Und diesen Vortrag zu bauen war die Live-Demonstration davon.

Das Urteilsvermögen zu wissen, welche Botschaft vermittelt werden soll. Der Geschmack, um Visuals zu gestalten, die Aufmerksamkeit fesseln. Das Löschen, um alles zu streichen, was der Geschichte nicht diente.

2 Tage. 1 Mensch. Viel KI. Ein Vortrag, den die Leute gefilmt haben.

Das Paradigma hat sich geändert. Die Frage ist nicht, ob man sich anpassen sollte. Die Frage ist, wie schnell Sie bereit sind voranzugehen.