Comment construire un talk en 2 jours avec l'IA : script, slides et vidéos animées

Je viens de donner un talk à la PyCon Lithuania 2026, lors de l'AI Day. 25 minutes de présentation, 26 slides, chacune avec une vidéo, une identité visuelle cohérente, des punchlines, des notes pour le speaker, le package complet. En 2 jours.

Avant, ce type de préparation me prenait 2 semaines. Rechercher le sujet, itérer sur la structure, écrire et réécrire le script. C'est la partie difficile, et ça ne se brusque pas. Mais une fois le script verrouillé, passer de rien à un deck fini, avec des images générées et des vidéos animées ? Ça a pris 2 jours.

Si vous avez lu mes articles précédents, vous connaissez le principe. Chez Agely, on n'utilise pas l'IA en mode bonus. On tourne avec. 2 humains, phase 0 à 1, on construit un produit d'IA vocale pour les seniors. Quand votre équipe est petite, soit vous automatisez, soit vous coulez. Alors quand j'ai dû préparer ce talk, j'ai fait ce qu'on fait au quotidien : j'ai utilisé Claude Code.

Voici exactement comment ça s'est passé.

Commencer par parler, pas par écrire

Je n'ai pas ouvert un éditeur de texte. J'ai ouvert Claude et j'ai discuté. Tout ce que j'avais en tête sur le sujet, "What It Means to Be a CTO in an AI Startup Today." Aucune structure, aucun filtre. Un brain dump, une sorte de mind map orale. Tous les thèmes, les histoires, les opinions. Claude a transcrit et j'avais ma matière première.

Point important : les idées ne venaient pas de l'IA. Les expériences, les opinions, l'histoire où je me suis fait kické de mon propre serveur. L'IA n'a pas inventé le contenu. Elle m'a aidé à organiser mes idées.

Itérer sur la structure jusqu'à ce que ça tienne

J'ai demandé à Claude de prendre ce dump brut et de me proposer 5 plans différents. La contrainte : il n'était pas obligé de tout prendre. Il pouvait sélectionner, trouver un fil rouge. Un arc narratif cohérent.

1ère fournée ? Pas terrible. Alors on a itéré. Des retours, des ajustements, une autre fournée. Puis on a commencé à affiner un plan précis : ce que chaque slide dirait, quels étaient les messages clés, où se trouvaient les transitions.

Puis j'ai fait quelque chose qui s'est avéré décisif. J'ai demandé à Claude : « Honnêtement, tu penses que ça va intéresser les gens ? »

Et il m'a répondu : « Honnêtement ? Non ».

Il m'a expliqué que la version actuelle était trop plate, trop descriptive. Il a pointé les endroits où je décrivais au lieu de montrer, où l'énergie retombait. On a retravaillé tout le plan à partir de ce retour. Ce moment-là, c'est exactement ce que j'appelle le Jugement. Savoir poser les questions difficiles, et écouter les réponses.

Le script d'abord. Les slides en dernier. Toujours.

On a écrit le script complet avant de créer le moindre slide. Chaque mot que je dirais sur scène, slide par slide. Pas des bullet points. Le texte réellement prononcé. C'est une erreur que je vois souvent : les speakers se cachent derrière les slides et cherchent ensuite quoi dire. Inversez. Le message vient en premier. Les slides ne sont que le support visuel (merci Toastmaster).

J'ai répété chaque section à voix haute. Certains passages étaient trop longs, d'autres trop courts, d'autres ne sonnaient pas comme je le souhaitais. J'ai réécrit ce qui devait l'être, demandé à Claude d'ajuster le reste, supprimé des sections entières. J'ai changé le ton pour que ça corresponde à ma façon de parler. Le talk était en anglais, et je voulais que ça sonne naturel.

Ensuite on a fait le calcul. Un speaker fluent en anglais fait environ 130 mots par minute. Pour 20 minutes, ça donne environ 2600 mots. Claude a compté les mots avec un script Python, identifié les sections trop longues, et on a taillé jusqu'à ce que ça rentre. Le timing, c'est crucial. Si vous dépassez, vous perdez le public.

On a aussi travaillé les punchlines. Pour chaque moment clé, Claude m'a proposé plusieurs options. J'ai choisi celles qui sonnaient juste :

"The real breakthrough? A tiny boolean: finished or not finished."
"In 2020, a great CTO added a lot. In 2026, a great CTO deletes a lot."
"I review the shape of the forest, not the bark of each tree."

Là seulement, on construit les slides

C'est seulement à ce stade qu'on a touché à la présentation.

J'ai demandé à Claude de trouver le meilleur framework JavaScript pour des slides orientés développeur. Il a fait ses recherches et a choisi Slidev : basé sur Vue, slides en Markdown, exécuté dans le navigateur. Parfait pour quelqu'un qui pense "code".

Claude a implémenté la 1ère version : contenu brut, layout placeholder, structure propre. Rien de fou, mais je pouvais lancer pnpm dev et voir le talk prendre forme. De là, on a itéré sur le layout, la typo, les couleurs. Canvas 1920px, styling Tailwind, thème clair avec des accents ambrés.

Pour l'identité visuelle, j'ai demandé à Claude de créer un personnage récurrent. Il a proposé un CTO en style comic-book : cheveux bruns en désordre, lunettes rectangulaires, hoodie bleu marine avec un logo ambré. Ce personnage apparaît sur les 26 slides : confiant sur la couverture, émerveillé pendant l'explication de la boucle agent, frustré quand il se fait kické du serveur, détendu dans un hamac.

Générer toutes les images avec l'IA

C'est là que ça devient fun. J'ai construit un serveur MCP connecté à la génération d'images d'OpenAI. C'est le même que j'utilise pour générer les mockups UI de notre webapp et notre app mobile chez Agely. Claude l'utilise directement depuis le terminal.

D'abord, on a créé des planches de référence : une fiche personnage avec le CTO dans différentes poses, une fiche d'accessoires avec des objets récurrents (hamster robot dans une roue, balance, crabe rouge en mode villain pour OpenClaw), et des fiches de symboles pour les 3 concepts clés : Jugement, Goût, Suppression.

Ensuite, slide par slide, Claude a généré les images en utilisant ces références pour maintenir la cohérence visuelle. Même style partout : cartoon, contours noirs épais, couleurs franches, palette ambrée/dorée, pas de dégradés.

Environ 50% des images étaient bonnes du 1er coup. L'autre moitié a nécessité un 2ème passage, certaines un 3ème. On vérifiait les textes dans les images, l'ambiance, la cohérence du personnage. Tout le pipeline passait par Claude Code. Pas de Photoshop. Pas de Figma. Juste des prompts, de la génération, de la review, de la régénération.

La cerise sur le gâteau : les vidéos animées

De belles images, c'était pas suffisant. Je voulais que chaque fond de slide soit une vidéo en boucle plutôt qu'une image statique. J'ai demandé à Claude quel modèle serait le meilleur pour des animations cartoon courtes à partir d'images fixes. Il a recommandé Kling 3.0 Pro via fal.ai, excellent en style cartoon parce qu'il n'a pas besoin de simuler une physique réaliste.

Claude a écrit un script Python qui uploade chaque PNG source sur fal.ai, envoie un prompt de mouvement décrivant une animation ambiante subtile (lumières pulsantes, tissus qui ondulent, particules en suspension, écrans qui scintillent) et télécharge un MP4 de 5s en boucle sans couture.

L'insight clé : pas de mouvement de personnage. Pas de marche, pas de gestes. Juste du mouvement ambiant. Ça rend la boucle invisible et le public reste concentré sur le speaker, pas sur le slide.

J'ai lancé la génération en batch le soir. Le lendemain matin, j'avais 26 vidéos en boucle. Toutes fonctionnaient du 1er coup. Le prompt négatif a fait le gros du travail : "no blur, no distortion, no camera movement, no zoom, no morphing, no extra limbs, no glitch."

Dans Slidev, elles tournent en fond avec <video autoplay muted loop>. L'effet est subtil mais frappant. Les gens à la conférence filmaient les slides. Quand votre public sort son téléphone pour capturer vos visuels, job is done.

C'est comme ça qu'on construit tout

Cet article ne parle pas d'un talk. Il parle de comment on fonctionne chez Agely.

On n'a pas d'équipe design, pas d'équipe contenu, pas de département production vidéo. On a des agents IA intégrés dans chaque workflow. Claude Code n'est pas un outil qu'on utilise de temps en temps. C'est un membre de l'équipe qui gère l'exécution pendant qu'on gère le jugement.

La méthodologie que j'ai utilisée pour ce talk est la même que celle décrite dans mes articles précédents :

L'humain fournit la vision : quoi construire, pourquoi c'est important, à quoi ressemble un bon résultat
L'IA gère l'exécution : structurer, écrire, générer, itérer
L'humain applique son jugement : est-ce que c'est assez bon ? Est-ce que ça passe ? Supprimer ce qui ne sert pas
Itérer jusqu'à ce que ce soit juste : pas "accepter la 1ère sortie", mais une vraie collaboration aller-retour

Le talk lui-même parlait exactement de ça. 3 mots qui définissent le nouveau rôle du CTO : Judgment. Taste. Deletion. Et construire ce talk en était la démonstration en direct.

Le jugement pour savoir quel message délivrer. Le goût pour façonner des visuels qui captent l'attention. La suppression pour couper tout ce qui ne servait pas l'histoire.

2 jours. 1 humain. Beaucoup d'IA. Un talk que les gens filmaient.

Le paradigme a changé. La question n'est pas de savoir s'il faut s'adapter. C'est à quelle vitesse vous êtes prêt à avancer.