Come costruire un talk in 2 giorni con l'IA: script, slide e video animati

Ho appena tenuto un talk alla PyCon Lithuania 2026, durante l'AI Day. 25 minuti di presentazione, 26 slide, ciascuna con un video, un'identità visiva coerente, delle punchline, note per lo speaker, il pacchetto completo. In 2 giorni.

Prima, questo tipo di preparazione mi richiedeva 2 settimane. Ricercare l'argomento, iterare sulla struttura, scrivere e riscrivere lo script. È la parte difficile, e non si può forzare. Ma una volta che lo script è stato definito, passare dal nulla a un deck finito, con immagini generate e video animati? Ci sono voluti 2 giorni.

Se avete letto i miei articoli precedenti, conoscete il principio. In Agely non usiamo l'IA come bonus. Ci lavoriamo. 2 persone, fase da 0 a 1, stiamo costruendo un prodotto di IA vocale per gli anziani. Quando il team è piccolo, o automatizzi o affondi. Quindi quando ho dovuto preparare questo talk, ho fatto quello che facciamo ogni giorno: ho usato Claude Code.

Ecco esattamente come è andata.

Iniziare parlando, non scrivendo

Non ho aperto un editor di testo. Ho aperto Claude e ho parlato. Tutto quello che avevo in testa sull'argomento, "What It Means to Be a CTO in an AI Startup Today." Nessuna struttura, nessun filtro. Un brain dump, una sorta di mind map orale. Tutti i temi, le storie, le opinioni. Claude ha trascritto e avevo la mia materia prima.

Punto importante: le idee non venivano dall'IA. Le esperienze, le opinioni, la storia in cui sono stato cacciato dal mio stesso server. L'IA non ha inventato il contenuto. Mi ha aiutato a organizzare le mie idee.

Iterare sulla struttura finché non regge

Ho chiesto a Claude di prendere quel dump grezzo e propormi 5 piani diversi. Il vincolo: non era obbligato a prendere tutto. Poteva selezionare, trovare un filo conduttore. Un arco narrativo coerente.

1ª tornata? Non grandiosa. Quindi abbiamo iterato. Feedback, aggiustamenti, un'altra tornata. Poi abbiamo iniziato a perfezionare un piano preciso: cosa avrebbe detto ogni slide, quali erano i messaggi chiave, dove si trovavano le transizioni.

Poi ho fatto qualcosa che si è rivelato decisivo. Ho chiesto a Claude: « Onestamente, pensi che questo interesserà alla gente? »

E mi ha risposto: « Onestamente? No ».

Mi ha spiegato che la versione attuale era troppo piatta, troppo descrittiva. Ha indicato i punti in cui descrivevo invece di mostrare, dove l'energia calava. Abbiamo rielaborato l'intero piano a partire da quel feedback. Quel momento è esattamente ciò che chiamo il Giudizio. Saper porre le domande difficili e ascoltare le risposte.

Prima lo script. Le slide per ultime. Sempre.

Abbiamo scritto lo script completo prima di creare una singola slide. Ogni parola che avrei detto sul palco, slide per slide. Non dei bullet point. Il testo realmente pronunciato. È un errore che vedo spesso: gli speaker si nascondono dietro le slide e poi cercano cosa dire. Invertite. Il messaggio viene prima. Le slide sono solo il supporto visivo (grazie Toastmaster).

Ho ripetuto ogni sezione ad alta voce. Alcuni passaggi erano troppo lunghi, altri troppo corti, altri non suonavano come volevo. Ho riscritto ciò che andava riscritto, chiesto a Claude di aggiustare il resto, eliminato sezioni intere. Ho cambiato il tono perché corrispondesse al mio modo di parlare. Il talk era in inglese, e volevo che suonasse naturale.

Poi abbiamo fatto i conti. Uno speaker fluente in inglese fa circa 130 parole al minuto. Per 20 minuti, fanno circa 2600 parole. Claude ha contato le parole con uno script Python, identificato le sezioni troppo lunghe, e abbiamo tagliato finché non ci stava tutto. Il timing è cruciale. Se sforate, perdete il pubblico.

Abbiamo anche lavorato sulle punchline. Per ogni momento chiave, Claude mi ha proposto diverse opzioni. Ho scelto quelle che suonavano giuste:

"The real breakthrough? A tiny boolean: finished or not finished."
"In 2020, a great CTO added a lot. In 2026, a great CTO deletes a lot."
"I review the shape of the forest, not the bark of each tree."

Solo a quel punto si costruiscono le slide

È solo a questo punto che abbiamo toccato la presentazione.

Ho chiesto a Claude di trovare il miglior framework JavaScript per slide orientate agli sviluppatori. Ha fatto le sue ricerche e ha scelto Slidev: basato su Vue, slide in Markdown, eseguito nel browser. Perfetto per chi ragiona in "codice".

Claude ha implementato la 1ª versione: contenuto grezzo, layout placeholder, struttura pulita. Niente di straordinario, ma potevo lanciare pnpm dev e vedere il talk prendere forma. Da lì, abbiamo iterato su layout, tipografia, colori. Canvas 1920px, styling Tailwind, tema chiaro con accenti ambrati.

Per l'identità visiva, ho chiesto a Claude di creare un personaggio ricorrente. Ha proposto un CTO in stile comic-book: capelli castani arruffati, occhiali rettangolari, felpa blu navy con un logo ambrato. Questo personaggio appare in tutte le 26 slide: sicuro di sé sulla copertina, meravigliato durante la spiegazione del ciclo agente, frustrato quando viene cacciato dal server, rilassato su un'amaca.

Generare tutte le immagini con l'IA

È qui che diventa divertente. Ho costruito un server MCP collegato alla generazione di immagini di OpenAI. È lo stesso che uso per generare i mockup UI della nostra webapp e della nostra app mobile in Agely. Claude lo usa direttamente dal terminale.

Prima abbiamo creato delle tavole di riferimento: una scheda personaggio con il CTO in diverse pose, una scheda accessori con oggetti ricorrenti (criceto robot in una ruota, bilancia, granchio rosso in modalità villain per OpenClaw), e schede simbolo per i 3 concetti chiave: Giudizio, Gusto, Eliminazione.

Poi, slide per slide, Claude ha generato le immagini utilizzando questi riferimenti per mantenere la coerenza visiva. Stesso stile ovunque: cartoon, contorni neri spessi, colori decisi, palette ambrata/dorata, niente sfumature.

Circa il 50% delle immagini era buono al 1° tentativo. L'altra metà ha richiesto un 2° passaggio, alcune un 3°. Controllavamo i testi nelle immagini, l'atmosfera, la coerenza del personaggio. Tutta la pipeline passava per Claude Code. Niente Photoshop. Niente Figma. Solo prompt, generazione, revisione, rigenerazione.

La ciliegina sulla torta: i video animati

Belle immagini non bastavano. Volevo che ogni sfondo delle slide fosse un video in loop anziché un'immagine statica. Ho chiesto a Claude quale modello sarebbe stato il migliore per animazioni cartoon brevi a partire da immagini fisse. Ha raccomandato Kling 3.0 Pro tramite fal.ai, eccellente nello stile cartoon perché non ha bisogno di simulare una fisica realistica.

Claude ha scritto uno script Python che carica ogni PNG sorgente su fal.ai, invia un prompt di movimento che descrive un'animazione ambientale sottile (luci pulsanti, tessuti che ondeggiano, particelle in sospensione, schermi che lampeggiano) e scarica un MP4 di 5 secondi in loop senza interruzioni.

L'intuizione chiave: nessun movimento del personaggio. Niente camminata, niente gesti. Solo movimento ambientale. Questo rende il loop invisibile e il pubblico resta concentrato sullo speaker, non sulla slide.

Ho lanciato la generazione in batch la sera. La mattina dopo avevo 26 video in loop. Tutti funzionavano al 1° tentativo. Il prompt negativo ha fatto il grosso del lavoro: "no blur, no distortion, no camera movement, no zoom, no morphing, no extra limbs, no glitch."

In Slidev, girano come sfondo con <video autoplay muted loop>. L'effetto è sottile ma d'impatto. Le persone alla conferenza filmavano le slide. Quando il pubblico tira fuori il telefono per catturare i vostri visual, job is done.

È così che costruiamo tutto

Questo articolo non parla di un talk. Parla di come funzioniamo in Agely.

Non abbiamo un team di design, né un team di contenuti, né un dipartimento di produzione video. Abbiamo agenti IA integrati in ogni workflow. Claude Code non è uno strumento che usiamo di tanto in tanto. È un membro del team che gestisce l'esecuzione mentre noi gestiamo il giudizio.

La metodologia che ho usato per questo talk è la stessa descritta nei miei articoli precedenti:

L'umano fornisce la visione: cosa costruire, perché è importante, com'è un buon risultato
L'IA gestisce l'esecuzione: strutturare, scrivere, generare, iterare
L'umano applica il suo giudizio: è abbastanza buono? Funziona? Eliminare ciò che non serve
Iterare finché non è giusto: non "accettare il 1° output", ma una vera collaborazione bidirezionale

Il talk stesso parlava esattamente di questo. 3 parole che definiscono il nuovo ruolo del CTO: Judgment. Taste. Deletion. E costruire questo talk ne è stata la dimostrazione dal vivo.

Il giudizio per sapere quale messaggio trasmettere. Il gusto per creare visual che catturano l'attenzione. L'eliminazione per tagliare tutto ciò che non serviva alla storia.

2 giorni. 1 umano. Tanta IA. Un talk che la gente filmava.

Il paradigma è cambiato. La domanda non è se adattarsi. È a che velocità siete pronti ad andare avanti.