AI.biza1 - AI-Powered Content Creation Suite

Guide — Vocal Studio

Documentation complète des 4 outils de production audio

Sommaire

Convertir un fichier audio en texte éditable via IA

Générer des flash infos et contenus audio automatisés

Synthèse vocale manuelle depuis un texte libre

Créer et gérer des présets de voix réutilisables

1. Transcriptions Ouvrir

La Transcription convertit automatiquement un fichier audio (interview, enregistrement, émission) en texte éditable grâce à l'IA.

Comment ça fonctionne
1
Importer
Déposer un fichier MP3, WAV ou M4A
2
Transcrire
L'IA convertit l'audio en texte
3
Corriger
Relire et éditer dans l'éditeur synchronisé
4
Exporter
Copier ou exporter le texte final
Astuce : L'éditeur est synchronisé avec l'audio — en cliquant sur un mot dans le texte, la lecture reprend exactement à cet endroit. Idéal pour repérer et corriger rapidement les erreurs.
Bonnes pratiques
  • Qualité audio : Plus le fichier source est propre (peu de bruit de fond, une seule voix à la fois), plus la transcription sera précise.
  • Noms propres : Les noms d'artistes, de marques ou de lieux peu courants peuvent être mal transcrits — vérifiez-les systématiquement.
  • Format : Les formats MP3 et WAV donnent les meilleurs résultats. Évitez les fichiers trop compressés (débit trop faible).

2. Audio Content Ouvrir Nouveau

Audio Content automatise la production de contenus audio minutés et multilingues : flash infos, météos, chroniques, spots. Un pipeline complet de la source à l'export.

Pipeline de production
Source de contenu Script IA (Gemini) Révision Audio ElevenLabs Export
Prérequis avant d'utiliser Audio Content
Configuration requise : Audio Content fonctionne en s'appuyant sur des ressources configurées ailleurs dans la suite. Avant la première utilisation, un Manager ou Admin doit avoir effectué ces 3 étapes.

Sources de contenu

Une source est un gisement d'information depuis lequel l'IA récupère le contenu à mettre en forme.

TypeUtilisation
articles_dbArticles issus de la Competitive Intelligence
rssFlux RSS externe (AFP, presse, agences…)
ManuelBrief libre saisi à la volée — aucune config requise
Destinations d'export

Une destination est l'endroit où sera livré le fichier audio final.

TypeUtilisation
localStockage serveur + téléchargement direct
ftpUpload FTP (Audemat, Netia, RCS…)
zettaEnvoi vers Zetta Automation Radio
Vérification : Utilisez les boutons "Tester le flux RSS" et "Tester la connexion FTP" disponibles dans Global Settings avant de sauvegarder.

Le prompt définit le style rédactionnel, le ton et les règles d'écriture pour les scripts générés. Créez-en un par marque ou par type de contenu.

  1. Aller dans Settings → Prompt Studio
  2. Créer un nouveau prompt, catégorie Voice-Tracks, type Audio Content
  3. Rédiger le persona, le style d'écriture et les règles techniques
Variables automatiquement injectées dans le prompt
VariableDescription
{sourceContent}Contenu brut récupéré (articles, RSS ou brief)
{targetDurationSeconds}Durée cible en secondes
{language}Langue de génération
{brand}Nom de la marque
{contentType}Type de contenu (flash_info, météo…)
À savoir : L'IA ajoute automatiquement l'instruction "texte parlé uniquement, sans markdown, style radio professionnel". Pas besoin de la répéter dans votre prompt.

Chaque langue d'une définition Audio Content utilise un Voice Model. Ce modèle encapsule la voix ElevenLabs, le moteur TTS et les paramètres d'intonation.

Créez vos Voice Models dans Vocal Studio → Voice Models (voir la section Voice Models de ce guide).

Créer une Définition (gabarit de production)

Une Définition est un gabarit réutilisable qui encapsule toutes les règles d'une production récurrente (ex : "Flash Info FR+EN quotidien à 8h").

ParamètreDescription
NomIdentifiant de la définition (ex : "Flash Info Ibiza1 FR+EN")
MarqueLa marque associée — filtre les prompts et les sources articles disponibles
TypeFlash info / Météo / Publicité / Chronique / Autre
SourceSource préconfigurée dans Settings, ou "Manuel" pour un brief libre
PromptPrompt du Prompt Studio (type Audio Content) pour cette marque
Durée cible30s (~75 mots) / 60s (~150 mots) / 90s (~225 mots) / 120s (~300 mots)
LanguesUne ou plusieurs langues, chacune avec son Voice Model ElevenLabs dédié
DestinationsUne ou plusieurs destinations préconfigurées dans Settings
PlanificationOptionnel — expression cron pour déclenchement automatique
Générer un contenu audio — les 4 étapes
1 Source & Brief

Le contenu source est récupéré automatiquement depuis la source configurée (articles ou RSS). Un brief complémentaire peut être saisi librement pour orienter la génération.

Si votre définition utilise "Manuel", ce champ est obligatoire.
2 Scripts générés — Révision

Gemini génère un script par langue. La langue par défaut est rédigée directement, les autres sont traduites et adaptées au style radio (pas une traduction littérale).

Chaque script est éditable avant de passer à la synthèse audio. Le compteur de mots s'actualise en temps réel.

3 Synthèse Audio

ElevenLabs génère un fichier MP3 pour chaque langue en parallèle. Chaque langue utilise le Voice Model qui lui est attribué dans la définition.

Un lecteur audio intégré permet d'écouter avant d'exporter.

4 Export

Les audios sont envoyés vers toutes les destinations configurées sur la définition. Le statut de chaque envoi est affiché individuellement.

Un export en échec peut être relancé individuellement sans regénérer l'audio.

Planification automatique

Une définition peut être planifiée via une expression cron. Le système vérifie toutes les 5 minutes et déclenche le pipeline complet (source → script → audio → export) sans intervention.

Expression cronSignification
0 8 * * *Tous les jours à 8h00
0 7,12,18 * * *Tous les jours à 7h, 12h et 18h
0 8 * * 1-5Du lundi au vendredi à 8h (hors week-end)
0 */6 * * *Toutes les 6 heures
Prérequis planification : La définition doit être en statut Actif, avoir au moins une destination configurée, et ne pas dépendre d'un brief manuel (source automatique obligatoire).
Convention de nommage des fichiers audio
AUDIO-{TYPE}-{BRAND}-{LANG}-{YYYY}-{MM}-{DD}-{HHmm}-{uuid8}.mp3

Exemples :
AUDIO-FLASHINFO-IBIZA1-FR-2026-02-20-0800-ab12cd34.mp3
AUDIO-FLASHINFO-IBIZA1-EN-2026-02-20-0800-ef56gh78.mp3
AUDIO-METEO-IBIZA1-FR-2026-02-20-1200-cd90ef12.mp3

Les fichiers sont stockés sur le serveur dans /audio_uploads/audio-content/. Le template de nommage FTP est personnalisable dans les Settings destination.

3. Generate Audio Ouvrir

Generate Audio permet de synthétiser vocalement n'importe quel texte à la demande, en choisissant librement la voix, le modèle ElevenLabs et les réglages d'intonation.

Utilisation basique
  1. Saisir ou coller le texte dans l'éditeur
  2. Choisir un Voice Model (préset de voix configuré dans Voice Models)
  3. Ajuster les paramètres si nécessaire (stabilité, clarté, style, vitesse)
  4. Cliquer sur Générer l'audio
  5. Écouter via le lecteur intégré et télécharger si satisfait
Différence avec Audio Content : Generate Audio est fait pour une génération ponctuelle et manuelle à partir d'un texte libre. Pour une production automatisée et récurrente (flash infos planifiés), utilisez Audio Content.
Comprendre les paramètres de voix
ParamètreEffetIdéal hautIdéal basCompatibilité
Stabilité Régularité de la voix d'une phrase à l'autre Journal TV, ton formel, voix posée Conversation naturelle, narration vivante Tous (v3 : 0/0.5/1)
Clarté + Similarité Fidélité à la voix originale de l'échantillon Prononciation précise, clarté maximale Plus de variation (risque d'artefacts) Tous
Style / Intensité Exagération de l'intonation et du phrasé Publicité, narration enthousiaste Ton neutre, factuel, informatif v2 turbo flash
Vitesse Débit de parole (0.7 = lent, 1.2 = rapide) 1.1–1.2 pour style radio dynamique 0.8–0.9 pour lecture posée et claire Tous
Audio Tags Annotations [excited], [sad], etc. dans le texte Narration expressive, podcasts, radio v3 uniquement
Recettes de réglages recommandées

Ces recettes sont optimisées pour eleven_multilingual_v2. Pour eleven_v3, utilisez les Audio Tags à la place du slider Style.

Le Journaliste Confiant

Ton clair, posé, professionnel. Idéal pour les chroniques d'actualité.

v2 Réglages sliders :

  • Stabilité 0.75
  • Clarté 0.80
  • Style 0.05
  • Vitesse 1.00

v3 Tags : [serious] [calm]

Le Chroniqueur Radio

Voix énergique et engageante. Idéal pour les annonces et flash infos.

v2 Réglages sliders :

  • Stabilité 0.50
  • Clarté 0.78
  • Style 0.40
  • Vitesse 1.10

v3 Tags : [excited] [warmly] [pauses]

Le Conteur Posé

Voix calme avec variations naturelles. Idéal pour la narration et les playlists.

v2 Réglages sliders :

  • Stabilité 0.35
  • Clarté 0.70
  • Style 0.15
  • Vitesse 0.90

v3 Tags : [softly] [slowly] [sighs]

SSML — Contrôle avancé de la prononciation

Le SSML (Speech Synthesis Markup Language) permet d'aller au-delà des réglages globaux pour contrôler la prononciation au niveau d'un mot ou d'une phrase.

Forcer la prononciation d'un nom propre ou d'une expression étrangère au sein d'un texte en français :

J'adore le nouveau morceau de <lang xml:lang="en-US">Four Tet</lang>, c'est incroyable.

L'IA bascule sur l'accent américain uniquement pour "Four Tet", puis revient au français.

Cibler un mot ou une phrase avec précision :

Un son <prosody rate="x-slow" volume="loud">incroyablement</prosody> puissant.

Valeurs disponibles pour rate : x-slow, slow, medium, fast, x-fast — ou un pourcentage : rate="80%"

Ajouter une pause marquée entre deux phrases pour rythmer un discours :

Bienvenue sur Ibiza1. <break time="800ms"/> Et maintenant, la météo.

Recommandé pour les transitions entre rubriques dans un flash info.

4. Voice Models Ouvrir

Un Voice Model est un préset nommé qui encapsule une voix ElevenLabs, un moteur TTS et des paramètres d'intonation. Il est réutilisable dans Generate Audio et dans chaque langue d'une définition Audio Content.

Composants d'un Voice Model
ComposantRôleCompatibilité
Voix ElevenLabs La voix sélectionnée dans la bibliothèque ElevenLabs (voix prêtes à l'emploi ou clonées) Tous modèles
Modèle TTS Le moteur de synthèse (voir tableau ci-dessous)
Stabilité Régularité de l'intonation (0 à 1) Tous modèles (v3 : 0 / 0.5 / 1 uniquement)
Clarté + Similarité Fidélité à la voix de référence (0 à 1) Tous modèles
Style / Intensité Niveau d'expressivité (0 à 1) v2 turbo flash
Non supporté par v3
Speaker Boost Améliore la clarté et la présence vocale v2 turbo flash
Non supporté par v3
Vitesse Débit de parole (0.5 à 2.0) Tous modèles
Choisir le bon modèle TTS ElevenLabs
ModèleQualitéVitesseLanguesContrôle émotionnelRecommandé pour
eleven_v3 Maximale Normale 70+ Audio Tags [excited] [sad]... Production haut de gamme avec contrôle émotionnel avancé
eleven_multilingual_v2 Maximale Normale 30+ Slider Style (0 à 1) Production finale avec expressivité contrôlée
eleven_turbo_v2_5 Haute Rapide 32 Slider Style (effet réduit) Flash infos récurrents, production quotidienne
eleven_flash_v2_5 Bonne Ultra-rapide 32 Slider Style (effet réduit) Tests rapides, prévisualisations
Recommandation pour Audio Content :
  • eleven_v3 pour un maximum d'émotion avec les Audio Tags (le prompt IA les insère automatiquement)
  • eleven_multilingual_v2 pour un contrôle fin avec le slider Style/Intensité
  • eleven_turbo_v2_5 pour un bon compromis qualité/vitesse en production quotidienne
Audio Tags — Contrôle émotionnel avancé (Eleven v3)

Le modèle eleven_v3 introduit les Audio Tags : des mots entre crochets placés directement dans le texte pour moduler l'émotion et la livraison vocale.

CatégorieTags courantsUsage radio
Émotions [excited] [cheerful] [serious] [calm] [warmly] [sad] [angry] Moduler le ton selon le sujet traité
Livraison [whispering] [softly] [dramatic] [urgent] [playful] [sarcastic] Varier le style de lecture
Réactions [laughs] [sighs] [pauses] [clears throat] [gasps] Ajouter du naturel et de l'authenticité
Rythme [slowly] [rapid-fire] [drawn out] [hesitates] Contrôler le débit localement
Accents [French accent] [British accent] [newscaster voice] Personnages, imitations
Bonnes pratiques Audio Tags :
  • Placez le tag juste avant le passage à moduler : [excited] Et voici la grande nouvelle !
  • Limitez-vous à 3-5 tags par script de 60 secondes pour garder un rendu naturel
  • Les tags sont en anglais même si le script est dans une autre langue
  • En mode Audio Content, le prompt IA insère les tags automatiquement quand le Voice Model utilise eleven_v3
  • Plus de 1 450 tags sont disponibles — pratiquement n'importe quel mot entre crochets est interprété
Stratégie de Voice Models pour Audio Content multilangue

Dans une définition Audio Content multilangue, chaque langue peut utiliser un Voice Model différent :

FR Voice Model "Ibiza FR Studio" → voix féminine · eleven_multilingual_v2 · Stabilité 0.6
EN Voice Model "Ibiza EN Voice" → voix masculine · eleven_turbo_v2_5 · Stabilité 0.55
ES Voice Model "Ibiza ES Voice" → voix féminine · eleven_multilingual_v2 · Stabilité 0.65

Cela permet d'adapter le style vocal à chaque marché linguistique tout en partageant la même définition de contenu.

Bonnes pratiques de nommage

Adoptez une convention claire pour retrouver facilement vos modèles :

  • [Marque] [Langue] [Usage] → ex : "Ibiza FR Flash Info", "Ibiza EN Playlist"
  • [Voix] [Modèle] → ex : "Rachel Multilingual", "Adam Turbo"
Quel outil utiliser selon votre besoin ?
BesoinOutil
Convertir un enregistrement audio en texteTranscriptions
Générer un flash info automatique depuis un flux RSS ou des articlesAudio Content
Planifier des flash infos récurrents sans interventionAudio Content (planification cron)
Synthétiser vocalement un texte que je viens d'écrireGenerate Audio
Créer un nouveau préset de voix réutilisableVoice Models
Configurer une source RSS ou une destination FTP/ZettaGlobal Settings → Audio Content
Créer un prompt pour les flash infosPrompt Studio (type Audio Content)