Guide — Vocal Studio
Documentation complète des 4 outils de production audio
Convertir un fichier audio en texte éditable via IA
Générer des flash infos et contenus audio automatisés
Synthèse vocale manuelle depuis un texte libre
Créer et gérer des présets de voix réutilisables
1. Transcriptions Ouvrir
La Transcription convertit automatiquement un fichier audio (interview, enregistrement, émission) en texte éditable grâce à l'IA.
Comment ça fonctionne
Bonnes pratiques
- Qualité audio : Plus le fichier source est propre (peu de bruit de fond, une seule voix à la fois), plus la transcription sera précise.
- Noms propres : Les noms d'artistes, de marques ou de lieux peu courants peuvent être mal transcrits — vérifiez-les systématiquement.
- Format : Les formats MP3 et WAV donnent les meilleurs résultats. Évitez les fichiers trop compressés (débit trop faible).
2. Audio Content Ouvrir Nouveau
Audio Content automatise la production de contenus audio minutés et multilingues : flash infos, météos, chroniques, spots. Un pipeline complet de la source à l'export.
Pipeline de production
Prérequis avant d'utiliser Audio Content
Sources de contenu
Une source est un gisement d'information depuis lequel l'IA récupère le contenu à mettre en forme.
| Type | Utilisation |
|---|---|
articles_db | Articles issus de la Competitive Intelligence |
rss | Flux RSS externe (AFP, presse, agences…) |
| Manuel | Brief libre saisi à la volée — aucune config requise |
Destinations d'export
Une destination est l'endroit où sera livré le fichier audio final.
| Type | Utilisation |
|---|---|
local | Stockage serveur + téléchargement direct |
ftp | Upload FTP (Audemat, Netia, RCS…) |
zetta | Envoi vers Zetta Automation Radio |
Le prompt définit le style rédactionnel, le ton et les règles d'écriture pour les scripts générés. Créez-en un par marque ou par type de contenu.
- Aller dans Settings → Prompt Studio
- Créer un nouveau prompt, catégorie Voice-Tracks, type Audio Content
- Rédiger le persona, le style d'écriture et les règles techniques
Variables automatiquement injectées dans le prompt
| Variable | Description |
|---|---|
{sourceContent} | Contenu brut récupéré (articles, RSS ou brief) |
{targetDurationSeconds} | Durée cible en secondes |
{language} | Langue de génération |
{brand} | Nom de la marque |
{contentType} | Type de contenu (flash_info, météo…) |
Chaque langue d'une définition Audio Content utilise un Voice Model. Ce modèle encapsule la voix ElevenLabs, le moteur TTS et les paramètres d'intonation.
Créez vos Voice Models dans Vocal Studio → Voice Models (voir la section Voice Models de ce guide).
Créer une Définition (gabarit de production)
Une Définition est un gabarit réutilisable qui encapsule toutes les règles d'une production récurrente (ex : "Flash Info FR+EN quotidien à 8h").
| Paramètre | Description |
|---|---|
| Nom | Identifiant de la définition (ex : "Flash Info Ibiza1 FR+EN") |
| Marque | La marque associée — filtre les prompts et les sources articles disponibles |
| Type | Flash info / Météo / Publicité / Chronique / Autre |
| Source | Source préconfigurée dans Settings, ou "Manuel" pour un brief libre |
| Prompt | Prompt du Prompt Studio (type Audio Content) pour cette marque |
| Durée cible | 30s (~75 mots) / 60s (~150 mots) / 90s (~225 mots) / 120s (~300 mots) |
| Langues | Une ou plusieurs langues, chacune avec son Voice Model ElevenLabs dédié |
| Destinations | Une ou plusieurs destinations préconfigurées dans Settings |
| Planification | Optionnel — expression cron pour déclenchement automatique |
Générer un contenu audio — les 4 étapes
Le contenu source est récupéré automatiquement depuis la source configurée (articles ou RSS). Un brief complémentaire peut être saisi librement pour orienter la génération.
Gemini génère un script par langue. La langue par défaut est rédigée directement, les autres sont traduites et adaptées au style radio (pas une traduction littérale).
Chaque script est éditable avant de passer à la synthèse audio. Le compteur de mots s'actualise en temps réel.
ElevenLabs génère un fichier MP3 pour chaque langue en parallèle. Chaque langue utilise le Voice Model qui lui est attribué dans la définition.
Un lecteur audio intégré permet d'écouter avant d'exporter.
Les audios sont envoyés vers toutes les destinations configurées sur la définition. Le statut de chaque envoi est affiché individuellement.
Un export en échec peut être relancé individuellement sans regénérer l'audio.
Planification automatique
Une définition peut être planifiée via une expression cron. Le système vérifie toutes les 5 minutes et déclenche le pipeline complet (source → script → audio → export) sans intervention.
| Expression cron | Signification |
|---|---|
0 8 * * * | Tous les jours à 8h00 |
0 7,12,18 * * * | Tous les jours à 7h, 12h et 18h |
0 8 * * 1-5 | Du lundi au vendredi à 8h (hors week-end) |
0 */6 * * * | Toutes les 6 heures |
Convention de nommage des fichiers audio
AUDIO-{TYPE}-{BRAND}-{LANG}-{YYYY}-{MM}-{DD}-{HHmm}-{uuid8}.mp3
Exemples :
AUDIO-FLASHINFO-IBIZA1-FR-2026-02-20-0800-ab12cd34.mp3
AUDIO-FLASHINFO-IBIZA1-EN-2026-02-20-0800-ef56gh78.mp3
AUDIO-METEO-IBIZA1-FR-2026-02-20-1200-cd90ef12.mp3
Les fichiers sont stockés sur le serveur dans /audio_uploads/audio-content/. Le template de nommage FTP est personnalisable dans les Settings destination.
3. Generate Audio Ouvrir
Generate Audio permet de synthétiser vocalement n'importe quel texte à la demande, en choisissant librement la voix, le modèle ElevenLabs et les réglages d'intonation.
Utilisation basique
- Saisir ou coller le texte dans l'éditeur
- Choisir un Voice Model (préset de voix configuré dans Voice Models)
- Ajuster les paramètres si nécessaire (stabilité, clarté, style, vitesse)
- Cliquer sur Générer l'audio
- Écouter via le lecteur intégré et télécharger si satisfait
Comprendre les paramètres de voix
| Paramètre | Effet | Idéal haut | Idéal bas | Compatibilité |
|---|---|---|---|---|
| Stabilité | Régularité de la voix d'une phrase à l'autre | Journal TV, ton formel, voix posée | Conversation naturelle, narration vivante | Tous (v3 : 0/0.5/1) |
| Clarté + Similarité | Fidélité à la voix originale de l'échantillon | Prononciation précise, clarté maximale | Plus de variation (risque d'artefacts) | Tous |
| Style / Intensité | Exagération de l'intonation et du phrasé | Publicité, narration enthousiaste | Ton neutre, factuel, informatif | v2 turbo flash |
| Vitesse | Débit de parole (0.7 = lent, 1.2 = rapide) | 1.1–1.2 pour style radio dynamique | 0.8–0.9 pour lecture posée et claire | Tous |
| Audio Tags | Annotations [excited], [sad], etc. dans le texte |
Narration expressive, podcasts, radio | — | v3 uniquement |
Recettes de réglages recommandées
Ces recettes sont optimisées pour eleven_multilingual_v2. Pour eleven_v3, utilisez les Audio Tags à la place du slider Style.
Ton clair, posé, professionnel. Idéal pour les chroniques d'actualité.
v2 Réglages sliders :
- Stabilité 0.75
- Clarté 0.80
- Style 0.05
- Vitesse 1.00
v3 Tags : [serious] [calm]
Voix énergique et engageante. Idéal pour les annonces et flash infos.
v2 Réglages sliders :
- Stabilité 0.50
- Clarté 0.78
- Style 0.40
- Vitesse 1.10
v3 Tags : [excited] [warmly] [pauses]
Voix calme avec variations naturelles. Idéal pour la narration et les playlists.
v2 Réglages sliders :
- Stabilité 0.35
- Clarté 0.70
- Style 0.15
- Vitesse 0.90
v3 Tags : [softly] [slowly] [sighs]
SSML — Contrôle avancé de la prononciation
Le SSML (Speech Synthesis Markup Language) permet d'aller au-delà des réglages globaux pour contrôler la prononciation au niveau d'un mot ou d'une phrase.
Forcer la prononciation d'un nom propre ou d'une expression étrangère au sein d'un texte en français :
J'adore le nouveau morceau de <lang xml:lang="en-US">Four Tet</lang>, c'est incroyable.
L'IA bascule sur l'accent américain uniquement pour "Four Tet", puis revient au français.
Cibler un mot ou une phrase avec précision :
Un son <prosody rate="x-slow" volume="loud">incroyablement</prosody> puissant.
Valeurs disponibles pour rate : x-slow, slow, medium, fast, x-fast — ou un pourcentage : rate="80%"
Ajouter une pause marquée entre deux phrases pour rythmer un discours :
Bienvenue sur Ibiza1. <break time="800ms"/> Et maintenant, la météo.
Recommandé pour les transitions entre rubriques dans un flash info.
4. Voice Models Ouvrir
Un Voice Model est un préset nommé qui encapsule une voix ElevenLabs, un moteur TTS et des paramètres d'intonation. Il est réutilisable dans Generate Audio et dans chaque langue d'une définition Audio Content.
Composants d'un Voice Model
| Composant | Rôle | Compatibilité |
|---|---|---|
| Voix ElevenLabs | La voix sélectionnée dans la bibliothèque ElevenLabs (voix prêtes à l'emploi ou clonées) | Tous modèles |
| Modèle TTS | Le moteur de synthèse (voir tableau ci-dessous) | — |
| Stabilité | Régularité de l'intonation (0 à 1) | Tous modèles (v3 : 0 / 0.5 / 1 uniquement) |
| Clarté + Similarité | Fidélité à la voix de référence (0 à 1) | Tous modèles |
| Style / Intensité | Niveau d'expressivité (0 à 1) | v2 turbo flash Non supporté par v3 |
| Speaker Boost | Améliore la clarté et la présence vocale | v2 turbo flash Non supporté par v3 |
| Vitesse | Débit de parole (0.5 à 2.0) | Tous modèles |
Choisir le bon modèle TTS ElevenLabs
| Modèle | Qualité | Vitesse | Langues | Contrôle émotionnel | Recommandé pour |
|---|---|---|---|---|---|
eleven_v3 |
Maximale | Normale | 70+ | Audio Tags [excited] [sad]... |
Production haut de gamme avec contrôle émotionnel avancé |
eleven_multilingual_v2 |
Maximale | Normale | 30+ | Slider Style (0 à 1) | Production finale avec expressivité contrôlée |
eleven_turbo_v2_5 |
Haute | Rapide | 32 | Slider Style (effet réduit) | Flash infos récurrents, production quotidienne |
eleven_flash_v2_5 |
Bonne | Ultra-rapide | 32 | Slider Style (effet réduit) | Tests rapides, prévisualisations |
eleven_v3pour un maximum d'émotion avec les Audio Tags (le prompt IA les insère automatiquement)eleven_multilingual_v2pour un contrôle fin avec le slider Style/Intensitéeleven_turbo_v2_5pour un bon compromis qualité/vitesse en production quotidienne
Audio Tags — Contrôle émotionnel avancé (Eleven v3)
Le modèle eleven_v3 introduit les Audio Tags : des mots entre crochets placés directement dans le texte pour moduler l'émotion et la livraison vocale.
| Catégorie | Tags courants | Usage radio |
|---|---|---|
| Émotions | [excited] [cheerful] [serious] [calm] [warmly] [sad] [angry] |
Moduler le ton selon le sujet traité |
| Livraison | [whispering] [softly] [dramatic] [urgent] [playful] [sarcastic] |
Varier le style de lecture |
| Réactions | [laughs] [sighs] [pauses] [clears throat] [gasps] |
Ajouter du naturel et de l'authenticité |
| Rythme | [slowly] [rapid-fire] [drawn out] [hesitates] |
Contrôler le débit localement |
| Accents | [French accent] [British accent] [newscaster voice] |
Personnages, imitations |
- Placez le tag juste avant le passage à moduler :
[excited] Et voici la grande nouvelle ! - Limitez-vous à 3-5 tags par script de 60 secondes pour garder un rendu naturel
- Les tags sont en anglais même si le script est dans une autre langue
- En mode Audio Content, le prompt IA insère les tags automatiquement quand le Voice Model utilise
eleven_v3 - Plus de 1 450 tags sont disponibles — pratiquement n'importe quel mot entre crochets est interprété
Stratégie de Voice Models pour Audio Content multilangue
Dans une définition Audio Content multilangue, chaque langue peut utiliser un Voice Model différent :
Cela permet d'adapter le style vocal à chaque marché linguistique tout en partageant la même définition de contenu.
Bonnes pratiques de nommage
Adoptez une convention claire pour retrouver facilement vos modèles :
[Marque] [Langue] [Usage]→ ex : "Ibiza FR Flash Info", "Ibiza EN Playlist"[Voix] [Modèle]→ ex : "Rachel Multilingual", "Adam Turbo"
Quel outil utiliser selon votre besoin ?
| Besoin | Outil |
|---|---|
| Convertir un enregistrement audio en texte | Transcriptions |
| Générer un flash info automatique depuis un flux RSS ou des articles | Audio Content |
| Planifier des flash infos récurrents sans intervention | Audio Content (planification cron) |
| Synthétiser vocalement un texte que je viens d'écrire | Generate Audio |
| Créer un nouveau préset de voix réutilisable | Voice Models |
| Configurer une source RSS ou une destination FTP/Zetta | Global Settings → Audio Content |
| Créer un prompt pour les flash infos | Prompt Studio (type Audio Content) |