Guide — Vocal Studio

Documentation complète des 5 outils audio : transcription, production et synthèse vocale

Sommaire

Transcriptions

Atelier complet : transcrire, éditer, analyser, exporter

Generate Text

Transcription audio → texte, version express

Audio Content

Générer des flash infos et contenus audio automatisés

Generate Audio

Synthèse vocale manuelle depuis un texte libre

Voice Models

Présets de voix réutilisables + animateurs virtuels

1. Transcriptions Ouvrir

Un atelier complet, organisé par projet, pour transformer un enregistrement (interview, émission, podcast) en texte exploitable, puis l'éditer, l'analyser et le réutiliser. L'éditeur est synchronisé à l'audio.

Besoin juste du texte brut, sans édition ? Utilisez plutôt Generate Text (transcription express).

Le parcours, étape par étape

Créer le projet

« Nouveau Projet Vocal » → nom + contexte (optionnel : invités, sujet, noms propres) → « Créer le projet »

Envoyer & transcrire

Déposer le fichier (MP3, WAV, AAC, M4A, FLAC, OGG, MP4, MOV, AVI, MKV, WEBM) → langue (détection auto par défaut) + nb. d'intervenants → « Envoyer et transcrire ». Cliquez sur la zone pour changer de fichier.

Patienter

La transcription prend quelques minutes et continue sur le serveur : vous pouvez quitter la page et revenir plus tard

Éditer & exporter

Onglets d'édition → export / envoi vers Publications → « Verrouiller » quand le projet est terminé

Astuce : L'éditeur est synchronisé avec l'audio — en cliquant sur un mot dans le texte, la lecture reprend exactement à cet endroit. Idéal pour repérer et corriger rapidement les erreurs.

Les onglets d'édition

Onglet	À quoi ça sert
Transcription	Correction IA par segment, gestion et renommage des intervenants (pastilles colorées), relecture globale
Contexte & Artistes	Ajouter le contexte (invités, sujet) pour affiner la transcription, et lier des artistes de la base
Analyse & Angles	Analyse IA, extraction d'angles éditoriaux, chapitres & citations horodatés. Le bouton « Tout analyser d'un coup » enchaîne les 3 automatiquement (choisissez d'abord les prompts Analyse et Découpage)
Réécriture	Transformer la transcription en article magazine, puis traduire (FR / EN / ES)
Export	Générer une légende sociale, exporter en .txt / .srt, ou « Envoyer vers Publications ». La transcription reste globale (sans marque) ; c'est à l'envoi qu'on choisit la marque de destination : la publication créée est alors rattachée à cette marque (via son modèle « Blog Post »). « Sans marque » reste possible (choix du modèle ensuite dans Publications).

À savoir : « Verrouiller » fige le projet : plus aucune modification (ni édition, ni IA, ni envoi vers Publications) jusqu'au déverrouillage depuis la liste des projets. Les outils IA des onglets s'appuient sur des prompts du Prompt Studio (types correction, analyse, réécriture…) — un prompt adapté est pré-sélectionné automatiquement quand son titre permet de le reconnaître. Chaque action exige un prompt de son type : un message clair vous prévient si le prompt choisi ne convient pas.

Bonnes pratiques

Qualité audio : plus le fichier source est propre (peu de bruit de fond, une voix à la fois), plus la transcription est précise.
Nombre d'intervenants : indiquez-le (1 à 10) pour une meilleure séparation des locuteurs.
Noms propres : les noms d'artistes, marques ou lieux peu courants peuvent être mal transcrits — renseignez-les dans « Contexte & Artistes » et vérifiez-les.

2. Generate Text Ouvrir

Transcription audio → texte, version express. Pas de projet ni d'édition : on dépose un fichier, on transcrit, on récupère le texte. Pour un vrai travail d'édition (intervenants, analyse, export SRT, envoi vers Publications), utilisez Transcriptions.

En 3 gestes

Glissez un fichier audio dans la zone de dépôt — MP3, WAV, M4A, AAC, OGG, FLAC (max 500 Mo).
Réglez la « Langue » (ou auto-détection) et le « Nombre d'intervenants » (auto, ou 1 à 5).
Cliquez « Transcrire », puis consultez le résultat « Par intervenant » ou « Texte complet » et utilisez « Copier » ou « Exporter TXT ».

Quota : le bouton « Vérifier quota ElevenLabs » affiche votre consommation de caractères restante. Chaque transcription consomme du quota.

Transcriptions ou Generate Text ?

Generate Text = rapide, jetable, sortie en lecture seule (copier / .txt).
Transcriptions = projet sauvegardé, édition par intervenant, analyse IA, réécriture, export .srt et envoi vers Publications.

3. Audio Content Ouvrir Nouveau

Audio Content automatise la production de contenus audio minutés et multilingues : flash infos, météos, chroniques, spots. Un pipeline complet de la source à l'export.

Pipeline de production

Source de contenu Script IA (Gemini) Révision Audio ElevenLabs Export

Prérequis avant d'utiliser Audio Content

Configuration requise : Audio Content fonctionne en s'appuyant sur des ressources configurées ailleurs dans la suite. Avant la première utilisation, un Manager ou Admin doit avoir effectué ces 3 étapes.

Sources de contenu

Une source est un gisement d'information depuis lequel l'IA récupère le contenu à mettre en forme.

Type	Utilisation
`articles_db`	Articles issus de la Competitive Intelligence
`rss`	Flux RSS externe (AFP, presse, agences…)
Manuel	Brief libre saisi à la volée — aucune config requise

Destinations d'export

Une destination est l'endroit où sera livré le fichier audio final.

Type	Utilisation
`local`	Stockage serveur + téléchargement direct
`ftp`	Upload FTP (Audemat, Netia, RCS…)
`zetta`	Envoi vers Zetta Automation Radio

Vérification : Utilisez les boutons "Tester le flux RSS" et "Tester la connexion FTP" disponibles dans Global Settings avant de sauvegarder.

Le prompt définit le style rédactionnel, le ton et les règles d'écriture pour les scripts générés. Créez-en un par marque ou par type de contenu.

Aller dans Settings → Prompt Studio
Créer un nouveau prompt, catégorie Voice-Tracks, type Audio Content
Rédiger le persona, le style d'écriture et les règles techniques

Variables automatiquement injectées dans le prompt

Variable	Description
`{sourceContent}`	Contenu brut récupéré (articles, RSS ou brief)
`{targetDurationSeconds}`	Durée cible en secondes
`{language}`	Langue de génération
`{brand}`	Nom de la marque
`{contentType}`	Type de contenu (flash_info, météo…)

À savoir : L'IA ajoute automatiquement l'instruction "texte parlé uniquement, sans markdown, style radio professionnel". Pas besoin de la répéter dans votre prompt.

Chaque langue d'une définition Audio Content utilise un Voice Model. Ce modèle encapsule la voix ElevenLabs, le moteur TTS et les paramètres d'intonation.

Créez vos Voice Models dans Vocal Studio → Voice Models (voir la section Voice Models de ce guide).

Créer une Définition (gabarit de production)

Une Définition est un gabarit réutilisable qui encapsule toutes les règles d'une production récurrente (ex : "Flash Info FR+EN quotidien à 8h").

Paramètre	Description
Nom	Identifiant de la définition (ex : "Flash Info Ibiza1 FR+EN")
Marque	La marque associée — filtre les prompts et les sources articles disponibles
Type	Flash info / Météo / Publicité / Chronique / Autre
Source	Source préconfigurée dans Settings, ou "Manuel" pour un brief libre
Prompt	Prompt du Prompt Studio (type Audio Content) pour cette marque
Durée cible	30s (~75 mots) / 60s (~150 mots) / 90s (~225 mots) / 120s (~300 mots)
Langues	Une ou plusieurs langues, chacune avec son Voice Model ElevenLabs dédié
Destinations	Une ou plusieurs destinations préconfigurées dans Settings
Planification	Optionnel — expression cron pour déclenchement automatique

Générer un contenu audio — les 4 étapes

1 Source & Brief

Le contenu source est récupéré automatiquement depuis la source configurée (articles ou RSS). Un brief complémentaire peut être saisi librement pour orienter la génération.

Si votre définition utilise "Manuel", ce champ est obligatoire.

2 Scripts générés — Révision

Gemini génère un script par langue. La langue par défaut est rédigée directement, les autres sont traduites et adaptées au style radio (pas une traduction littérale).

Chaque script est éditable avant de passer à la synthèse audio. Le compteur de mots s'actualise en temps réel.

3 Synthèse Audio

ElevenLabs génère un fichier MP3 pour chaque langue en parallèle. Chaque langue utilise le Voice Model qui lui est attribué dans la définition.

Un lecteur audio intégré permet d'écouter avant d'exporter.

4 Export

Les audios sont envoyés vers toutes les destinations configurées sur la définition. Le statut de chaque envoi est affiché individuellement.

Un export en échec peut être relancé individuellement sans regénérer l'audio.

Planification automatique

Une définition peut être planifiée via une expression cron. Le système vérifie toutes les 5 minutes et déclenche le pipeline complet (source → script → audio → export) sans intervention.

Expression cron	Signification
`0 8 * * *`	Tous les jours à 8h00
`0 7,12,18 * * *`	Tous les jours à 7h, 12h et 18h
`0 8 * * 1-5`	Du lundi au vendredi à 8h (hors week-end)
`0 /6 * *`	Toutes les 6 heures

Prérequis planification : La définition doit être en statut Actif, avoir au moins une destination configurée, et ne pas dépendre d'un brief manuel (source automatique obligatoire).

Convention de nommage des fichiers audio

AUDIO-{TYPE}-{BRAND}-{LANG}-{YYYY}-{MM}-{DD}-{HHmm}-{uuid8}.mp3

Exemples :
AUDIO-FLASHINFO-IBIZA1-FR-2026-02-20-0800-ab12cd34.mp3
AUDIO-FLASHINFO-IBIZA1-EN-2026-02-20-0800-ef56gh78.mp3
AUDIO-METEO-IBIZA1-FR-2026-02-20-1200-cd90ef12.mp3

Les fichiers sont stockés sur le serveur dans /audio_uploads/audio-content/. Le template de nommage FTP est personnalisable dans les Settings destination.

4. Generate Audio Ouvrir

Generate Audio permet de synthétiser vocalement n'importe quel texte à la demande, en choisissant librement la voix, le modèle ElevenLabs et les réglages d'intonation.

Utilisation basique

Choisir une voix : soit un de vos Modèles de Voix (réglages verrouillés, prêts à l'emploi), soit une voix ElevenLabs standard (curseurs alors librement modifiables)
Le cas échéant, ajuster les paramètres (stabilité, clarté, style, vitesse) et le « Modèle IA » ElevenLabs
Saisir ou coller le texte (la barre d'outils insère des balises SSML : pause, emphase, prosodie, prononciation)
Cliquer sur « Générer l'audio »
Écouter via le lecteur intégré, puis « Télécharger le fichier MP3 » — ou « Sauvegarder comme modèle… » pour réutiliser ces réglages

Différence avec Audio Content : Generate Audio est fait pour une génération ponctuelle et manuelle à partir d'un texte libre. Pour une production automatisée et récurrente (flash infos planifiés), utilisez Audio Content.

Comprendre les paramètres de voix

Paramètre	Effet	Idéal haut	Idéal bas	Compatibilité
Stabilité	Régularité de la voix d'une phrase à l'autre	Journal TV, ton formel, voix posée	Conversation naturelle, narration vivante	Tous (v3 : 0/0.5/1)
Clarté + Similarité	Fidélité à la voix originale de l'échantillon	Prononciation précise, clarté maximale	Plus de variation (risque d'artefacts)	Tous
Style / Intensité	Exagération de l'intonation et du phrasé	Publicité, narration enthousiaste	Ton neutre, factuel, informatif	v2 turbo flash
Vitesse	Débit de parole (0.7 = lent, 1.2 = rapide)	1.1–1.2 pour style radio dynamique	0.8–0.9 pour lecture posée et claire	Tous
Audio Tags	Annotations `[excited]`, `[sad]`, etc. dans le texte	Narration expressive, podcasts, radio	—	v3 uniquement

Recettes de réglages recommandées

Ces recettes sont optimisées pour eleven_multilingual_v2. Pour eleven_v3, utilisez les Audio Tags à la place du slider Style.

Le Journaliste Confiant

Ton clair, posé, professionnel. Idéal pour les chroniques d'actualité.

v2 Réglages sliders :

Stabilité 0.75
Clarté 0.80
Style 0.05
Vitesse 1.00

v3 Tags : [serious] [calm]

Le Chroniqueur Radio

Voix énergique et engageante. Idéal pour les annonces et flash infos.

v2 Réglages sliders :

Stabilité 0.50
Clarté 0.78
Style 0.40
Vitesse 1.10

v3 Tags : [excited] [warmly] [pauses]

Le Conteur Posé

Voix calme avec variations naturelles. Idéal pour la narration et les playlists.

v2 Réglages sliders :

Stabilité 0.35
Clarté 0.70
Style 0.15
Vitesse 0.90

v3 Tags : [softly] [slowly] [sighs]

SSML — Contrôle avancé de la prononciation

Le SSML (Speech Synthesis Markup Language) permet d'aller au-delà des réglages globaux pour contrôler la prononciation au niveau d'un mot ou d'une phrase.

Forcer la prononciation d'un nom propre ou d'une expression étrangère au sein d'un texte en français :

J'adore le nouveau morceau de <lang xml:lang="en-US">Four Tet</lang>, c'est incroyable.

L'IA bascule sur l'accent américain uniquement pour "Four Tet", puis revient au français.

Cibler un mot ou une phrase avec précision :

Un son <prosody rate="x-slow" volume="loud">incroyablement</prosody> puissant.

Valeurs disponibles pour rate : x-slow, slow, medium, fast, x-fast — ou un pourcentage : rate="80%"

Ajouter une pause marquée entre deux phrases pour rythmer un discours :

Bienvenue sur Ibiza1. <break time="800ms"/> Et maintenant, la météo.

Recommandé pour les transitions entre rubriques dans un flash info.

5. Voice Models Ouvrir

Un Voice Model est un préset nommé qui encapsule une voix ElevenLabs, un moteur TTS et des paramètres d'intonation. Il est réutilisable dans Generate Audio et dans chaque langue d'une définition Audio Content.

La page comporte deux onglets : « Création des Modèles » (les présets de voix décrits ci-dessous) et « Animateurs » — des personas virtuels (voix + profil de personnalité : âge, origine, style, catchphrases, traits) principalement utilisés par le produit Ibiza1OnAir.

Pour créer un modèle : nommez-le, choisissez la voix ElevenLabs et le modèle TTS, réglez les curseurs, testez avec « Test FR » / « Test UK », puis « Sauvegarder le modèle ».

Composants d'un Voice Model

Composant	Rôle	Compatibilité
Voix ElevenLabs	La voix sélectionnée dans la bibliothèque ElevenLabs (voix prêtes à l'emploi ou clonées)	Tous modèles
Modèle TTS	Le moteur de synthèse (voir tableau ci-dessous)	—
Stabilité	Régularité de l'intonation (0 à 1)	Tous modèles (v3 : 0 / 0.5 / 1 uniquement)
Clarté + Similarité	Fidélité à la voix de référence (0 à 1)	Tous modèles
Style / Intensité	Niveau d'expressivité (0 à 1)	v2 turbo flash Non supporté par v3
Speaker Boost	Améliore la clarté et la présence vocale	v2 turbo flash Non supporté par v3
Vitesse	Débit de parole (0.7 à 1.2 sur cette page)	Tous modèles

Choisir le bon modèle TTS ElevenLabs

Modèle	Qualité	Vitesse	Langues	Contrôle émotionnel	Recommandé pour
`eleven_v3`	Maximale	Normale	70+	Audio Tags `[excited]` `[sad]`...	Production haut de gamme avec contrôle émotionnel avancé
`eleven_multilingual_v2`	Maximale	Normale	30+	Slider Style (0 à 1)	Production finale avec expressivité contrôlée
`eleven_turbo_v2_5`	Haute	Rapide	32	Slider Style (effet réduit)	Flash infos récurrents, production quotidienne
`eleven_flash_v2_5`	Bonne	Ultra-rapide	32	Slider Style (effet réduit)	Tests rapides, prévisualisations

Recommandation pour Audio Content :

eleven_v3 pour un maximum d'émotion avec les Audio Tags (le prompt IA les insère automatiquement)
eleven_multilingual_v2 pour un contrôle fin avec le slider Style/Intensité
eleven_turbo_v2_5 pour un bon compromis qualité/vitesse en production quotidienne

Audio Tags — Contrôle émotionnel avancé (Eleven v3)

Le modèle eleven_v3 introduit les Audio Tags : des mots entre crochets placés directement dans le texte pour moduler l'émotion et la livraison vocale.

Catégorie	Tags courants	Usage radio
Émotions	`[excited]` `[cheerful]` `[serious]` `[calm]` `[warmly]` `[sad]` `[angry]`	Moduler le ton selon le sujet traité
Livraison	`[whispering]` `[softly]` `[dramatic]` `[urgent]` `[playful]` `[sarcastic]`	Varier le style de lecture
Réactions	`[laughs]` `[sighs]` `[pauses]` `[clears throat]` `[gasps]`	Ajouter du naturel et de l'authenticité
Rythme	`[slowly]` `[rapid-fire]` `[drawn out]` `[hesitates]`	Contrôler le débit localement
Accents	`[French accent]` `[British accent]` `[newscaster voice]`	Personnages, imitations

Bonnes pratiques Audio Tags :

Placez le tag juste avant le passage à moduler : [excited] Et voici la grande nouvelle !
Limitez-vous à 3-5 tags par script de 60 secondes pour garder un rendu naturel
Les tags sont en anglais même si le script est dans une autre langue
En mode Audio Content, le prompt IA insère les tags automatiquement quand le Voice Model utilise eleven_v3
Plus de 1 450 tags sont disponibles — pratiquement n'importe quel mot entre crochets est interprété

Stratégie de Voice Models pour Audio Content multilangue

Dans une définition Audio Content multilangue, chaque langue peut utiliser un Voice Model différent :

FR Voice Model "Ibiza FR Studio" → voix féminine · eleven_multilingual_v2 · Stabilité 0.6

EN Voice Model "Ibiza EN Voice" → voix masculine · eleven_turbo_v2_5 · Stabilité 0.55

ES Voice Model "Ibiza ES Voice" → voix féminine · eleven_multilingual_v2 · Stabilité 0.65

Cela permet d'adapter le style vocal à chaque marché linguistique tout en partageant la même définition de contenu.

Bonnes pratiques de nommage

Adoptez une convention claire pour retrouver facilement vos modèles :

[Marque] [Langue] [Usage] → ex : "Ibiza FR Flash Info", "Ibiza EN Playlist"
[Voix] [Modèle] → ex : "Rachel Multilingual", "Adam Turbo"

Quel outil utiliser selon votre besoin ?

Besoin	Outil
Transcrire un fichier audio rapidement (texte brut à copier)	Generate Text
Transcrire puis éditer, analyser, exporter (.srt) ou envoyer en article	Transcriptions
Générer un flash info automatique depuis un flux RSS ou des articles	Audio Content
Planifier des flash infos récurrents sans intervention	Audio Content (planification cron)
Synthétiser vocalement un texte que je viens d'écrire	Generate Audio
Créer un nouveau préset de voix réutilisable	Voice Models
Configurer une source RSS ou une destination FTP/Zetta	Global Settings → Audio Content
Créer un prompt pour les flash infos	Prompt Studio (type Audio Content)

Guide — Vocal Studio

1. Transcriptions Ouvrir

Le parcours, étape par étape

Les onglets d'édition

Bonnes pratiques

2. Generate Text Ouvrir

En 3 gestes

3. Audio Content Ouvrir Nouveau

Pipeline de production

Prérequis avant d'utiliser Audio Content

A Global Settings → onglet "Audio Content" — Déclarer les sources et destinations

Sources de contenu

Destinations d'export

B Prompt Studio — Créer un prompt de type "Audio Content"

Variables automatiquement injectées dans le prompt

C Voice Models — Configurer au moins un modèle de voix

Créer une Définition (gabarit de production)

Générer un contenu audio — les 4 étapes

Planification automatique

Convention de nommage des fichiers audio

4. Generate Audio Ouvrir

Utilisation basique

Comprendre les paramètres de voix

Recettes de réglages recommandées

SSML — Contrôle avancé de la prononciation

Prononcer un mot dans une autre langue

Contrôler le volume et la vitesse d'un mot précis

Insérer une pause

5. Voice Models Ouvrir

Composants d'un Voice Model

Choisir le bon modèle TTS ElevenLabs

Audio Tags — Contrôle émotionnel avancé (Eleven v3)

Stratégie de Voice Models pour Audio Content multilangue

Bonnes pratiques de nommage

Quel outil utiliser selon votre besoin ?