Rail One a révélé le besoin d’un nouveau modèle : plus humain qu’un TTS (Text-To-Speech), plus souple qu’un doublage classique, plus cohérent avec l’image qu’une simple piste voix. C’est de cette exigence qu’est née LipsieSync®.
Sommaire
Quand un projet client devient un laboratoire de production
LipsieSync® n’est pas née d’une démonstration isolée. La solution a pris forme dans un contexte réel : celui de la collaboration entre Lipsie et Rail One, émission suisse consacrée à l’univers ferroviaire.

Rail One souhaitait rendre les épisodes de sa saison 5 accessibles à tous les suisses, mais aussi à une audience internationale. L’objectif était de produire des versions en français, allemand, italien et anglais, avec un rendu suffisamment naturel pour que le spectateur puisse regarder l’émission dans sa langue, sans avoir l’impression de suivre une version ajoutée après coup.
Ce projet a permis à Lipsie de structurer, tester et mettre en production LipsieSync®, sa solution de doublage vidéo multilingue. Il ne s’agissait pas seulement de traduire des épisodes. Il fallait concevoir une chaîne complète : transcription, traduction, adaptation orale, enregistrements voix, cohérence image/son, post-production et contrôle qualité.
C’est cette confrontation au réel qui a donné à LipsieSync® sa forme actuelle.
Une solution née au contact d’un vrai programme audiovisuel
Rail One a apporté le terrain réel : une saison existante, des épisodes montés, des contraintes de diffusion, des contenus techniques, des voix incarnées et plusieurs langues à produire.
-
Lipsie a structuré le workflow : transcription, adaptation orale, enregistrement humain, sélection des voix, travail du timbre, ajustement de la synchronisation labiale, post-production et contrôle qualité.
-
Le projet a permis de valider une méthode : LipsieSync® n’est pas né comme une démonstration abstraite, mais comme une réponse à un besoin concret de production audiovisuelle multilingue.
Cette répartition des rôles a permis de réunir deux expertises complémentaires : Rail One sur la direction audiovisuelle et la connaissance de son format ; Lipsie sur la production linguistique multilingue, l’adaptation, le doublage et la structuration technique de la solution.
Pourquoi ni le TTS ni le doublage classique ne suffisaient
Le projet Rail One a mis en lumière une zone que les solutions existantes couvraient mal.
D’un côté, les solutions TTS permettent de produire rapidement une voix dans une autre langue, mais elles peinent à restituer une véritable interprétation humaine. La voix peut lire correctement le texte, sans pour autant porter les intentions, les nuances, les respirations et la présence nécessaires à une émission incarnée.
De l’autre, le doublage classique offre une qualité artistique reconnue, mais il peut devenir lourd à organiser lorsqu’il faut adapter une saison, plusieurs langues, plusieurs intervenants et des vidéos déjà montées.
Rail One appelait une réponse intermédiaire : conserver la performance humaine, mais l’intégrer dans un workflow plus souple, capable de travailler le timbre vocal, la cohérence voix/image et la synchronisation labiale.
C’est précisément ce positionnement qui a donné sa forme à LipsieSync® : une solution de doublage humain augmenté par la technologie, et non une automatisation du doublage.
La technologie au service de l’interprétation, pas à sa place
LipsieSync® repose sur un principe simple :
la voix doit d’abord être jouée avant d’être transformée.
Les scripts sont interprétés par des comédiens professionnels. Ce sont eux qui portent l’intention, l’énergie, les pauses, les nuances et la relation avec le spectateur. La technologie intervient ensuite pour renforcer la cohérence entre cette interprétation humaine et l’image.
Le timbre vocal peut être retravaillé pour rapprocher la voix doublée de la présence de la personne à l’écran. Lorsque les plans le permettent, la synchronisation labiale permet aussi d’adapter les mouvements de bouche au doublage, afin d’améliorer le confort de visionnage.
Cette distinction est essentielle : LipsieSync® ne cherche pas à remplacer l’interprétation humaine. La solution cherche au contraire à la rendre plus compatible avec les contraintes d’une vidéo existante, déjà montée, déjà incarnée et destinée à être diffusée dans plusieurs langues.
Kaeserberg : le passage du prototype au workflow de production
La solution a été mise en production au mois de mars avec l’épisode Kaeserberg de Rail One.Cette étape a marqué un passage important : LipsieSync® n’était plus seulement un prototype ou une intention. La solution entrait dans un flux réel, avec des contraintes de qualité, de validation, de coordination et de livraison.
L’épisode Kaeserberg a permis de tester la solidité du processus : gestion des contenus sources, adaptation en plusieurs langues, coordination des voix, cohérence du rendu et intégration dans une post-production audiovisuelle complète.
C’est aussi à partir de ce type de production que Lipsie peut améliorer la solution : non pas à partir d’une promesse abstraite, mais à partir de ce qui fonctionne réellement lorsqu’une vidéo doit être livrée, validée et diffusée.
Démonstration LipsieSync® x Rail One
Ce que Rail One a permis de valider
La nécessité d’un workflow complet. Une version multilingue professionnelle exige adaptation, voix, synchronisation, mixage, contrôle qualité et cohérence de diffusion.

