EXTRAIRE UNE PISTE SOUS-TITRE DEPUIS
UN FICHIER TS VERS UN FICHIER SRT

(Date de création : 22.06.2016. m.à.j. : 03.07.2018.)
 
Accueil       Contact (+Mini-Blog Personnel)   


PVA, TS, to MPG / MKV / DVD-Vidéo,... (Conversion de fichiers vidéo DVB SD MPEG-2)
TS, M2TS to MP4 / MKV / Blu-Ray-Vidéo,... (Conversion de fichiers vidéo DVB HD H264)
 
 

Technique avec des logiciels payants :

Étape 0 : *.TS avec VM :
Visionner parciellement votre "Vidéo_capture.ts" avec un player (VLC par exemple) pour "voir" les diverses pistes audio et sous-titres afin d'identifier les options.
 
Étape 1 : *.TS avec VM :  Analyse, suppréssion des bugs, extration du fichier sous-titre. Sans recompréssion
TS-Doctor2 (30€). Recommandé ! Dans certains cas vous pourrez profiter de la multidiffusion si votre capture contient des bugs.
- Extraction des pistes sous-titres DVB/Télétexte (*.srt) lorsque vous exportez votre vidéo. Pour que cela fonctionne vous devez activé cette fonction dans les paramètres avancés. Malheureusement le système OCR n'est pas parfait et vous devrez faire des retouches via un Liste de logiciels pour le sous-titrage (Lien direct).
- Pour le cuttage de la vidéo, dans ce logiciel, vous devez sélectionner les parties que vous souhaitez conserver (pensez à sauvegarder la lites des sélections au cas que vous vouliez revenir faire un ajustement). La prise en main de cette fonction est difficile !
- La qualité des raccords de cuttage sont mauvais en HD (non testé en SD). Pour le contrôler rapidement via votre player vous trouverez le time code de l'endroit des raccords dans le *.log.
- ASTUCE : Si vous capturez plusieurs épisodes d'une série en un seul fichier => Cutter (dans un premier temps) grossièrement chaque épisodes et (dans un deuxième temps) reprennez les épisodes un à un pour couper les parties indésirables et extraire le *.srt puis pour palier les défaut de raccord en HD je vous renvoie vers l'étape 2.

Étape 2 : *.TS sans VM : Suppréssion (cuttage) des parties indésirables à la Frame près sans recompréssion
TMPGEnc "MPEG Smart Renderer 5" (70$) 64bit ONLY ! Facultatif !
- Pour rester "synchro" avec le *.srt de l'étape 1 vous devez cutter votre vidéo exactement aux même endroits.
- Qualité des raccords en HD : Parfait ! Avec ce logiciel vous devez sélectionner puis cutter les parties indésirables.
- Choisir "démux" en format de sortie si vous avez besoin de plus d'une piste audio.
 
 
Conclusions logiciels payants :
Y'a pas photo !
 

Technique avec des logiciels gratuits :  

  
Source : http://www.beepmaster.com/handisol/extraire-sous-titres-depuis-tnt.php. Auteurs : © Cédric Vasseur, Handisol.Beepmaster.Com, Contenu Protégé, Tout Droits Réservés.  Un autorisation de publication a été donné à "satbuster.fr" avec possibilité d'améliorer la technique à la condition que la source soit cité.
 

1) Pré-requis :

Vous devez disposer sur votre PC de Subtitle_Edit et ProjectX.

Le fichier TS doit être dans la plupart des cas exempt d'erreurs tout du moins de certaines erreurs qui risquent de faire planter les logiciels cités ci-après pour éviter qu'ils ne plantent...( il existe des logiciels permettant de corriger les fichier TS  ) Si vous disposez d'une video qui comporte de nombreuses erreur : par exemple liée à une mauvaises réception TNT : coupure/mosaïques etc... il faudra en général passer par une "réparation" de votre fichier vidéo.

a - Le logiciel : Subtitle_Edit 6Mo. (Nécessite Microsoft .NET Framework 4)

b - Le logiciel : ProjetX 0.91.0 2,5Mo (Nécessite d'installer une machine virtuelle java sur votre poste : voir http://java.com/fr/download/

c - Le logiciel : VLC 29Mo (Facile d'utilisation il permet de lire la plupart des types de fichiers vidéo et d'en connaitre le format)

d - Le logiciel : K-Lite Codec Pack 31Mo (Tous les codecs vidéo).

 

2) Types de sous-titres sur la TNT :

Il faut distinguer 2 types de sous-titres sous 2 formats différents :

- Le sous-titrage "standard".

- Le sous-titrage "sourds et malentendants".

-- Format Teletext.

-- Format DVB.

Les formats Teletext et / ou DVB sont différents, certains programmes / chaînes proposent l'un ou l'autre, parfois les deux sur la TNT.

Pour connaitre la piste qui vous intéresse utilisez VLC. Ouvrez votre fichier vidéo et aller dans : "Outils" => "Informations sur les Codecs" il vous indiquera les pistes et leurs "identifiants" (ID).

  

3) L'extraction :

Vous ne pouvez le faire qu'à partir de votre "vidéo_capture.ts". Le passage de ce *.ts dans un autre logiciel (quelqu'en soit la raison) vous fera perdre les fichiers sous-titres.

 

a- Sous-titres DVB/TNT :

Avec Subtitle_Edit vous disposez d'un utilitaire qui vous permettra de récupérer les sous-titres

0) Au 1er démarrage le logiciel est en anglais mais dans l'onglet "options" il est possible de le mettre en français après la prise en main en est facilité. Attention là c'est la partie la plus cocasse... à ma connaissance c'est le seul petit utilitaire gratuit qui permette de faire ça "relativement facilement" et ce n'est pas une mince affaire. Pourquoi ? Car la plupart des sous-titres DVB/TNT sont enregistrés sous la forme de Bitmap ! C'est à dire d'images et qu'un fichier SRT est un fichier Texte... l'utilitaire Subtitle_Edit contient un OCR (logiciel de reconnaissance des caractères) pour convertir ces "images" en texte...

1) Ouvrir votre "vidéo_capture.ts" => Laissez le logiciel analyser le fichier (voir % de progréssion en bas de la fenêtre)

Note : Subtitle_Edit sélectionnera par défaut la première piste sous-titre affiché dans VLC. (Dans l'hypothèse qu'elles extistent et / ou que le logiciel les dédectent).

2) Une nouvelle fenêtre s'ouvre => Mettez les dictionnaires en français (voir les boutons "...") => Lancer OCR.

3) À chaque erreur que l'ORC détectera il vous sera possible d'y apporter des corrections (Le texte original est en "image" en haut à droite)

4) Si vous avez le courage d'aller jusqu'au bout : Chapeau bas ! Lors de mes tests j'ai "craqué" au bout de 386 lignes sur les 1689 (26 minutes... sur les 1h30 du téléfilm). 

(Astuce utile : Tapez "charmap.exe" dans le menu démarrer de windows pour avoir les lettres spéciales. Ex : À, É, ©, etc... )

5) Exportez le fichier sous-titre dans le format que vous avez besoin, cela dépendra du logiciel dans le quel vous voudrez l'utiliser

PS) Ne touchez pas au time-code de départ (00:00:00) sans quoi les sous-titres ne seront plus synchronisés avec la vidéo.

PS 2) Normalement le time-code du fichier s'ajustera automatiquement si vous faites des coupures des parties indésirables dans votre logiciel d'édition et / ou d'authoring.

 

b-TELETEXT

Format teletext ? ProjectX permet d'extraire le Teletexte en SRT : dans "output" sélectionnez uniquement "teletext" en décochant le reste qui ne vous sert par et dans les options d'extraction de sous-titre indiquez le/les canaux qui ous intéressent : en général 888 ( ou 889 sur ARTE)

Un tuto en image sur projetX ici

 

4) Au final  : un fichier SRT

Dans les deux cas il vous faudra certainement faire des corrections du texte dans le fichier SRT car la reconnaissance de caractère (OCR) n'est pas fiable à 100%.

Vous voila normalement avec un fichier SRT, fichier de sous-titre que vous pouvez ouvrir avec le bloc note windows qui contient en format TEXTE le sous-titrage ainsi que les informations de temporisation (quand afficher telle ou telle phrase ... )

Voici un petit logiciel gratuit plus intéressant que le bloc note de windows si vous avez besion de faire des retouches sur le texte et le time-code : Subtitle_Edit (hé oui, encore lui !)

 

5) Autre :

- Le logiciel : Avidemux 2.5.6 GTK+ 11Mo. D'autres versions d'Avidémux ici (Pour avoir Avidémux 2.5.6 GTK+ en français vous devez sélectionner la langue dans les options d'installation).

Au premier lancement de cet utilitaire plusieurs choses à savoir :

Le canal du sous-titre à récupérer : en général ID 80 en France.

Ensuite vous pouvez optionnellement utiliser des "Glyphs" préenregistrés, si vous n'en n'avez pas il vous faudra être patient et aider le logiciel à détecter chaque caractère nouveau pour lui, à la fin de la conversion l'utilitaire vous demandera si vous voulez enregistrer les nouveaux glyphs détectés et dans quel fichier : ce qui vous évitera  de saisir de nouveau à la main tous ces "glyphs"/caractères qui seront plus facilement détectés par la suite en relancant l'outil d'OCR.

- J'ai fait des essais avec les fichiers ts en ma posséssion et je ne suis arrivé à rien. A mon avis Avidemux GTK est obsolette car les auteurs ont abandonnés cette version.

 

Conclusions logiciels gratuits :
 
L'OCR n'est pas térrible et l'extration du fichier sous-titre ne marche pas toujours.