• Français
    • English
  • Français 
    • Français
    • English
  • Login
View Document 
  •   Savoirs UdeS Home
  • Génie
  • Génie – Mémoires
  • View Document
  •   Savoirs UdeS Home
  • Génie
  • Génie – Mémoires
  • View Document
JavaScript is disabled for your browser. Some features of this site may not work without it.

Browse

All of Savoirs UdeSDomains & CollectionsBy Issue DateAuthorsTitlesSubjectsDirectorsThis CollectionBy Issue DateAuthorsTitlesSubjectsDirectors

My Account

Login

Statistics

View Usage Statistics

Alignement du chant par rapport à une référence audio en temps réel

Thumbnail
View/Open
MR93337.pdf (6.451Mb)
Publication date
2013
Author(s)
Julien, Eric
Subject
WDCTC
 
MFCC
 
PLP
 
DTW
 
Audio
 
Chant
 
Alignement
Show full document record
Abstract
Dans l'optique de créer un système de karaoké qui modifie une interprétation chantée à capella en temps réel, il est nécessaire de pouvoir localiser l'interprète par rapport à une référence afin de pouvoir déterminer quelle serait la cible d'un algorithme de modification de la voix. Pour qu'un tel système fonctionne bien, il est nécessaire que l'algorithme d'alignement exploite au maximum les spécificités de la voix, qu'il utilise l'information liée au texte prononcé plutôt qu'aux aspects artistiques du chant, qu'il soit à temps réel et qu'il offr la plus faible latence possible. Afin d'atteindre ces objectifs, un système d'alignement basé sur le Dynamic Time Warping (DTW) a été développé. Une adaptation temps réel simple de l'algorithme ordinaire de la DTW qui permet d'atteindre les objectifs énumérés est proposée et comparée à d'autres approches répertoriées dans la littérature. Cette adaptation a permis d'obtenir de meilleurs résultats que les autres techniques testées. Une étude comparative de trois types d'analyses spectrales couramment utilisées dans des systèmes de reconnaissance automatique de la voix a été réalisée, dans le cadre spécifique d'un algorithme d'alignement de la voix chantée. Les coefficients évalués sont les Mel-frquency Cepstrum Coefficients (MFCC), les Warped Discrete Cosine Transform Coefficients (WDCTC) et les coefficients de l'analyse Perceptual Linear Prediction (PLP). Les résultats obtenus indiquent une meilleure performance pour l'analyse PLP. L'utilisation d'une fonction de transformation linéaire par morceaux, appliquée aux matrices de coûts instantanés obtenues, permet de rendre l'alignement le plus facilement distinguable dans les matrices de coûts cumulés calculées. Les paramètres de la fonction de transformation peuvent être obtenus par l'optimisation en boucle fermée par recherche directe par motif. Une fonction-objectif permettant d'éviter les discontinuités de l'écart quadratique moyen sur l'alignement est développée. Plusieurs matrices de coûts peuvent être combinées entre elles en effectuant une somme pondérée des matrices de coûts instantanées transformées de chacun des paramètres considérés. La pondération est également obtenue par optimisation. Plusieurs assemblages sont comparés : les meilleurs résultats sont obtenus avec une combinaison de l'analyse PLP et du niveau d'énergie et des dérivées de ceux-ci. L'écart moyen sur l'alignement de référence est de l'ordre de 50 ms, avec un écart-type d'environ 75 ms pour les séquences testées. Des perspectives permettant d'améliorer la convergence de l'algorithme pour les paires de séquences audio difficiles à aligner, d'obtenir de meilleures matrices de coûts en utilisant d'autres contraintes locales, en considérant l'intégration de nouveaux paramètres tels le pitch ou en utilisant une base de données de voix chantée segmentée pour optimiser une mesure de distance sont données.
URI
http://hdl.handle.net/11143/6184
Collection
  • Génie – Mémoires [1850]

DSpace software [version 5.4 XMLUI], copyright © 2002-2015  DuraSpace
Contact Us | Send Feedback
 

 


DSpace software [version 5.4 XMLUI], copyright © 2002-2015  DuraSpace
Contact Us | Send Feedback