Codage de parole par transformée pour le développement de codeurs parole-audio unifiés

View/ Open
Publication date
2015Author(s)
Vilaysouk, Vilayphone
Subject
Codage de paroleAbstract
La compression de tous les types de signaux audio (parole et audio) constitue un vaste domaine de recherche, car il tente de répondre à de nombreuses et différentes demandes provenant de l’industrie. Actuellement, l’industrie de la téléphonie mobile possède de nombreuses requêtes au niveau de la compression de signaux audio à faible débit (sous les 32 kbit/s). Dans cette plage de débit, deux modèles sont nécessaires pour compresser tous les types de signaux audio : les codecs temporels s’utilisent pour la compression des signaux de parole et les codecs fréquentiels (par transformée) plus généraux s’utilisent pour la compression des signaux audio tels que la musique. Les téléphones intelligents et les tablettes numériques représentent des exemples d’appareils qui doivent intégrer deux codecs différents. Idéalement, ces appareils devraient intégrer un codec unique qui compresse tous les types de signaux audio.
Cependant, l’unique moyen actuel d’obtenir un «codec universel» consiste en un «codec hybride universel». Les codecs hybrides universels intègrent au moins deux modèles de codage et un classificateur, qui sélectionne le modèle à exécuter selon le signal à traiter. Ces codecs ne représentent donc pas véritablement des codecs unifiés. De plus, avec l’utilisation d’un classificateur, les codecs hybrides introduisent également la possibilité d’erreurs de classification durant l’analyse. Ces codecs hybrides ont également tendance à être plus complexes puisqu’ils doivent gérer les différents modèles de codage. Après plus de trente ans de recherche, il existe toujours une distinction entre les approches utilisées pour la compression des signaux de parole et celles utilisées pour les signaux audio. Les codecs temporels se basent sur un modèle de production de la parole tandis que les codecs fréquentiels utilisent un modèle de perception auditive pour les signaux audio. Cette thèse propose des contributions dans l’élaboration d’un modèle de codage audio universel et véritablement unifié. Ces contributions se présentent dans cette thèse par un modèle d’analyse-synthèse de type harmonique-plus-bruit pour les signaux de parole qui fonctionne entièrement dans le domaine fréquentiel. Cette thèse démontre qu’il est possible d’obtenir un signal de parole de qualité perceptuelle transparente sans nécessairement suivre l’évolution de la forme d’onde du signal original. De plus, cette thèse propose également une version quantifiée du modèle d’analyse-synthèse et démontre qu’il est possible d’obtenir un signal de synthèse de bonne qualité pour des débits autour de 24 kbit/s et de 30 kbit/s. Lors des tests subjectifs MOS, le modèle se situe dans la même catégorie de qualité que la norme G.722.2 (AMR-WB) de l’institut UIT pour un débit autour de 24 kbit/s. Le modèle possède l’avantage de fonctionner entièrement dans le domaine fréquentiel et démontre ainsi les possibilités d’un codec réellement universel puisque traditionnellement le domaine des fréquences était réservé aux signaux audio autres que les signaux de parole.
Collection
- Moissonnage BAC [4441]
- Génie – Thèses [972]
The following license files are associated with this document:
Related documents
Showing documents related by title, author, creator and subject.
-
Amélioration de codecs audio standardisés avec maintien de l'interopérabilité
Lapierre, Jimmy (Université de Sherbrooke, 2016)Résumé : L’audio numérique s’est déployé de façon phénoménale au cours des dernières décennies, notamment grâce à l’établissement de standards internationaux. En revanche, l’imposition de normes introduit forcément une ... -
Approches paramétriques pour le codage audio multicanal
Lapierre, Jimmy (Université de Sherbrooke, 2007)Résumé : Afin de répondre aux besoins de communication et de divertissement, il ne fait aucun doute que la parole et l’audio doivent être encodés sous forme numérique. En qualité CD, cela nécessite un débit numérique de ... -
Machine learning for cognitive speech coding
Other titre : Apprentissage automatique pour le codage cognitif de la paroleLotfidereshgi, Reza (Université de Sherbrooke, 2022)Depuis les années 80, les codecs vocaux reposent sur des stratégies de codage à court terme qui fonctionnent au niveau de la sous-trame ou de la trame (généralement 5 à 20 ms). Les chercheurs ont essentiellement ajusté et ...