AliFreeFoldMulti : une méthode sans alignement pour prédire les structures secondaires d'ARN homologues
Publication date
2021Author(s)
Bossanyi, Marc-André
Subject
ARN non-codantAbstract
Prédire la structure d'un ARN est crucial pour la compréhension du mécanisme d'action de l'ARN. Les approches comparatives pour la prédiction de structures d'ARN peuvent être classées en quatre stratégies. Les trois premières, «aligner-et-replier», «aligner-puis-replier» et «replier-puis-aligner», exploitent des alignements multiples de séquences et/ou de structures pour améliorer la précision de la prédiction de la structure d'ARN conservée. Les méthodes «aligner-et-replier» performent généralement mieux, mais sont aussi typiquement plus lentes que les deux autres approches. La quatrième stratégie «sans-alignement», consiste à la prédiction de la structure de l'ARN conservée sans s'appuyer sur l'alignement de séquences ou de structures. Cette stratégie a l'avantage d'être plus rapide, tout en prédisant des structures précises grâce à l'utilisation de représentations latentes des structures candidates pour chaque séquence. Cet article présente aliFreeFoldMulti, une extension de l'algorithme d'aliFreeFold. Ce dernier prédit une structure secondaire représentative de plusieurs ARN homologues en utilisant une représentation vectorielle de leurs structures sous-optimales. aliFreeFoldMulti améliore aliFreeFold en calculant en plus la structure conservée pour chaque séquence. aliFreeFoldMulti est évaluée en comparant ses performances de prédiction et son efficacité de temps avec un ensemble de méthodes de prédiction de la structure d'ARN. aliFreeFoldMulti a les temps de calcul les plus bas et les scores de précision maximum les plus élevés. Il atteint une précision de prédiction de structures moyenne comparable à celle d'autres méthodes, à l'exception de TurboFoldII qui est la meilleure en termes de précision moyenne mais avec les temps de calcul les plus élevés. Nous présentons aliFreeFoldMulti comme une illustration du potentiel des approches «sans-alignement» pour fournir des méthodes rapides et précises de prédiction de la structure d'ARN. Le sujet de ce mémoire est la prédiction de structures secondaires de familles
d’ARN homologues. La structure secondaire d’une séquence d’ARN non-codant définit
généralement la fonction de cet ARN au sein de la cellule. Dans cette maîtrise,
nous avons développé un nouvel algorithme sans alignement pour prédire la structure
secondaire de chacune des séquences d’ARN d’une famille d’ARN non-codants.
Cet outil, aliFreeFoldMulti, est une extension d’un outil qui a été précédemment développé
au sein du laboratoire CoBIUS, soit aliFreeFold. Initialement, aliFreeFold
permet de prédire une seule structure secondaire représentative pour une famille de
séquences d’ARN homologues. Avec les algorithmes développés dans cette maîtrise,
aliFreeFoldMulti a la capacité de retourner une structure secondaire prédite pour
chacune des séquences d’ARN qui composent une famille. Quatre stratégies ont été
développées afin d’explorer de nouvelles approches pour prédire des structures secondaires
à partir d’aliFreeFold. En comparant l’outil aliFreeFoldMulti avec les différents
outils existants permettant de faire de la prédiction de structures secondaires de plusieurs
séquences d’ARN homologues, aliFreeFoldMulti est le plus rapide et retourne
des scores du même ordre de grandeur que les autres méthodes et les scores maximaux
les plus élevés. Une analyse approfondie des résultats d’aliFreeFoldMulti permet de
mettre en évidence le potentiel des méthodes sans alignement pour la prédiction de
structures secondaires d’ARN.
Collection
- Moissonnage BAC [4441]
- Sciences – Mémoires [1779]
The following license files are associated with this document: