OpenCustomDB : un nouvel outil intégrant les cadres de lectures non-annotés et les variants génétiques pour la génération de bases de données protéiques personnalisées
Other titre : OpenCustomDB: a new tool integrating unannotated open reading frames and genetic variants to generate more comprehensive customized protein databases

View/ Open
Publication date
2021Author(s)
Guilloy, Noé
Subject
ProtéogénomiqueAbstract
A partir du séquençage ARN d’un individu il est possible d’identifier les variants génétiques qui ont un impact sur les séquences protéiques. Cette information peut être ensuite utilisée pour construire des bases de données protéiques personnalisées. La protéomique basée sur la spectrométrie de masse (MS) peut se servir de ces bases de données pour identifier les protéines uniques à un individu. Dans cette approche protéogénomique, les protéines variantes généralement exclues des bases de données sont intégrées. De ce fait elles deviennent détectables par la MS. De nouveaux cadres de lecture ouverts (ORFs) ont été découverts dans les régions non traduites (UTR) 5'- et 3'- de l’ARN messager (ARNm), chevauchant dans un cadre de lecture différent la séquence codante canonique déjà annotée, et dans les transcrits annotés comme de longs ARN non codants. Il devient nécessaire de développer un nouvel outil bio-informatique pour pouvoir générer des bases de données de protéines personnalisées intégrant des variants génétiques dans ces nouveaux cadres de lecture ouverts alternatifs afin de pouvoir détecter les protéines correspondantes.
Dans ce contexte de recherche nous avons déterminé deux objectifs :
- Le développement d’un générateur de base de données protéogénomique pour l’exploration du protéome non-canonique.
- La caractérisation du protéome alternatif de patients atteints de leucémie myéloïde aiguë.
Nous avons développé OpenCustomDB, un outil python qui utilise à la fois des données ARN-seq spécifiques à l'échantillon pour identifier des variants génomiques et la ressource OpenProt qui annote des protéines alternatives en plus de protéines canoniques. Nous avons testé OpenCustomDB avec une cohorte de 16 patients atteints de leucémie myéloïde aiguë et détecté des peptides provenant de protéines non canoniques, dont 119 variants. Nos résultats montrent qu'OpenCustomDB permet la détection de variants génétiques spécifiques à l'échantillon dans les protéines canoniques et alternatives. Cet outil contribuera au développement de la protéomique et de la médecine de précision. Abstract: Human proteins variants in a biological sample can be characterized by mass spectrometry (MS)-based proteomics using customized protein databases generated from a set of transcripts detected by RNA-seq in the sample. In this proteogenomic approach, variants resulting from nucleotide variations are integrated in the customized protein database, whilst they are typically excluded from generic protein databases; as such, they become detectable by MS. With the discovery of translated alternative open reading frames within 5’- and 3’-UTRs of mRNAs, overlapping the annotated coding sequence in a different reading frame, and within transcripts annotated as long noncoding RNAs. It becomes necessary to develop a new tool to be able to generate customized protein databases integrating genetic variants within alternative open reading frames. In this research context we determined two objectives: - The development and distribution of a proteogenomique database generator for the exploration of the non-canonical proteome. - The characterisation of the alternative proteome of acute myeloid leukemia patients. We developed OpenCustomDB, a python tool that uses both sample specific RNAseq data to identify genomic variants and the OpenProt resource that annotates alternative proteins in addition to canonical proteins. We tested OpenCustomDB with a cohort of 16 patients with acute myeloid leukemia and detected peptides from non-canonical proteins, including 119 variants. Our results show that OpenCustomDB enables the detection of sample-specific genetic variants in both canonical and alternative proteins. This tool will help in the development of precision proteomics and medicine.
Collection
- Moissonnage BAC [4508]
- Médecine et sciences de la santé – Mémoires [1788]