Comparação de ferramentas in silico para avaliação de patogenicidade de variantes missense

Borges, Pâmella

dc.contributor.advisor	Matte, Ursula da Silveira	pt_BR
dc.contributor.author	Borges, Pâmella	pt_BR
dc.date.accessioned	2022-10-27T04:49:51Z	pt_BR
dc.date.issued	2021	pt_BR
dc.identifier.uri	http://hdl.handle.net/10183/250399	pt_BR
dc.description.abstract	A análise de variantes representa um processo crítico no diagnóstico molecular e os programas in silico são especialmente usados quando nenhuma informação de literatura está disponível. Diferentes programas avaliam os possíveis efeitos gerados pela mutação, considerando critérios como conservação de aminoácidos e nucleotídeos, local e importância estrutural da alteração e fatores bioquímicos. Entretanto, esses critérios recebem pesos diferentes em cada programa e isso pode impactar diferentes grupos de proteínas de forma desigual. Portanto, saber qual programa é melhor para um gene específico representa uma maneira de aumentar a confiança na avaliação dos preditores. Porém, a obtenção desta informação implica em extensa revisão da literatura para avaliação dos programas. O processamento de linguagem natural, uma técnica de mineração de texto, pode ser empregado como forma de automatizar a busca na literatura de informações sobre as variantes e assim poder comparar os preditores com uma base maior de informações. Portanto, o objetivo deste trabalho é desenvolver uma ferramenta para comparar preditores in silico de acordo com o tipo de proteína. Uma revisão dos preditores mais e menos citados na literatura questiona os critérios de escolha das ferramentas para avaliar variantes missense e discorre sobre as características dos principais preditores. Para estabelecer o workflow para a ferramenta proposta e obter dados de validação, foi realizada a comparação de 34 ferramentas in silico utilizando dados curados manualmente para o gene IDUA. O desempenho dos preditores foi avaliado em dois grupos de variantes, um criado a partir de critérios mais rigorosos (108 variantes) e o outro a partir de critérios menos rigorosos (160 variantes). Os mesmos três preditores (BayesDel, PONP2 e ClinPred) apresentaram melhores desempenhos nos dois grupos e foram usados para avaliar 462 variantes de significado incerto. Finalmente, o pipeline de análise utilizado nesta comparação está sendo integrado com um algoritmo de mineração de texto, ainda em desenvolvimento, que realiza a extração automatizada das variantes relatadas na literatura com a sua interpretação clínica. Espera-se que a automatização de todo o processo possa ser usada para a escolha dos melhores preditores para cada situação específica.	pt_BR
dc.description.abstract	Variant analysis represents a critical process in molecular diagnosis and in silico programs are traditionally used when no literature information is available. Different programs evaluate the possible effects generated by the variant, considering criteria such as conservation of amino acids and nucleotides, location and structural importance of the alteration, and biochemical factors. However, these criteria are given different weights in each program and this can have an uneven impact on different groups of proteins. Therefore, knowing which program is best for a specific gene is a way to increase confidence in predictor evaluation. However, obtaining this information implies an extensive literature review to evaluate the programs. Natural language processing, a text mining technique, can be used as a way to automate the literature search for information about variants and thus allow the comparison of predictors with a larger informational base. Therefore, the aim of this work is to develop a tool to compare in silico predictors according to the protein type. A review of predictors’ most and least cited in the literature question the criteria for choosing tools to assess missense variants and discuss the characteristics of the main predictors. To establish the workflow and obtain validation data for the proposed tool, 34 programs were compared in silico using manually cured data for the IDUA gene. The predictors' performance was evaluated in two groups of variants, one created stricter criteria (108 variants) and the other less stringent criteria (160 variants). The same three predictors (BayesDel, PONP2, and ClinPred) had the best performance in both groups and were used to evaluate 462 variants of uncertain significance. Finally, the analysis pipeline used in this comparison is being integrated with a text mining algorithm, still under development, which performs the automated extraction of the variants reported in the literature with its clinical interpretation. It is expected that the automation of the entire process can be used to choose the best predictors for each specific situation.	en
dc.format.mimetype	application/pdf	pt_BR
dc.language.iso	eng	pt_BR
dc.rights	Open Access	en
dc.subject	Diagnostico molecular	pt_BR
dc.subject	Silico programs	en
dc.subject	Processamento de linguagem natural	pt_BR
dc.subject	Silico predictors	en
dc.title	Comparação de ferramentas in silico para avaliação de patogenicidade de variantes missense	pt_BR
dc.type	Dissertação	pt_BR
dc.identifier.nrb	001142456	pt_BR
dc.degree.grantor	Universidade Federal do Rio Grande do Sul	pt_BR
dc.degree.department	Instituto de Biociências	pt_BR
dc.degree.program	Programa de Pós-Graduação em Genética e Biologia Molecular	pt_BR
dc.degree.local	Porto Alegre, BR-RS	pt_BR
dc.degree.date	2021	pt_BR
dc.degree.level	mestrado	pt_BR

Nome:: 001142456.pdf
Tamanho:: 3.224Mb
Formato:: PDF
Descrição:: Texto completo

Visualizar/abrir

Este item está licenciado na Creative Commons License

Ciências Biológicas (3919)

Genética e Biologia Molecular (647)

Mostrar registro simples