Gene Expression Variation Analysis (GEVA) : um novo pacote do R para avaliar variações de expressão diferencial em múltiplas comparações

Nunes, Itamar José Guimarães

dc.contributor.advisor	Dorn, Márcio	pt_BR
dc.contributor.author	Nunes, Itamar José Guimarães	pt_BR
dc.date.accessioned	2021-12-17T04:30:51Z	pt_BR
dc.date.issued	2020	pt_BR
dc.identifier.uri	http://hdl.handle.net/10183/233086	pt_BR
dc.description.abstract	Transcritomas descrevem o perfil de expressão gênica de um organismo e oferecem uma quantidade considerável de informações sobre uma condição biológica, o que permite avaliar, por exemplo, todos os genes diferencialmente expressos no contexto de uma doença complexa. Além disso, dezenas de milhares de conjuntos de dados produzidos experimentalmente estão disponíveis publicamente, podendo ser analisados in silico com softwares especializados ou pela linguagem de programação R. No entanto, análises transcritômicas são efetuadas individualmente para cada condição experimental, onde cada comparação gera um resultado independente dos demais, e não há uma metodologia enquadrada a milhares de genes para comparar múltiplas condições biológicas entre si. Neste sentido, considerando a aplicabilidade da linguagem R para transcritomas, foi desenvolvido um pacote de métodos em R, denominado Gene Expression Variation Analysis (GEVA), para avaliar quais genes poderiam responder a diferentes condições experimentais. O pacote recebe múltiplos resultados de expressão diferencial como entrada e efetua uma sequência de operações estatísticas intermediárias, como sumarização ponderada, separação por quantis e clusterização, a fim de encontrar genes cuja expressão altera-se similarmente entre os experimentos. Essas operações levam todos os genes em conta para que se possa distinguir os transcritos relevantes daqueles que não demonstram diferença de expressão gênica. Além disso, se as condições experimentais forem divididas em grupos (denominados fatores), o módulo também utilizará testes ANOVA (Fisher e Levene) para identificar genes diferencialmente expressos em resposta a todos os fatores ou a um fator específico. Deste modo, três diferentes classificações para genes relevantes são definidas nos resultados finais: similar, fator-dependente, e fator-específico. Para validar esses resultados, após o desenvolvimento do GEVA, foram testados 28 conjuntos de dados transcritômicos utilizando 11 diferentes combinações de parâmetros disponíveis pelo pacote, incluindo uma variedade de métodos de clusterização, de quantis e de sumarização. As classificações finais foram avaliadas especialmente para condições de nocaute, onde a mudança na expressão dos genes modificados já é esperada. Neste sentido, embora as classificações finais fossem afetadas pela escolha de certos parâmetros, os resultados dos testes demonstraram coerência com os estudos experimentais referentes aos conjuntos testados com os parâmetros-padrão. Deste modo, conclui-se que o GEVA pode ser uma alternativa robusta para análises com múltiplas comparações, podendo ser utilizado para encontrar similaridades entre grupos de condições biológicas.	pt_BR
dc.description.abstract	Transcriptomes represent an organism’s gene expression profile and abound substantial information for a biological condition, by which it is possible to evaluate, for instance, an entire set of genes in the context of a complex disease. Furthermore, there are dozen of thousands of publicly available datasets from previous experiments which can be analyzed in silico using specialized software or the R programming language. However, transcriptomic analyses consider experimental conditions individually, giving one independent result per comparison, and there is no suitable methodology to compare within multiple biological conditions containing thousands of genes. In this sense, considering that R has been adopted for transcriptomic analyses, we developed a new R package named Gene Expression Variation Analysis (GEVA) to evaluate which genes would react in response to different experiments. This package gets multiple differential expression analysis results as input and performs an array of statistical steps such as weighted summarization, quantiles partition, and clustering, to find genes whose differential expression is similar among the experiments. These operations take all genes into account so that relevant transcripts are distinguished from those without differential expression. In addition, if the experimental conditions are divided into groups (i.e., factors), this module will also perform ANOVA (Fisher’s and Levene’s) tests to identify differentially expressed genes in response to every factor or to a single factor. This way, the final results present three possible classifications for relevant genes: similar, factor-dependent, and factor-specific. To validate these results subsequently to the GEVA’s development, 28 transcriptomic datasets were tested using 11 different combinations of the available parameters in this package, including several methods for clustering, quantiles and summarization. The validation regarding the final classifications was particularly performed using knockout studies, as these cases include modified genes whose differential expression is expected. In this sense, although some of the final classifications differed depending on the parameters’ choice, the test results from the default parameters corroborated with the published experimental studies regarding the selected datasets. Thus, we conclude that GEVA can effectively find similarities between groups of biological conditions, and therefore could be a robust alternative for multiple comparison analyses.	en
dc.format.mimetype	application/pdf	pt_BR
dc.language.iso	por	pt_BR
dc.rights	Open Access	en
dc.subject	Gene	pt_BR
dc.subject	Transcriptomics	en
dc.subject	Transcriptoma	pt_BR
dc.subject	Gene expression	en
dc.subject	Expressão gênica	pt_BR
dc.title	Gene Expression Variation Analysis (GEVA) : um novo pacote do R para avaliar variações de expressão diferencial em múltiplas comparações	pt_BR
dc.type	Dissertação	pt_BR
dc.contributor.advisor-co	Feltes, Bruno César	pt_BR
dc.identifier.nrb	001133163	pt_BR
dc.degree.grantor	Universidade Federal do Rio Grande do Sul	pt_BR
dc.degree.department	Centro de Biotecnologia do Estado do Rio Grande do Sul	pt_BR
dc.degree.program	Programa de Pós-Graduação em Biologia Celular e Molecular	pt_BR
dc.degree.local	Porto Alegre, BR-RS	pt_BR
dc.degree.date	2020	pt_BR
dc.degree.level	mestrado	pt_BR

Nome:: 001133163.pdf
Tamanho:: 6.481Mb
Formato:: PDF
Descrição:: Texto completo

Visualizar/abrir

Este item está licenciado na Creative Commons License

Ciências Biológicas (3918)

Biologia Celular e Molecular (585)

Mostrar registro simples