Homogeneous ensemble feature selection for breast cancer biomarker identification from microarray data

Trevizan, Bernardo

dc.contributor.advisor	Recamonde-Mendoza, Mariana	pt_BR
dc.contributor.author	Trevizan, Bernardo	pt_BR
dc.date.accessioned	2021-07-16T04:31:11Z	pt_BR
dc.date.issued	2021	pt_BR
dc.identifier.uri	http://hdl.handle.net/10183/224101	pt_BR
dc.description.abstract	In precision medicine, the identification of biomarkers could help speed the diagnosis and tailor the treatment to each patient increasing the quality of health care. Omics data, such as microarray, generates high-dimensional data that has enabled the analysis of genes expression profiles to extract candidate biomarkers. However, high-dimensional data requires advanced computational methods for data analysis. In this work, we proposed a homogeneous ensemble feature selection (EFS) strategy to identify candidate biomarkers for breast cancer from multiple microarray datasets. We applied the state-of-the-art random effect model from meta-analysis as a comparison method. We also compared five feature selection (FS) methods as base selectors and four classification algorithms. Our results showed that FS method variance is the most stable among other FS methods. We showed that stability is higher within datasets than across datasets, indicating high sample heterogeneity among studies. The top 20 genes selected by variance showed the best trade-off between the number of selected genes and performance. Our approach outperform meta-analysis in four out of six independent microarray studies evaluated. Support Vector Machine classifier presented, in general, the best mean F1-Scores and K-Nearest Neighbors classifier the best mean Recall values. We conclude that homogeneous EFS is a promising methodology for candidate biomarkers identification, demonstrating stability and predictive performance as good as the reference statistical method.	en
dc.description.abstract	Na medicina de precisão, a identificação de biomarcadores pode ajudar a agilizar o diagnóstico e adequar o tratamento a cada paciente, aumentando a qualidade da assistência à saúde. Dados ômicos, como os de microarranjo, geram dados de alta dimensionalidade que permitem a análise de perfis de expressão gênica para extrair cadidatos a biomarcadores. No entanto, dados de alta dimensionalidade requerem métodos computacionais avançados para análise de dados. Neste trabalho, propusemos uma estratégia de seleção de atributos com um ensemble (EFS) homogêneo para identificar candidatos a biomarcadores para câncer de mama a partir de múltiplos dados de microarranjo. Aplicamos o método de meta-análise random effect model como método de comparação. Também comparamos cinco métodos de seleção de atributos (FS) como seletores base e quatro algoritmos de classificação. Nossos resultados mostraram que o método de FS variância é o mais estável entre os outros métodos de FS. Mostramos que a estabilidade é maior dentro dos conjuntos de dados do que entre os conjuntos de dados, indicando alta heterogeneidade entre os estudos. Os 20 genes mais informativos selecionados por variância apresentaram a melhor troca entre o número de genes selecionados e o desempenho. Nossa abordagem superou a meta-análise em quatro dos seis estudos independentes de microarranjo avaliados. O classificador Support Vector Machine apresentou, em geral, os melhores valores médios de F1-Score e o classificador K-Nearest Neighbors os melhores valores médios de recall. Concluímos que o EFS homogêneo apresentado é uma metodologia promissora para a identificação de candidatos a biomarcadores, demonstrando estabilidade e desempenho preditivo tão bom quanto o método estatístico de referência.	pt_BR
dc.format.mimetype	application/pdf	pt_BR
dc.language.iso	eng	pt_BR
dc.rights	Open Access	en
dc.subject	Biomarcadores	pt_BR
dc.subject	Feature selection	en
dc.subject	Microarray	en
dc.subject	Câncer de mama	pt_BR
dc.subject	Medicina de precisão	pt_BR
dc.subject	Análise de dados	pt_BR
dc.title	Homogeneous ensemble feature selection for breast cancer biomarker identification from microarray data	pt_BR
dc.title.alternative	Seleção de atributos com um ensemble homogêneo a partir de dados de microarranjo para identificação de biomarcadores de câncer de mama	pt
dc.type	Trabalho de conclusão de graduação	pt_BR
dc.identifier.nrb	001126759	pt_BR
dc.degree.grantor	Universidade Federal do Rio Grande do Sul	pt_BR
dc.degree.department	Instituto de Informática	pt_BR
dc.degree.local	Porto Alegre, BR-RS	pt_BR
dc.degree.date	2020	pt_BR
dc.degree.graduation	Ciência da Computação: Ênfase em Ciência da Computação: Bacharelado	pt_BR
dc.degree.level	graduação	pt_BR

Nome:: 001126759.pdf
Tamanho:: 1.658Mb
Formato:: PDF
Descrição:: Texto completo (inglês)

Visualizar/abrir

Este item está licenciado na Creative Commons License

Trabalhos de Conclusão de Curso de Graduação (35943)

TCC Ciência da Computação (992)

Mostrar registro simples