Show simple item record

dc.contributor.advisorRecamonde-Mendoza, Marianapt_BR
dc.contributor.authorPeixoto, Taiane de Oliveirapt_BR
dc.date.accessioned2023-07-04T03:51:17Zpt_BR
dc.date.issued2023pt_BR
dc.identifier.urihttp://hdl.handle.net/10183/259945pt_BR
dc.description.abstractA Taxa de Mortalidade Infantil (TMI) é considerada um dos indicadores mais relevantes das condições de vida de uma população. No ano de 2020, a TMI foi de 8,62/1000 nasci dos vivos (NV) no estado do Rio Grande do Sul (RS), atingindo a meta anual firmada pelo estado de 9,75/1000. Em torno de 77,49% dos casos foram óbitos neonatais, isto é, antes de 28 dias de vida completos. Tendo em vista que saúde é um dos indicadores brasileiros para os objetivos de desenvolvimento sustentável e esse objetivo inclui a meta de reduzir a Taxa de Mortalidade Neonatal (TMN), é importante identificar os fatores associados com a TMN no Brasil e suas regiões, e investigar a utilização dos mesmos para o treinamento de modelos preditivos para o risco de óbito neonatal aplicando, por exemplo, Aprendi zado de Máquina (AM). Visto que esta tarefa de classificação lida com uma distribuição de classes inerentemente desbalanceada, torna-se necessário investigar o impacto do des balanceamento de classes no desempenho de algoritmos e a efetividade de estratégias existentes para lidar com este desafio. Assim, este trabalho analisa estratégias computaci onais para lidar com o desbalanceamento de classes em AM em dados de óbito neonatal do RS. Foram avaliados quatro algoritmos de classificação baseados em árvores de decisão e seis métodos para lidar com o desbalanceamento de classes, incluindo métodos de amos tragem, métodos baseados em modificações de algoritmos ensemble e uma abordagem sensível ao custo. Ao final, os desempenhos dos modelos preditivos foram comparados e avaliados para uma base de dados construída a partir do pré-processamento e integração dos dados do Sistema de Informação sobre Nascidos Vivos (SINASC) e Sistema de Infor mação sobre Mortalidade (SIM) para o RS, apresentando 99.6% de instâncias na classe negativa. O classificador XGBoost combinado com o método SMOTE-ENN foi o que melhor lidou com o desbalanceamento de classes nesse domínio, alcançando 73% de acu rácia balanceada, 46% de sensibilidade e 46% de score F1. Também foi constatado que o método SMOTE-ENN melhorou o desempenho dos modelos que utilizaram algoritmos de boosting, onde a sensibilidade aumentou em 8% no modelo com AdaBoost e 9% no modelo com XGBoost. Por fim, a abordagem sensível ao custo melhorou o desempenho dos modelos com árvore de decisão e florestas aleatórias, aumentando a sensibilidade em 26% no modelo com árvore de decisão e 45% no modelo com florestas aleatórias.pt_BR
dc.description.abstractThe Infant Mortality Rate (IMR) is considered one of the most relevant indicators of the living conditions of a population. In 2020, the IMR was 8.62/1000 live births in the state of Rio Grande do Sul (RS), reaching the annual target set by the state of 9.75/1000. Around 77.49% of cases were neonatal deaths, that is, before 28 full days of life. Con sidering that health is one of the Brazilian indicators for sustainable development goals and this goal includes the target of reducing the Neonatal Mortality Rate (NMR), it is important to identify the factors associated with NMR in Brazil and its regions, and to investigate their use in training predictive models for the risk of neonatal death using, for example, Machine Learning (ML). Since this classification task deals with an inherently imbalanced class distribution, it is necessary to investigate the impact of class imbalance on algorithm performance and the effectiveness of existing strategies to deal with this challenge. Thus, this work analyzes computational strategies to deal with class imbalance in ML on neonatal death data in RS. Four classification algorithms based on decision trees and six methods for dealing with class imbalance were evaluated, including sampling methods, methods based on modifications of ensemble algorithms, and a cost-sensitive approach. Finally, the predictive model performances were compared and evaluated for a database constructed from the preprocessing and integration of data from the Live Birth Information System (SINASC) and Mortality Information System (SIM) for RS, present ing 99.6% of instances in the negative class. The XGBoost classifier combined with the SMOTE-ENN method was the one that best dealt with class imbalance in this domain, achieving 73% balanced accuracy, 46% sensitivity, and 46% F1 score. It was also found that the SMOTE-ENN method improved the performance of models that used boosting algorithms, where sensitivity increased by 8% in the AdaBoost model and 9% in the XG Boost model. Finally, the cost-sensitive approach improved the performance of models with decision trees and random forests, increasing sensitivity by 26% in the decision tree model and 45% in the random forests model.en
dc.format.mimetypeapplication/pdfpt_BR
dc.language.isoengpt_BR
dc.rightsOpen Accessen
dc.subjectAprendizado de máquinapt_BR
dc.subjectNeonatal mortalityen
dc.subjectÓbito neonatalpt_BR
dc.subjectClass imbalanceen
dc.titleComparação de estratégias para lidar com o desbalanceamento de classes : um estudo de caso com dados de mortalidade neonatal no Rio Grande do Sulpt_BR
dc.title.alternativeComparison of strategies to deal with class imbalance: a case study with neonatal mortality data in Rio Grande do Sul pt
dc.typeTrabalho de conclusão de graduaçãopt_BR
dc.contributor.advisor-coKowalski, Thayne Woycinckpt_BR
dc.identifier.nrb001172289pt_BR
dc.degree.grantorUniversidade Federal do Rio Grande do Sulpt_BR
dc.degree.departmentInstituto de Informáticapt_BR
dc.degree.localPorto Alegre, BR-RSpt_BR
dc.degree.date2023pt_BR
dc.degree.graduationCiência da Computação: Ênfase em Ciência da Computação: Bachareladopt_BR
dc.degree.levelgraduaçãopt_BR


Files in this item

Thumbnail
   

This item is licensed under a Creative Commons License

Show simple item record