Metric for validation of predictive classification models to predict the risk of heart attack
DOI:
https://doi.org/10.22567/rep.v14i1.1072Keywords:
statistical metrics, Machine Learning, artificial intelligence, F-score , AccuracyAbstract
Machine learning methods are a constant feature of today's discourse on the relationship between humans and machines, from university lectures to political speeches. This work was developed entirely in Python, using predefined libraries, as the language is already known to be well-suited for data analysis and data science. The potential of these machine learning models in predicting cardiovascular events stands out, offering an opportunity to identify at-risk patients early and personalize interventions to improve outcomes and quality of life. This research sought to apply and evaluate the metrics of accuracy, precision, recall, f1-score, FMI, and AUC of the ROC curve to validate the results of Random Forest prediction regarding the risk of myocardial infarction in a database of 918 patients.
References
Andrade, M., Santos, J. & Freitas, J. (2023). Sistema de detecção de intrusão utilizando métodos de aprendizagem de máquina em redes de computadores. Revista de ciência e inovação do IFFAR, 09. doi:10.26669/2448-4091.2023.388
Belloni, M. & Righetto, A. J. (2024). Random Forest para classificação em relação ao risco de infarto do miocárdio. Monografia, Universidade de São Paulo / USP - Esalq, Data Science and Analytics.
Bruna, M. H. (2023). Infarto do miocárdio (ataque cardíaco). Acesso em 12 de 02 de 2024, disponível em drauzio varella - drauzio varella: https://drauziovarella.uol.com.br/doencas-e-sintomas/infarto-do-miocardio-ataque-cardiaco/
Fernando, P. H. L.; Fabricio, D. A. K.; Trevisan, L.; Lixandrão, K. C. de L. & Lima, C. R. G. (2023). Metrologia. São Paulo: Grupo A.
Ho, T. K. (1995). Random Decision Forests. Proceedings of 3rd International Conference on Document Analysis and Recognition, pp. 278-282. Fonte: https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=598994
Kaggle. (2024). Your Machine Learning and Data Science Community. Acesso em 26 de 11 de 24, disponível em https://www.kaggle.com
Martinez, E. Z. & Louzada Neto, F. (2003). A curva ROC para testes diagnósticos. Caderno de saúde coletiva, pp. 7-31.
Martins, A. d. (2023). Epidemiologia. São Paulo: Grupo A.
Mello, J. F. (2023.). Anotações de aula. Árvores, Redes e Ensemble Models I e II. MBA em Data Science & Analytics. . Piracicaba/ SP.: USP/Esalq.
Olson, D. & Delen, D. (2008). Advanced Data Mining Techniques. Heidelberg, Alemanha.: Springer.
sklearn.ensemble.RandomForestClassifier. (2024). Acesso em 20 de 01 de 2024, disponível em Scikit learn 1.3: https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html
Strauss, E., Bôas Junior, M. V., & Ferreira, W. L. (2022). A importância de utilizar métricas adequadas de avaliação de performance em modelos preditivos de machine learning. Projectus, 7, pp. 57-62. doi:10.15202/25254146.2022v7n2p52
Vilela Junior, G. d. (2022a). Determinação das métricas usuais a partir da matriz de confusão de classificadores multiclasse em algoritmos inteligentes nas ciências do movimento humano. Revista Centro de Pesquisas Avançadas em Qualidade de Vida, 14(2). doi:10.36692/v14n2-01
Vilela Junior, G. d. (2022b). Importância do índice Fowlkes-Mallows (FMI), do coeficientede correlação de Matthews (MCC) e do índice Youden (IY) nosclassificadores de inteligência artificial na área da saúde. Revista CPAQV – Centro de Pesquisas Avançadas em Qualidade de Vi, 14(3). doi:10.36692/v14n3-01
Downloads
Published
How to Cite
Issue
Section
License
Copyright (c) 2025 Revista Eniac Pesquisa

This work is licensed under a Creative Commons Attribution 4.0 International License.




