Prediksi Risiko Stroke Berdasarkan Faktor Klinis Menggunakan Random Forest Dengan Optimasi Threshold dan SHAP

Chaerul Hidayat; Agung Nugroho; Asep Suprianto

doi:10.47134/jacis.v6i1.178

Authors

Chaerul Hidayat Universitas Pelita Bangsa
Agung Nugroho Universitas Pelita Bangsa
Asep Suprianto Universitas Pelita Bangsa

DOI:

https://doi.org/10.47134/jacis.v6i1.178

Keywords:

Stroke, Random Forest, SMOTEENN, SHAP, Prediksi Risiko

Abstract

Stroke merupakan salah satu penyebab utama kematian dan kecacatan di berbagai negara, sehingga diperlukan metode prediksi risiko yang akurat berbasis data klinis. Namun, penelitian sebelumnya umumnya masih menghadapi permasalahan ketidakseimbangan data serta kurang memberikan interpretasi terhadap faktor klinis yang berpengaruh. Penelitian ini mengembangkan model prediksi risiko stroke dengan mengatasi ketidakseimbangan data serta meningkatkan interpretabilitas model. Dataset yang digunakan terdiri dari 5.110 data pasien dengan distribusi kelas yang tidak seimbang. Untuk mengatasi permasalahan tersebut, diterapkan metode SMOTEENN dan algoritma Balanced Random Forest, serta analisis menggunakan pendekatan Explainable Artificial Intelligence (XAI). Hasil evaluasi menunjukkan bahwa model memiliki kinerja yang cukup baik dengan nilai accuracy sebesar 79,26% dan ROC-AUC sebesar 82,01%. Namun, nilai precision yang relatif rendah (15,68%) menunjukkan masih terdapat prediksi positif yang tidak tepat, sebagai konsekuensi dari peningkatan recall sebesar 74% dalam mendeteksi kasus stroke sebagai kelas minoritas. Analisis SHAP menunjukkan bahwa usia, kadar glukosa, hipertensi, dan indeks massa tubuh merupakan faktor utama dalam prediksi risiko stroke. Penelitian ini memberikan kontribusi dalam meningkatkan deteksi kasus stroke serta menyediakan interpretasi model yang lebih transparan

References

[1] World Stroke Organization, “World Stroke Organization Annual Report 2023,” World Stroke Organization, Geneva, Switzerland, Annual Report Annual Report 2023, 2023. [Online]. Available: https://www.world-stroke.org/

[2] S. Sutrisno, C. N. Widayati, and U. Rukanah, “Hubungan Kecepatan Pertolongan Pertama Keluarga Penderita Hipertensi Dengan Kejadian Stroke Pada Penderita Hipertensi Di Wilayah Uptd Puskesmas Purwodadi I,” Shine Cahaya Dunia -1 Keperawatan, vol. 7, no. 2, Dec. 2022, doi: 10.35720/tscs1kep.v7i2.389. DOI: https://doi.org/10.35720/tscs1kep.v7i2.389

[3] S. S. Kasim et al., “Validation of the general Framingham Risk Score (FRS), SCORE2, revised PCE and WHO CVD risk scores in an Asian population,” Lancet Reg. Health - West. Pac., vol. 35, p. 100742, Jun. 2023, doi: 10.1016/j.lanwpc.2023.100742. DOI: https://doi.org/10.1016/j.lanwpc.2023.100742

[4] A. R. Dana, R. V. Kristananda, M. B. S. Wibowo, and D. A. Prasetya, “Perbandingan Algoritma Decision Tree dan Random Forest dengan Hyperparameter Tuning dalam Mendeteksi Penyakit Stroke,” vol. 4, 2024.

[5] H. A. Nabila and Endang Wahyu Pamungkas, “Perbandingan Algoritma Machine Learning: Svm, Random Forest, Dan Xgboost Untuk Prediksi Stroke,” Rabit J. Teknol. Dan Sist. Inf. Univrab, vol. 10, no. 2, pp. 1098–1110, Jul. 2025, doi: 10.36341/rabit.v10i2.6444. DOI: https://doi.org/10.36341/rabit.v10i2.6444

[6] Ary Prandika Siregar, Dwi Priyadi Purba, Jojor Putri Pasaribu, and Khairul Reza Bakara, “Implementasi Algoritma Random Forest Dalam Klasifikasi Diagnosis Penyakit Stroke,” J. Penelit. Rumpun Ilmu Tek., vol. 2, no. 4, pp. 155–164, Nov. 2023, doi: 10.55606/juprit.v2i4.3039. DOI: https://doi.org/10.55606/juprit.v2i4.3039

[7] Y. Aulia, A. Andriyansyah, S. Suharjito, and S. W. Nensi, “Analisis Prediksi Stroke dengan Membandingkan Tiga Metode Klasifikasi Decision Tree, Naïve Bayes, dan Random Forest,” J. Ilmu Komput. Dan Inform., vol. 3, no. 2, pp. 89–98, Jan. 2024, doi: 10.54082/jiki.90. DOI: https://doi.org/10.54082/jiki.90

[8] Y. Azhar, A. K. Firdausy, and P. J. Amelia, “Perbandingan Algoritma Klasifikasi Data Mining Untuk Prediksi Penyakit Stroke,” SINTECH Sci. Inf. Technol. J., vol. 5, no. 2, pp. 191–197, Oct. 2022, doi: 10.31598/sintechjournal.v5i2.1222. DOI: https://doi.org/10.31598/sintechjournal.v5i2.1222

[9] Gullam Almuzadid and Egia Rosi Subhiyakto, “Stroke Risk Classification Using the Ensemble Learning Method of XGBoost and Random Forest,” J. Appl. Inform. Comput., vol. 9, no. 3, pp. 828–837, Jun. 2025, doi: 10.30871/jaic.v9i3.9528. DOI: https://doi.org/10.30871/jaic.v9i3.9528

[10] W. A. Pamungkas, “Penerapan Klasifikasi Data Mining Untuk Prediksi Dengan Metode Algoritma Decission Tree,” vol. 2, no. 2, 2025.

[11] M. Putri, “Prediksi Penyakit Stroke Menggunakan Machine Learning Dengan Algoritma Random Forest”.

[12] Bhargavi Konda, “The impact of data preprocessing on data mining outcomes,” World J. Adv. Res. Rev., vol. 15, no. 3, pp. 540–544, Sep. 2022, doi: 10.30574/wjarr.2022.15.3.0931. DOI: https://doi.org/10.30574/wjarr.2022.15.3.0931

[13] L. Santoso, “Mengoptimalkan Proses Pembersihan Data dalam Analisis Big Data Menggunakan Pipeline Berbasis AI,” vol. 17, no. 2, 2024.

[14] M. Sutcu, D. Jouda, B. Yildiz, J. Katrib, and K. M. Almustafa, “Predicting Stroke Risk Using Machine Learning: A Data‐Driven Approach to Early Detection and Prevention,” Stroke Res. Treat., vol. 2025, no. 1, p. 2892726, Jan. 2025, doi: 10.1155/srat/2892726. DOI: https://doi.org/10.1155/srat/2892726

[15] F. Bolikulov, R. Nasimov, A. Rashidov, F. Akhmedov, and Y.-I. Cho, “Effective Methods of Categorical Data Encoding for Artificial Intelligence Algorithms,” Mathematics, vol. 12, no. 16, p. 2553, Aug. 2024, doi: 10.3390/math12162553. DOI: https://doi.org/10.3390/math12162553

[16] K. Maharana, S. Mondal, and B. Nemade, “A review: Data pre-processing and data augmentation techniques,” Glob. Transit. Proc., vol. 3, no. 1, pp. 91–99, Jun. 2022, doi: 10.1016/j.gltp.2022.04.020. DOI: https://doi.org/10.1016/j.gltp.2022.04.020

[17] V. Ignatenko, A. Surkov, and S. Koltcov, “Random forests with parametric entropy-based information gains for classification and regression problems,” PeerJ Comput. Sci., vol. 10, p. e1775, Jan. 2024, doi: 10.7717/peerj-cs.1775. DOI: https://doi.org/10.7717/peerj-cs.1775

[18] R. Nursyahfitri, C. Rozikin, and R. I. Adam, “Penerapan Metode SMOTE dalam Klasifikasi Daerah Rawan Banjir di Karawang Menggunakan Algoritma Naive Bayes,” J. Sist. Dan Teknol. Inf. JustIN, vol. 10, no. 4, p. 339, Dec. 2022, doi: 10.26418/justin.v10i4.46935. DOI: https://doi.org/10.26418/justin.v10i4.46935

[19] O. Rainio, J. Teuho, and R. Klén, “Evaluation metrics and statistical tests for machine learning,” Sci. Rep., vol. 14, no. 1, p. 6086, Mar. 2024, doi: 10.1038/s41598-024-56706-x. DOI: https://doi.org/10.1038/s41598-024-66611-y

[20] Y. Dubey, Y. Tarte, N. Talatule, K. Damahe, P. Palsodkar, and P. Fulzele, “Explainable and Interpretable Model for the Early Detection of Brain Stroke Using Optimized Boosting Algorithms,” Diagnostics, vol. 14, no. 22, 2024, doi: 10.3390/diagnostics14222514. DOI: https://doi.org/10.3390/diagnostics14222514