Panduan Lengkap Klasifikasi Biner: Konsep, Algoritma, dan Evaluasi Model
Panduan Lengkap Klasifikasi Biner: Konsep, Pelatihan, dan Evaluasi Model
1. Pendahuluan
Klasifikasi, seperti regresi, adalah teknik pembelajaran mesin yang diawasi. Prosesnya melibatkan pelatihan, validasi, dan evaluasi model secara iteratif. Namun, berbeda dengan regresi yang menghasilkan nilai numerik, algoritma klasifikasi menghitung nilai probabilitas untuk menentukan kelas suatu data.
Klasifikasi biner adalah salah satu jenis klasifikasi di mana model dilatih untuk memprediksi salah satu dari dua label yang mungkin, misalnya "benar" atau "salah", "ya" atau "tidak". Model ini biasanya dilatih menggunakan data dengan beberapa fitur (x) dan target (y) yang memiliki nilai 0 atau 1.
2. Contoh Kasus Klasifikasi Biner
Untuk memahami cara kerja klasifikasi biner, kita ambil contoh sederhana: memprediksi apakah seorang pasien memiliki diabetes berdasarkan kadar glukosa darah.
Glukosa Darah (x) | Diabetes? (y) |
---|---|
67 | 0 |
103 | 1 |
114 | 1 |
72 | 0 |
116 | 1 |
65 | 0 |
3. Melatih Model Klasifikasi Biner
Untuk melatih model, kita menggunakan algoritma yang dapat memetakan data pelatihan ke dalam fungsi probabilitas, misalnya regresi logistik.
Regresi Logistik
Regresi logistik menggunakan fungsi sigmoid untuk menghitung probabilitas antara 0,0 dan 1,0.
$$ f(x) = P(y=1 | x) $$
Misalnya, jika pasien memiliki kadar glukosa darah 90, model dapat menghasilkan probabilitas 0,9. Karena 0,9 lebih besar dari ambang batas 0,5, maka model memprediksi pasien mengalami diabetes (y = 1).
4. Mengevaluasi Model Klasifikasi Biner
Untuk menguji model, kita menggunakan dataset validasi:
Glukosa Darah (x) | Diabetes? (y) |
---|---|
66 | 0 |
107 | 1 |
112 | 1 |
71 | 0 |
87 | 1 |
89 | 1 |
Model akan menghasilkan prediksi berdasarkan ambang batas 0,5, yang dapat dibandingkan dengan label aktual:
Glukosa Darah (x) | Diagnosis Diabetes Aktual (y) | Diagnosis Prediksi (Å·) |
---|---|---|
66 | 0 | 0 |
107 | 1 | 1 |
112 | 1 | 1 |
71 | 0 | 0 |
87 | 1 | 0 |
89 | 1 | 1 |
5. Metrik Evaluasi Klasifikasi Biner
5.1 Matriks Kebingungan (Confusion Matrix)
Matriks kebingungan membantu memahami performa model dengan membandingkan prediksi dengan label aktual.
Prediksi / Aktual | y = 0 (Negatif) | y = 1 (Positif) |
---|---|---|
Å· = 0 (Negatif) | TN (True Negative) | FN (False Negative) |
Å· = 1 (Positif) | FP (False Positive) | TP (True Positive) |
Dari tabel sebelumnya:
- TN = 2, FN = 1, FP = 0, TP = 3
5.2 Akurasi
Akurasi menunjukkan seberapa sering model memprediksi dengan benar.
$$ \text{Akurasi} = \frac{TN + TP}{TN + FN + FP + TP} $$
$$ = \frac{2 + 3}{2 + 1 + 0 + 3} = \frac{5}{6} = 0.83 $$
Model memiliki akurasi 83%. Namun, akurasi saja tidak cukup jika dataset tidak seimbang (misalnya jika hanya sedikit pasien yang benar-benar mengalami diabetes).
5.3 Recall (Sensitivity atau True Positive Rate - TPR)
Recall mengukur seberapa baik model mengenali kasus positif.
$$ \text{Recall} = \frac{TP}{TP + FN} $$
$$ = \frac{3}{3 + 1} = 0.75 $$
Model mengenali 75% pasien diabetes.
5.4 Precision
Precision mengukur seberapa akurat prediksi positif model.
$$ \text{Precision} = \frac{TP}{TP + FP} $$
$$ = \frac{3}{3 + 0} = 1.0 $$
Artinya, 100% pasien yang diprediksi diabetes benar-benar memiliki diabetes.
5.5 F1-Score
F1-Score menggabungkan precision dan recall untuk menilai keseimbangan model.
$$ \text{F1-Score} = \frac{2 \times \text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}} $$
$$ = \frac{2 \times 1.0 \times 0.75}{1.0 + 0.75} = \frac{1.5}{1.75} = 0.86 $$
Skor F1 sebesar 0.86 menunjukkan keseimbangan yang baik antara precision dan recall.
6. Area di Bawah Kurva (AUC - ROC)
Kurva ROC (Receiver Operating Characteristic) membandingkan True Positive Rate (TPR) dengan False Positive Rate (FPR) untuk berbagai ambang batas.
Metrik | Nilai |
---|---|
TPR (Recall) | 0.75 |
FPR | 0 / (0+2) = 0 |
AUC | 0.875 |
AUC bernilai 0.875, menunjukkan bahwa model memiliki performa yang jauh lebih baik dibandingkan menebak secara acak (AUC = 0.5).
7. Kesimpulan
- Klasifikasi biner digunakan untuk memprediksi dua kelas (misalnya, diabetes atau tidak).
- Regresi logistik adalah salah satu algoritma yang digunakan untuk memodelkan probabilitas suatu kelas.
- Evaluasi model dilakukan dengan menggunakan akurasi, precision, recall, F1-score, dan AUC-ROC.
- AUC = 0.875 menunjukkan bahwa model memiliki kinerja yang baik dalam membedakan pasien diabetes dan non-diabetes.
Dengan pemahaman ini, Anda dapat membangun dan mengevaluasi model klasifikasi biner dengan lebih efektif dalam berbagai aplikasi nyata! 🚀
Gabung dalam percakapan