Panduan Lengkap Klasifikasi Biner: Konsep, Algoritma, dan Evaluasi Model

artikel berikut membahas mengenai Panduan Lengkap Klasifikasi Biner: Konsep, Algoritma, dan Evaluasi Model

Panduan Lengkap Klasifikasi Biner: Konsep, Pelatihan, dan Evaluasi Model

1. Pendahuluan

Klasifikasi, seperti regresi, adalah teknik pembelajaran mesin yang diawasi. Prosesnya melibatkan pelatihan, validasi, dan evaluasi model secara iteratif. Namun, berbeda dengan regresi yang menghasilkan nilai numerik, algoritma klasifikasi menghitung nilai probabilitas untuk menentukan kelas suatu data.

Klasifikasi biner adalah salah satu jenis klasifikasi di mana model dilatih untuk memprediksi salah satu dari dua label yang mungkin, misalnya "benar" atau "salah", "ya" atau "tidak". Model ini biasanya dilatih menggunakan data dengan beberapa fitur (x) dan target (y) yang memiliki nilai 0 atau 1.

2. Contoh Kasus Klasifikasi Biner

Untuk memahami cara kerja klasifikasi biner, kita ambil contoh sederhana: memprediksi apakah seorang pasien memiliki diabetes berdasarkan kadar glukosa darah.

Glukosa Darah (x)	Diabetes? (y)
67	0
103	1
114	1
72	0
116	1
65	0

3. Melatih Model Klasifikasi Biner

Untuk melatih model, kita menggunakan algoritma yang dapat memetakan data pelatihan ke dalam fungsi probabilitas, misalnya regresi logistik.

Regresi Logistik

Regresi logistik menggunakan fungsi sigmoid untuk menghitung probabilitas antara 0,0 dan 1,0.

$$ f(x) = P(y=1 | x) $$

Misalnya, jika pasien memiliki kadar glukosa darah 90, model dapat menghasilkan probabilitas 0,9. Karena 0,9 lebih besar dari ambang batas 0,5, maka model memprediksi pasien mengalami diabetes (y = 1).

4. Mengevaluasi Model Klasifikasi Biner

Untuk menguji model, kita menggunakan dataset validasi:

Glukosa Darah (x)	Diabetes? (y)
66	0
107	1
112	1
71	0
87	1
89	1

Model akan menghasilkan prediksi berdasarkan ambang batas 0,5, yang dapat dibandingkan dengan label aktual:

Glukosa Darah (x)	Diagnosis Diabetes Aktual (y)	Diagnosis Prediksi (ŷ)
66	0	0
107	1	1
112	1	1
71	0	0
87	1	0
89	1	1

5. Metrik Evaluasi Klasifikasi Biner

5.1 Matriks Kebingungan (Confusion Matrix)

Matriks kebingungan membantu memahami performa model dengan membandingkan prediksi dengan label aktual.

Prediksi / Aktual	y = 0 (Negatif)	y = 1 (Positif)
ŷ = 0 (Negatif)	TN (True Negative)	FN (False Negative)
ŷ = 1 (Positif)	FP (False Positive)	TP (True Positive)

Dari tabel sebelumnya:

TN = 2, FN = 1, FP = 0, TP = 3

5.2 Akurasi

Akurasi menunjukkan seberapa sering model memprediksi dengan benar.

$$ \text{Akurasi} = \frac{TN + TP}{TN + FN + FP + TP} $$

$$ = \frac{2 + 3}{2 + 1 + 0 + 3} = \frac{5}{6} = 0.83 $$

Model memiliki akurasi 83%. Namun, akurasi saja tidak cukup jika dataset tidak seimbang (misalnya jika hanya sedikit pasien yang benar-benar mengalami diabetes).

5.3 Recall (Sensitivity atau True Positive Rate - TPR)

Recall mengukur seberapa baik model mengenali kasus positif.

$$ \text{Recall} = \frac{TP}{TP + FN} $$

$$ = \frac{3}{3 + 1} = 0.75 $$

Model mengenali 75% pasien diabetes.

5.4 Precision

Precision mengukur seberapa akurat prediksi positif model.

$$ \text{Precision} = \frac{TP}{TP + FP} $$

$$ = \frac{3}{3 + 0} = 1.0 $$

Artinya, 100% pasien yang diprediksi diabetes benar-benar memiliki diabetes.

5.5 F1-Score

F1-Score menggabungkan precision dan recall untuk menilai keseimbangan model.

$$ \text{F1-Score} = \frac{2 \times \text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}} $$

$$ = \frac{2 \times 1.0 \times 0.75}{1.0 + 0.75} = \frac{1.5}{1.75} = 0.86 $$

Skor F1 sebesar 0.86 menunjukkan keseimbangan yang baik antara precision dan recall.

6. Area di Bawah Kurva (AUC - ROC)

Kurva ROC (Receiver Operating Characteristic) membandingkan True Positive Rate (TPR) dengan False Positive Rate (FPR) untuk berbagai ambang batas.

Metrik	Nilai
TPR (Recall)	0.75
FPR	0 / (0+2) = 0
AUC	0.875

AUC bernilai 0.875, menunjukkan bahwa model memiliki performa yang jauh lebih baik dibandingkan menebak secara acak (AUC = 0.5).

7. Kesimpulan

Klasifikasi biner digunakan untuk memprediksi dua kelas (misalnya, diabetes atau tidak).
Regresi logistik adalah salah satu algoritma yang digunakan untuk memodelkan probabilitas suatu kelas.
Evaluasi model dilakukan dengan menggunakan akurasi, precision, recall, F1-score, dan AUC-ROC.
AUC = 0.875 menunjukkan bahwa model memiliki kinerja yang baik dalam membedakan pasien diabetes dan non-diabetes.

Dengan pemahaman ini, Anda dapat membangun dan mengevaluasi model klasifikasi biner dengan lebih efektif dalam berbagai aplikasi nyata! 🚀

Contoh Aplikasi

Panduan Lengkap Klasifikasi Biner: Konsep, Algoritma, dan Evaluasi Model

Panduan Lengkap Klasifikasi Biner: Konsep, Pelatihan, dan Evaluasi Model

1. Pendahuluan

2. Contoh Kasus Klasifikasi Biner

3. Melatih Model Klasifikasi Biner

Regresi Logistik

4. Mengevaluasi Model Klasifikasi Biner

5. Metrik Evaluasi Klasifikasi Biner

5.1 Matriks Kebingungan (Confusion Matrix)

5.2 Akurasi

5.3 Recall (Sensitivity atau True Positive Rate - TPR)

5.4 Precision

5.5 F1-Score

6. Area di Bawah Kurva (AUC - ROC)

7. Kesimpulan

Belajar CRUD Java Desktop Netbeans

CRUD Rest API Webservice Menggunakan PHP dan MySQL - Part 1

Pengenalan Sistem Terdistribusi

Menambah,Menghapus dan Memanggil Form VB.Net

Membangun Rest API Server Dengan Codeigniter 3

Panduan Lengkap Klasifikasi Biner: Konsep, Algoritma, dan Evaluasi Model

Panduan Lengkap Klasifikasi Biner: Konsep, Pelatihan, dan Evaluasi Model

1. Pendahuluan

2. Contoh Kasus Klasifikasi Biner

3. Melatih Model Klasifikasi Biner

Regresi Logistik

4. Mengevaluasi Model Klasifikasi Biner

5. Metrik Evaluasi Klasifikasi Biner

5.1 Matriks Kebingungan (Confusion Matrix)

5.2 Akurasi

5.3 Recall (Sensitivity atau True Positive Rate - TPR)

5.4 Precision

5.5 F1-Score

6. Area di Bawah Kurva (AUC - ROC)

7. Kesimpulan

Gabung dalam percakapan