Pengklusteran dalam Machine Learning: Konsep, Algoritma K-Means, dan Evaluasi Model
Apa Itu Pengklusteran?
Pengklusteran adalah teknik dalam machine learning tidak diawasi (unsupervised learning) yang mengelompokkan data berdasarkan kesamaan fitur tanpa menggunakan label yang telah ditentukan sebelumnya. Dalam model ini, label terbentuk secara otomatis berdasarkan pola dalam data.
Contoh Pengklusteran
Misalnya, seorang ahli botani mengamati sampel bunga dan mencatat jumlah daun (x1) dan kelopak bunga (x2) tanpa mengetahui spesiesnya. Tujuan dari pengklusteran bukan untuk mengidentifikasi jenis bunga, tetapi untuk mengelompokkan bunga dengan karakteristik serupa.
Contoh Data
Daun (x1) | Kelopak Bunga (x2) |
---|---|
0 | 5 |
0 | 6 |
1 | 3 |
1 | 3 |
1 | 6 |
1 | 8 |
2 | 3 |
2 | 7 |
2 | 8 |
Dalam kasus ini, model pengklusteran akan mengelompokkan bunga yang memiliki jumlah daun dan kelopak serupa ke dalam klaster yang sama.
Algoritma Pengklusteran: K-Means
Salah satu algoritma pengklusteran paling populer adalah K-Means Clustering, yang bekerja dengan langkah-langkah berikut:
-
Vektorisasi Data
- Setiap data direpresentasikan dalam koordinat n-dimensi, di mana n adalah jumlah fitur.
- Dalam contoh bunga, kita memiliki dua fitur (jumlah daun dan kelopak), sehingga setiap bunga dapat diplot dalam ruang dua dimensi ([x1, x2]).
-
Menentukan Jumlah Klaster (k)
- Anda memilih jumlah klaster yang diinginkan (misalnya, k = 3 untuk tiga klaster).
- Titik acak dipilih sebagai centroid awal untuk masing-masing klaster.
-
Mengelompokkan Data ke Sentroid Terdekat
- Setiap titik data ditugaskan ke sentroid terdekat berdasarkan jarak Euclidean.
-
Memindahkan Sentroid ke Posisi Baru
- Sentroid diperbarui ke titik tengah dari data yang berada dalam klasternya.
-
Pengulangan hingga Stabil
- Proses pemindahan sentroid dan pembaruan klaster berulang hingga klaster menjadi stabil atau jumlah iterasi maksimum tercapai.
Evaluasi Model Pengklusteran
Karena pengklusteran adalah metode tanpa label, evaluasi model tidak bisa menggunakan metrik akurasi standar. Sebagai gantinya, digunakan metrik berikut:
-
Jarak Rata-rata ke Pusat Klaster
- Mengukur seberapa dekat titik dalam klaster terhadap sentroidnya.
-
Jarak Rata-rata ke Pusat Klaster Lain
- Mengukur seberapa jauh titik dalam klaster dari sentroid klaster lainnya.
-
Jarak Maksimum ke Pusat Klaster
- Mengukur titik terjauh dalam klaster dari sentroidnya.
-
Silhouette Score
- Nilai antara -1 hingga 1 yang menunjukkan seberapa baik klaster terpisah.
- Semakin mendekati 1, semakin baik pemisahan klaster.
Kesimpulan
Pengklusteran adalah teknik penting dalam machine learning tidak diawasi yang memungkinkan data dikelompokkan berdasarkan pola tanpa memerlukan label sebelumnya. K-Means adalah algoritma yang sering digunakan, dan model dapat dievaluasi menggunakan metrik seperti jarak ke pusat klaster dan silhouette score.
Dengan memahami konsep ini, Anda dapat menerapkan pengklusteran dalam berbagai bidang, seperti analisis pelanggan, pengelompokan teks, hingga pengelompokan data medis. 🚀
Gabung dalam percakapan