Pendekatan supervised learning adalah algoritma yang paling sering digunakan dalam dunia data science dibandingkan dengan unsupervised learning. Analisis regresi linier berganda maupun logistik yang notabene sudah tidak asing lagi di dengar adalah salah satu contoh dari supervised learning.
Perbedaan kedua algorima tersebut terletak pada bagaimana mereka belajar untuk membuat suatu prediksi maupun klasifikasi. Dalam supervised learning, algoritma tersebut seolah-olah dilatih terlebih dahulu agar dapat melakukan prediksi maupun klasifikasi.
Data Scientist seolah-olah bertindak sebagai seorang supervisor untuk melatih algoritma tersebut. Sedangkan pada unsupervised learning, untuk melakukan prediksi maupun klasifikasi mereka tidak perlu dilatih terlebih dahulu. Sehingga dapat dikatakan bahwa supervised learning membutuhkan data training agar mampu melakukan prediksi maupun klasifikasi. Dalam bentuk matematis, dapat dituliskan bahwa
Supervised learning : Y = f(x)
Unsupervised learning : f(x)
Pendekatan supervised learning mempuyai input dan output yang dapat dibuat menjadi suatu model hubungan matematis sehingga mampu melakukan prediksi dan klasifikasi berdasarkan data yang telah ada sebelumnya.
Misalkan pada suatu kasus suatu provider hosting indonesia ingin melakukan ramalan tentang data pengguna website 5 bulan ke depan menggunakan analisis deret waktu. Analisis deret waktu (layaknya model regresi) menggunakan data sebelumnya untuk menggunakan peramalan. Data pada periode sebelumnya itulah yang disebut dengan data latih atau data training.
Sehingga dengan data training tersebut akan diperoleh suatu model regresi yang selanjutnya akan digunakan untuk melakukan peramalan. Jadi kesimpulannya adalah supervised learning menggunakan data latih (data training) dalam melakukan prediksi mapun klasifikasi. Beberapa algoritma yang termasuk dalam supervised learning adalah
- Regresi Linier Berganda
- Analisis Deret Waktu
- Decision Tree dan Random Forest
- Naive Bayes Classifier
- Nearest Neighbor Classifier
- Artificial Neural Network
- Support Vector Machine
Contoh dari penerapan metode ini adalah ketika seorang data analyst ingin mengelompokkan customer salah satu provider hosting Indonesia berdasarkan kemiripan sifat dalam hal pendapatan, umur, hobi, dan jenis pekerjaan.
Untuk mengelompokkan customer berdasarkan kemiripan sifat tersebut tidak diperlukan data training. Menggunakan data yang ada, kita bisa secara langsung mengelompokkan customer-customer tersebut. Beberapa algoritma yang dapat digunakan dalam unsupervised learning adalah
- K-Means
- Hierarchical Clustering
- DBSCAN
- Fuzzy C-Means
- Self-Organizing Map
1 Komentar
K-Means
BalasHapusHierarchical Clustering
DBSCAN
Fuzzy C-Means
Self-Organizing Map