Rangkuman Pertemuan 4 Pembelajaran Mesin
Process Machine Learning
Machine Learning memiliki 4 proses yang dilalui, diantaranya :
1. Himpunan Data (Data Processing)
Tahap ini berisi aktivitas memahami dan mempersiapkan data, diantarnya dengan detail sebagai berikut :
- Data Cleansing
- Data integration
- Data Reduction
- Data Transformation
2. Metode (Modeling)
Selanjutnya adalah menentukan metode yang digunakan untuk mengolah data, memilihi metode sesuai karakter data, diantarnya dengan detail sebagai berikut :
- Estimation
- Prediction
- Classification
- Clustering
- Association
3. Pegetahuan (Model)
Yaitu memahami model dan dengan pengetahuan yang sesuai, dengan detail sebagai berikut :
- Formula
- Ttree
- Cluster
- Rule
- Correction
4. Evaluation
Terakhir yaitu proses analisis model dan kinerja model yang telah dilakukan,, dengan detail sebagai beikut :
Kinerja : Akurasi, Tingkat error, dan jumlah cluster
Model : Atribute/Faktor, Korelasi, Bobot
Pembahasan mengenai Evaluasi
Evaluasi merupakan kegiatan yang dilakukan untuk menentukan nilai dari suatu hal, dalam hal ini yang dinilai adalah kinerja metode pembelajaran mesin. Tujuan dilakukan evaluasi adalah untuk menganalisa hasil kinerja metode pembelajaran mesin.
Secara umum pengukuran model data mining mengacu kepada tiga kriteria:
- Akurasi (Accuracy)
- Kehandalan (Reliability)
- Kegunaan (Usefulness).
Keseimbangan diantaranya ketiganya diperlukan karena belum tentu model yang akurat adalah handal, dan yang handal atau akurat belum tentu berguna.
Kriteria Evaluasi
Akurasi adalah ukuran dari seberapa baik model mengkorelasikan antara hasil dengan atribut dalam data yang telah disediakan. Terdapat berbagai model akurasi, tetapi semua model akurasi tergantung pada data yang digunakan.
Kehandalan adalah ukuran di mana model data diterapkan pada dataset yang berbeda akan menghasilkan sebuah model data yang dapat diandalkan jika menghasilkan pola umum sama terlepas dari data testing yang disediakan.
Kegunaan mencakup berbagai metrik yang mengukur apakah model tersebut memberikan informasi yang berguna.
Evaluasi Kinerja Model Data :
1. Estimation:
– Error: Root Mean Square Error (RMSE), MSE, MAPE, etc
2. Prediction/Forecasting (Prediksi/Peramalan):
– Error: Root Mean Square Error (RMSE) , MSE, MAPE, etc
3. Classification:
– Confusion Matrix: Accuracy
– ROC Curve: Area Under Curve (AUC)
4. Clustering:
– Internal Evaluation: Davies–Bouldin index, Dunn index,
– External Evaluation: Rand measure, F-measure, Jaccard index,
Fowlkes–Mallows index, Confusion matrix
5. Association:
– Lift Charts: Lift Ratio
– Precision and Recall (F-measure)
RMSE
Root Mean Square Error adalah metode alternatif untuk mengevaluasi teknik peramalan yang
digunakan untuk mengukur tingkat akurasi hasil perkiraan suatu model.
RMSE merupakan nilai rata-rata dari jumlah kuadrat kesalahan.
Semakin rendah RMSE semakin baik kinerja metode pembelajaran mesin
Confusion Matrix
Confussion Matrix merupakan salah satu metode yang dapat digunakan untuk mengukur kinerja suatu metode klasifikasi.
Pada dasarnya confusion matrix mengandung informasi yang membandingkan hasil klasifikasi yang dilakukan oleh sistem dengan hasil klasifikasi yang seharusnya.
Metode ini menggunakan tabel matriks
Untuk melakukan evaluasi terhadap model klasifikasi berdasarkan perhitungan objek testing mana yang diprediksi benar dan tidak benar.
Jika dataset hanya terdiri dari dua kelas, kelas yang satu dianggap sebagai positif dan yang lainnya negatif .
Perhitungan ini ditabulasikan kedalam tabel yang disebut confusion matrix (Gorunescu, 2011).
Kurva AUC
AUC merupakan area di bawah kurva (Area under the Curve of) ROC (Receiver Operating Characteristic), suatu kurva yang menggambarkan probabilitas dengan variabel sensitivitas dan kekhususan (specificity) dengan nilai batas antara 0 hingga 1. Area di bawah kurva memberikan gambaran tentang keseluruhan pengukuran atas kesesuaian dari model yang digunakan.
Titik (0,1) adalah klasifikasi sempurna yang mengklasifikasikan semua kasus positif dan kasus negatif dengan benar, karena tingkat positif salah (FP) adalah 0 (tidak ada), dan tingkat positif benar (TP) adalah 1.
Titik (0,0) merupakan sebuah klasifikasi yang memprediksi setiap kasus menjadi negatif,
Sedangkan titik (1,1) sesuai dengan sebuah klasifikasi yang memprediksi setiap kasus menjadi positif.
Titik (1,0) adalah klasifikasi yang tidak benar untuk semua klasifikasi.
Dalam banyak kasus, klasifikasi memiliki parameter yang dapat disesuaikan untuk meningkatkan TP atau penurunan FP.
Setiap pengaturan parameter menyediakan pasangan FP dan TP dan serangkaian pasangan tersebut dapat digunakan untuk memetakan kurva AUC.
Klasifikasi non-parametrik diwakili oleh titik AUC tunggal, sesuai dengan pasangannya.
Performance keakurasian AUC (Gorunescu, 2010) dapat diklasifikasikan menjadi lima kelompok yaitu:
a. 0.90 – 1.00 = Exellent Clasification
b. 0.80 – 0.90 = Good Clasification
c. 0.70 – 0.80 = Fair Clasification
d. 0.60 – 0.70 = Poor Clasification
e. 0.50 – 0.60 = Failure
Validasi
Validasi dalam pembelajaran mesin adalah validasi
data untuk memastikan bahwa program beroperasi
pada data yang benar.
Pembagian dataset:
- Dua subset: data training dan data testing
- Tiga subset: data training, data validation dan data testing
Data training untuk pembentukan model, dan data testing digunakan untuk pengujian model
Data validation untuk memvalidasi model kita valid atau tidak
Cross Validation
Metode cross-validation digunakan untuk menghindari overlapping pada data testing
Tahapan cross-validation:
1. Bagi data menjadi k-subset yang berukuran sama
2. Gunakan setiap subset untuk data testing dan sisanya untuk data training
Disebut juga dengan k-fold cross-validation
Seringkali subset dibuat stratified (bertingkat)sebelum cross-validation dilakukan, karena stratifikasi akan mengurangi variansi dari estimasi
Metode evaluasi standard: stratified 10-fold cross- validation
Mengapa 10? Hasil dari berbagai percobaan yang ekstensif dan pembuktian teoritis, menunjukkan bahwa 10-fold cross-validation adalah pilihan terbaik untuk mendapatkan hasil validasi yang akurat
10-fold cross-validation akan mengulang pengujian sebanyak 10 kali dan hasil pengukuran adalah nilai rata-rata dari 10 kali pengujian
0 Comments