Makine öğrenmesi metotları kullanılarak büyük veri setleri uygun modeller elde edilir. Değerlendirme, hangi modelin daha iyi olduğunu bulmak ve gelecekte öğrenme modelinin ne kadar iyi çalışacağını anlamak için yardımcı olur. Sadece eğitim (training) datayı kullanmak kabul edilebilir durum değildir çünkü metot overfitting (aşırı uyum) durumda olabilir. Bu durumdan kurtulmak için iki farklı yaklaşım önerilir: hold-out ve cross-validation. Overfitting’ten kaçınmak ve model performansını ölçmek için her iki yaklaşım bir test kümesi (metot eğitimde hiç kullanılmamış) kullanır.
Hold-out:
Elimizde büyük veri seti varsa biri eğitim, biri doğrulama ve biri de test olmak üzerine üç farklı veri seti elde edebiliriz.
- Eğitim Verisi (Eğitim Kümesi – Örnekleme Kümesi)(Training Set): girdi özelliklerini karşı ve cevap (çıktı) özellik/lerini içerir.
- Doğrulama veri seti (Validation dataset) eğitim aşamasında elde edilen modelin performansını değerlendirmek için kullanılan alt bir veri setidir. Ayrıca, bu veri seti hangi modelin iyi olduğunu belirlemek ve modeller için en uygun parametreleri ayarlamak için bir test platformu sağlar. Tüm modeller doğrulama veri setine gerek duymaz.
- Test veri seti (Testing Dataset) (veri setinin alt kümelerinde olmayan hiç görülmemiş durumlar) modelin gelecekteki performansını değerlendirmek için kullanılır. Eğer test verisinde sonuçlar eğitim aşamasına göre kötü çıkıyorsa, overfitting ile karşı karşıya olduğumuz durumu çıkar.
Cross Validation (Çapraz Doğrulama)
Eğitim verisi alt kümelere ayrılır. Tek alt kümeyi eğitim için kullanıp diğer kalan kümeleri doğrulama işlemi için kullanılır. Bu işlem çapraz bir şekilde tüm alt kümeler için tekrarlanır. Bu işleme çapraz doğrulama denir. Bu işlem daha önceden belirlenen belli bir k sayısında yapılır. (Literatürde ten-cross validation ifadesine çok rastlarsınız.) Veri eşit boydaki k parçaya ayrılır ve k kez değerlendirilir.
Model değerlendirmeyi iki alt bölüme ayırabiliriz.
- Sınıflama Değerlendirme
- Regresyon Değerlendirme