Karar ağaçları hem regresyon hem de sınıflama modelleri üzerine inşa edilebilen ağaç yapısı formundadır. Regresyon sayısal hedef verisi üzerinde kullanılırken sınıflama ise kategorik veriler (Örneğin evet/hayır) üzerinde kullanılır. Karar ağaçları, özellik ve hedefe göre karar düğümleri (decision nodes) ve yaprak düğümlerinden (leaf nodes) oluşur. Aşağıdaki verileri ve karar ağacını incelerken Decision Tree – Classification veri ve ağaç çizimi ile karşılaştırmanızı öneririm.
Hedef özelliği kaç dakika futbol oynayacağımız hakkında bilgi veriyor. Karar ağacında ise verilen özelliğe göre kaç dakika futbol oynayacağımızın sonucunu görüyoruz. Bu sonuç elimizdeki eğitim verisine göre yaklaşık sonuç verdiğini görmüşünüzdür. Şimdi bu sonucu nasıl elde edeceğimize bakalım.
Decision Tree Algoritması: ID3
Bu bölümü daha önceki karar ağacı – sınıflama yazımızdaki ID3 algoritması üzerinden anlatacağız. Regresyon sebebiyle information gain yerine standart sapma kullanacağız. Öncelikle hedef için standart sapmayı hesaplayalım.
= 9.32
Ayrıca, özellik ve hedef ikilileri için standart sapmaları hesaplayalım. İki parametreli standart sapma hesaplama da aşağıdaki formülasyonlar kullanılır.
Örneğin hava durumu ve futbol oyna ikilisi için hesaplama yaparsak:
S(Hava Durumu, Futbol Oyna) = P(Güneşli)*S(Güneşli) + P(Bulutlu)*S(Bulutlu) + P(Yağmurlu)*S(Yağmurlu)
=5/14*10.870+4/14*3.491+5/14*7.782
=7.659
SDR(Hava Durumu, Futbol Oyna) = S(Güneşli) – S(Hava Durumu, Futbol Oyna)
=1.662
SDR değeri en büyük olan Hava Durumu özelliği kök olarak seçilir. Bu durumda veri tekrar ele alınır. Daha anlaşılır olması açısından veriyi Hava Durumu özelliği göre gruplandırıldı.
Bu durumda teker teker Güneşli, Bulutlu ve Yağmurlu verileri için SDR’ler tekrar hesaplanır. Güneş için SDR’leri hesaplayalım. Sıcaklık, Nem ve Rüzgar için SDR hsaplandığımızda:
En yüksek SDR değeri 7.705 ile rüzgar için çıkmıştır. Bu durumda ağaca rüzgar eklenir. Bu duruma gelindiğinde bir bitirme kriterinin belirtilmesi gerekmektedir. Örneğin %5 verinin altına düşündüğünde bölme işlemini bırak. Rüzgar eklendikten belirlenen kriter sebebiyle bölme işlemini bitirilir. Bu noktada Rüzgar verisindeki var ve yok’lar için ortalama değer hesaplanır ve aşağıdaki karar ağacı elde edilir.
Öz yinelemeli şekilde tüm alt düğümler hesaplanır ve karar ağacı elde edilir.
Decision_Tree_Reg.xlsx (14,32 kb)