47
niye hakkında meşruiyetini sorgulayıcı tartışmaların döndüğünü anlamadığım üzerine tezler ve makaleler yazılmış, dolayısıyla bilimselliği yıllar öncesinde kanıtlanmış bir metriktir. "expected goal (gol beklentisi)" adı ile literatürde bilinen bu metrik öyle bir metriktir ki özünde "bir takım tarafından yaratılan gol girişimlerinin kalitesini nasıl kantitatif (nümerik - sayısal) hale getirebiliriz?" sorusuna cevap arar. bunu da "gol fırsatı yaratan bir şutun değerini nasıl ölçebiliriz?" şeklindeki bir alt sorudan elde etmeye çalışır. bu noktada şutu çeken oyuncunun performansının da göz önünde bulundurulduğu açıktır. dolayısıyla a oyuncunun çektiği şutun yarattığı sayısal değer ile b oyuncununkinin bir olmayacağı bellidir. hatta a oyuncusunun x maçındaki şutu ile y maçındaki şutunun da değerinin aynı olmayacağı çıkarımında bulunulabilir.
yapılan çalışmalar göstermiştir ki; bir takımın bulduğu gol dağılımı poisson dağılımına uymaktadır. bu öncül bilgi ile yapılan çalışmada binary olarak (gol oldu veya olmadı - 1 veya 0) target değişken; lojistik regresyon, karar ağaçları, rassal orman ve ada boost yöntemleri ile tahmin edilmiştir. bu modellerden elde edilen veriler auc performans metriği sayesinde olasılıksal olarak karşılaştırılmıştır. yazarlar bu aşamada da kalmayıp literatürde var olan platt kalibrasyonu ve izotonik regresyon yöntemlerini kullanarak fiili olasılıklar ile kalibre edilmiş olasılıklar (kalibre edilmiş modellerden elde edilen sonuçlar) arasındaki farkı gözlemlemiştir. bu verileri güven aralıkları ile destekleyerek bulgularına ulaşmışlardır.
koca tezi açıklayarak uzatmak istemiyorum ama son olarak sonuçlarından bahsedeyim. yapılan bu çalışmanın amacı aslında takımların gol beklentisi üzerinden ev sahibi kazanır, berabere biter veya deplasman takımı kazanır şeklindeki tahmini yapmak. kalibrasyondan sonra elde edilen sonuçlar gayet tatmin edici olmuş olmalı çünkü f1-score yukarıda saydığım modellerin hepsinde %70-75 bandında çıkmış. ancak modellerin gol beklentisi istatistiğinin beraberliği işaret ettiği maçlarda genellikle yanıldığı ve bu tip maçlarında çoğunlukla bir tarafın tek fark ile kazandığı zorlu maçlar olduğu açıklanmış.
bu konuyla ilgili o kadar çok çalışma var ki aklınız çıkar. çok basit bir literatür araştırmasından sonra birçok çalışmanın atıfta bulunduğu görece daha eski bir çalışmaya giderek bu bilgileri öğrendim. ilgili çalışmanın da başlığı şu: "expected goals in soccer: explaining match results using predictive analytics". eindhoven teknoloji üniversitesi'nde bir öğrencinin 2016 yılında yaptığı master tezi. buna benzer bir çalışmayı günümüzde ben yapacak olsaydım bir kere daha fazla sınıflandırıcı kullanırdım. xgboost ve lightgbm gibi modelleri de kesinlikle dikkate alırdım. optuna gibi kütüphaneler ile parametre optimizasyonu yaparak en ideal skora ulaşmaya çalışırdım ve en sonunda da ensemble modelling yaparak modelleri kombinlerdim. ayrıca sınıflandırma yaparken kullandıklarını ifade ettikleri kalecinin ve şutu çeken oyuncunun performansı gibi faktörlerin yanına hava durumu, maçın yapıldığı zeminin durumu gibi çeşitli featurelar da ekleyip çalışmayı daha anlamlı kılmaya çalışırdım. bunlar benim ilk anda aklıma gelen geliştirmeler olurdu. mutlaka 2016 yılından bu yana daha başarılı modeller de ortaya konulmuştur. merak eden araştırabilir. benim bu entryi yazmamdaki amaç akıllardaki bulutları biraz olsun dağıtmak ve anlamsız şüphelerin önüne geçmekti.
yapılan çalışmalar göstermiştir ki; bir takımın bulduğu gol dağılımı poisson dağılımına uymaktadır. bu öncül bilgi ile yapılan çalışmada binary olarak (gol oldu veya olmadı - 1 veya 0) target değişken; lojistik regresyon, karar ağaçları, rassal orman ve ada boost yöntemleri ile tahmin edilmiştir. bu modellerden elde edilen veriler auc performans metriği sayesinde olasılıksal olarak karşılaştırılmıştır. yazarlar bu aşamada da kalmayıp literatürde var olan platt kalibrasyonu ve izotonik regresyon yöntemlerini kullanarak fiili olasılıklar ile kalibre edilmiş olasılıklar (kalibre edilmiş modellerden elde edilen sonuçlar) arasındaki farkı gözlemlemiştir. bu verileri güven aralıkları ile destekleyerek bulgularına ulaşmışlardır.
koca tezi açıklayarak uzatmak istemiyorum ama son olarak sonuçlarından bahsedeyim. yapılan bu çalışmanın amacı aslında takımların gol beklentisi üzerinden ev sahibi kazanır, berabere biter veya deplasman takımı kazanır şeklindeki tahmini yapmak. kalibrasyondan sonra elde edilen sonuçlar gayet tatmin edici olmuş olmalı çünkü f1-score yukarıda saydığım modellerin hepsinde %70-75 bandında çıkmış. ancak modellerin gol beklentisi istatistiğinin beraberliği işaret ettiği maçlarda genellikle yanıldığı ve bu tip maçlarında çoğunlukla bir tarafın tek fark ile kazandığı zorlu maçlar olduğu açıklanmış.
bu konuyla ilgili o kadar çok çalışma var ki aklınız çıkar. çok basit bir literatür araştırmasından sonra birçok çalışmanın atıfta bulunduğu görece daha eski bir çalışmaya giderek bu bilgileri öğrendim. ilgili çalışmanın da başlığı şu: "expected goals in soccer: explaining match results using predictive analytics". eindhoven teknoloji üniversitesi'nde bir öğrencinin 2016 yılında yaptığı master tezi. buna benzer bir çalışmayı günümüzde ben yapacak olsaydım bir kere daha fazla sınıflandırıcı kullanırdım. xgboost ve lightgbm gibi modelleri de kesinlikle dikkate alırdım. optuna gibi kütüphaneler ile parametre optimizasyonu yaparak en ideal skora ulaşmaya çalışırdım ve en sonunda da ensemble modelling yaparak modelleri kombinlerdim. ayrıca sınıflandırma yaparken kullandıklarını ifade ettikleri kalecinin ve şutu çeken oyuncunun performansı gibi faktörlerin yanına hava durumu, maçın yapıldığı zeminin durumu gibi çeşitli featurelar da ekleyip çalışmayı daha anlamlı kılmaya çalışırdım. bunlar benim ilk anda aklıma gelen geliştirmeler olurdu. mutlaka 2016 yılından bu yana daha başarılı modeller de ortaya konulmuştur. merak eden araştırabilir. benim bu entryi yazmamdaki amaç akıllardaki bulutları biraz olsun dağıtmak ve anlamsız şüphelerin önüne geçmekti.