MAKİNE ÖĞRENMESİ- SINIFLANDIRMA ÖRNEĞİ

SPSS ile Diskriminant (Ayrıma) Analizi

Çalışma, öğrencilere ait performans değerlendirmesindeki etkili faktörler (20 adet başarıya etki eden ayrı değerlendirme kriteri) ile oluşturulmuştur. Öğrencilerin başarılı ve başarısız durum ayrımları sağlanmış; ikili değişken biçiminde (0-1) veri girişleri gerçekleştirilmiştir.  Performansa etki eden değişkenlerin gruplandırılması amacıyla SPSS programı ile Diskriminant analizi yapılmıştır. Öncelikle SPSS programında verilerin nasıl girişinin sağlandığı gösterilecektir. Daha sonra ise veri setinin analizi gerçekleştirilip sonuçlar yorumlanacaktır.

Diskriminant analizi geliştirilmiş güçlü bir tanımlayıcı ve sınıflandırma tekniğidir (Brown ve Wicker, 2000). 1936 yılında R. A. Fischer tarafından geliştirilen bir sınıflama metodudur. Basit olmasına rağmen kompleks problemlerde iyi sonuçlar üreten bir modeldir [Uzun, E(erdincuzun.com)]. Bu analizin temel amacı ise incelenen grupların değişkenler açısından nasıl farklılaştığının ortaya koyulmasıdır (Karlgren ve Cutting, 1994). İlk olarak SPSS’de veri girişinin nasıl gerçekleştirildiği gösterilmektedir. Daha sonra ise Diskriminant analizi’nin SPSS programında uygulama aşamaları gösterilmiştir. En son ise analizin çıktıları yorumlanmıştır.

1.Veri Girişi

Makine öğrenmesi mantığı nedeniyle veriler ikili (binary) olarak girilmelidir. Örneğin; öğrenci okul dışında aktivitelere katılıyor mu sorusuna verilen evet cevabı için 0; hayır cevabı için 1 olarak verilerin girişi gerçekleştirilmiştir.

2. Diskriminant Analizi

SPSS programında ‘Analiz’ başlığında yer alan ‘Sınıflandırma’ alt başlığı seçilir. Menüde yer alan ‘Diskriminant’ seçilir.

Analizde sınıflandırmanın temelini oluşturan ‘Başarı/Basarısızlık’ durumu grup değişkeni olarak seçilir. Burada; örnek olarak başarı durumunu etkilediği varsayılan ‘seyahat/dışarıda vakit geçirme’ değişkeni seçilmiştir. ** Veri setinde 20 ayrı değerlendirme faktörü mevcuttur. Anlaşılır olması açısından  görselde sadece bazı değişkenlere yer verilmiştir.

Analizin istatistiksel olarak değerlendirmesi için ise bazı parametrelerin ilave edilmesi gerekmektedir. Bunları şu şekilde göstermek mümkündür:

SPSS’de yer alan analizin en önemli kısımlarından biri olan değişkenlerin aralıklarının tanımlanması makine öğrenmesi mantığına dayanmaktadır. ‘Aralık tanımlama’ seçeneğinde minimum değer 0; maksimum değer 1 olarak seçilmektedir.

3. Sonuçların Yorumlanması

Analize tabi tutulan grupların, kovaryanslarının eşitlik durum kontrolünün sağlanması için Box’s M istatistiği uygulanmalıdır. Bu örnek için SPSS yardımıyla Box’s M istatistiği 2,576 olarak bulunmuştur. Bu sonuç kovaryans eşitliğinin sağlandığı belirtmektedir. Box’s M istatistiği ile ilişkili diğer bir değerlendirme ise Log Determant sonuçlarıdır. Örneğe ait Log Determinant değerleri aşağıda belirtilmiştir. Görüldüğü üzere birbirlerine oldukça yakın değerlerdir.

Başarısız Geçilen SınıfLog Determinant
0-17,765
1-20,117
Gruplar-17,505
Log Determinant Değerleri

Sonuçların yorumlanması aşamasında en önemli öneme sahip olan kısım ‘standartlaştırılmış kanonik diskriminant fonksiyon katsayılar’ sonuçlarıdır. Bunun nedeni; başarı durumunu etkileyen en önemli faktörlerin neler olduğunun bu sonuçlar yardımı ile belirlenmesidir. 20 ayrı değişken arasından öğrencilerin başarı durumunu etkileyen en önemli 4 faktör analiz sonucunda anlaşılmaktadır. Tüm bu değişkenler arasında en iyi ayıran değişkenlerinaile birey sayısı’, ‘okul’, ‘anne eğitim durumu’ ve ‘daha fazla eğitim alma isteği’ olduğu belirlenmiştir (Demir, 2020). Böylece istenilen sınıflandırma gerçekleştirilmiş olmaktadır.

Değerlendirme DeğişkenleriFonksiyon
Aile Birey Sayısı,283
Okul,456
Anne Eğitim Durumu,401
Daha Fazla Eğitim Alma İsteği-,585

Standartlaştırılmış Kanonik Siskriminant Fonksiyon Katsayılar

KAYNAKLAR

Brown, M.T. ve Wicker, L.R. (2000). Handbook of Applied Multivariate Statistics and Mathematical Modeling. 209-235.

Demir, B. (2020). Öğrenci Performans Verilerinin Analizi: Yapay Sinir Ağları ve Lojistik Regresyon Yöntem Karşılaştırılması. Eurasian Education & Literature Journal, 13.

Karlgren, J. ve Cutting, D. (2018). Recognizing Text Genres with Simple Metrics Using Discriminant Analysis. Proceedings of the 15th conference on Computational Linguistics. 2, 1071–1075.