ii VERİ MADENCİLİĞİ İLE FEN FAKÜLTELERİ ÖĞRENCİ PROFİLLERİNİN İNCELENMESİ: GAZİ ÜNİVERSİTESİ ÖRNEĞİ Ferda AKÇA YÜKSEK LİSANS TEZİ İSTATİSTİK ANABİLİM DALI GAZİ ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ TEMMUZ 2014 ETİK BEYAN Gazi Üniversitesi Fen Bilimleri Enstitüsü Tez Yazım Kurallarına uygun olarak hazırladığım bu tez çalışmasında; Tez içinde sunduğum verileri, bilgileri ve dokümanları akademik ve etik kurallar çerçevesinde elde ettiğimi, Tüm bilgi, belge, değerlendirme ve sonuçları bilimsel etik ve ahlak kurallarına uygun olarak sunduğumu, Tez çalışmasında yararlandığım eserlerin tümüne uygun atıfta bulunarak kaynak gösterdiğimi, Kullanılan verilerde herhangi bir değişiklik yapmadığımı, Bu tezde sunduğum çalışmanın özgün olduğunu, bildirir, aksi bir durumda aleyhime doğabilecek tüm hak kayıplarını kabullendiğimi beyan ederim. Ferda AKÇA 12.08.2014 iv VERİ MADENCİLİĞİ İLE FEN FAKÜLTELERİ ÖĞRENCİ PROFİLLERİNİN İNCELENMESİ: GAZİ ÜNİVERSİTESİ ÖRNEĞİ (Yüksek Lisans Tezi) Ferda AKÇA GAZİ ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ Temmuz 2014 ÖZET Bu çalışmada Gazi Üniversitesi öğrencilerine ilişkin bir profil ortaya çıkarmak amacıyla öğrencilerin fen fakültesini seçmelerini etkilediği düşünülen öğrencilerin not ortalamaları, nüfusa kayıtlı olduğu il, doğum yeri, tercih sırası, cinsiyeti, lise türü ve ÖSYM puanı gibi çeşitli değişkenler ile akademik başarı puanları arasındaki ilişki Gazi Üniversitesi Fen Fakültesi öğrencilerine ait 2010 yılı verileri kullanılarak incelenmektedir. Araştırmadan elde edilen verilerin çözümlenmesinde Dört farklı Veri Madenciliği algoritması kullanılmış ve her bir algoritmada farklı bağımsız değişkenler seçilmiştir.Ayrıca öğrencilerin not ortalamalarını ve bölüm tercihi üzerinde önemli olan değişkenleri belirlenmeye çalışılmıştır.Araştırma Gazi Üniversitesi öğrencilerinin profilini tespit ederek bilimsel çalışmaya önem veren üniversitemizin bu çalışmalarını desteklemek amacıyla yapılmıştır.Öğrenci profiline yönelik çalışmalardan elde edilen sonuçlar, öğrencilerin üniversitenin güçlü ve zayıf yönlerini tanımasına, fırsatlarını ve engellerini bilmesine yardımcı olacak ve gelecekte uygulanması planlanan öğrenci politikaları ve stratejilerinin doğru bir şekilde belirlemelerine ışık tutacaktır.Çalışmada Veri Madenciliği algoritmalarından CHAID, QUEST, C&RT ve C5.0 uygulanmıştır.Elde edilen analizin sonuçları ayrıntılı olarak yorumlanmıştır. Bilim Kodu : 205.1.066 Anahtar Kelimeler : Veri Madenciliği, Veri Madenciliği Algoritması,CHAID, QUEST, C&RT, C5.0 Sayfa Adedi : 68 Danışman : Doç. Dr. Bülent ALTUNKAYNAK v ANALYZING STUDENT’S PROFILES OF SCIENCE FACULTY WITH DATA MINING METHOD: A SAMPLE OF GAZİ UNIVERSITY (M. Sc. Thesis) Ferda AKÇA GAZİ UNIVERSITY GRADUATE SCHOOL OF NATURAL AND APPLIED SCIENCES July 2014 ABSTRACT In this research, to reveal a profile related to the students of Gazi University; the relationship between the different variables like students’ grade point average, the city where the parents of these students live, the city where the students born, ÖSYM selection order, age, gender, type of high school, score percentage of ÖSYM, and academic success grade by using data belong to Gazi University science department students in 2010. In the analysis of the data 4 different data mining algorithms are used and arguments have been selected for each different independent variables. Moreover students' grade point average and preference section are tried to determine. The results gathered at the end of this research will shed light on the students to have better idea of their opportunities and handicaps; on the university to know more about their pros and cons and also to better shape the student policies and strategies which are planned to put into action in the future. In this study, data mining algorithms CHAID, QUEST, C&RT and C5.0 was applied. The results of analyzes obtained are commented in detail. Science Code Key Words Page Number Supervisor : : : : 205.1.066 Data Mining, Data Mining Algorithm, CHAID, QUEST, C&RT, C5.0 68 Assoc. Prof. Dr. Bülent ALTUNKAYNAK vi TEŞEKKÜR Öncelikle yüksek lisansın başından tamamlama aşamasına kadar geçen süre içerisinde yakın ilgi ve değerli yardımlarını gördüğüm, tez danışmanım kıymetli hocam Doç. Dr. Bülent ALTUNKAYNAK’a teşekkür ederim. Tez çalışmam boyunca desteğini hiçbir zaman esirgemeyen aileme ve özellikle değerli babam Çetin AKÇA’ya da teşekkürü bir borç bilirim. O olmasaydı onlarca işi tek başına yapmak oldukça güç olurdu. Katkıları paha biçilmez değerdedir. vii İÇİNDEKİLER Sayfa ÖZET .............................................................................................................................. iv ABSTRACT .................................................................................................................... v TEŞEKKÜR .................................................................................................................... vi İÇİNDEKİLER ............................................................................................................... vii ÇİZELGELERİN LİSTESİ............................................................................................. ix ŞEKİLLERİN LİSTESİ .................................................................................................. x SİMGELER VE KISALTMALAR................................................................................. xii 1. GİRİŞ........................................................................................................................ 1 2. ÜNİVERSİTE EĞİTİM SİSTEMİNDE FEN FAKÜLTELERİ ............... 3 2.1. Üniversite Eğitim Sistemi ................................................................................... 3 2.2. Fen Fakülteleri .................................................................................................... 4 2.3. Eğitim Alanında Veri Madenciliği İle İlgili Önceki Çalışmalar ......................... 6 3. VERİ MADENCİLİĞİ ......................................................................................... 9 3.1. Veri Madenciliği Yazılımları .............................................................................. 13 4. SINIFLANDIRMA ALGORİTMALARI ....................................................... 17 4.1. ID3 Algoritması .................................................................................................. 18 4.2. C4.5 ve C5.0 Algoritmaları ................................................................................. 21 4.3. C&RT Algoritması .............................................................................................. 22 4.4. CHAID Algoritması ............................................................................................ 23 4.5. QUEST Algoritması ............................................................................................ 27 5. UYGULAMA ......................................................................................................... 33 5.1. Veri Yapısı ve Değişkenler ................................................................................. 33 5.2. Tanımlayıcı İstatistikler ...................................................................................... 34 viii Sayfa 5.3. Sınıflandırma Algoritmalarına İlişkin Bulgular .................................................. 39 5.4. Sonuçların Karşılaştırılması ................................................................................ 59 6. SONUÇ VE TARTIŞMA.................................................................................... 63 KAYNAKLAR ...................................................................................................... 65 ÖZGEÇMİŞ ............................................................................................................ 68 ix ÇİZELGELERİN LİSTESİ Çizelge Sayfa Çizelge 2.1. Yıllara Göre fen bölümlerinin öğrenci sayıları ........................................... 4 Çizelge 4.1. Örnek veri çizelgesi .................................................................................... 19 Çizelge 4.2.Kiloya göre sınıflandırma ............................................................................ 20 Çizelge 4.3. Boya göre sınıflandırma ............................................................................. 20 Çizelge 4.4. Değişkenler ve düzeyleri ............................................................................ 25 Çizelge 4.5. Başarı düzeyi ve uyku süresi arasındaki çapraz çizelge ............................. 25 Çizelge 4.6. Beklenen frekanslar .................................................................................... 26 Çizelge 4.7. Başarı düzeyi ve yaşanılan yer arasındaki çapraz çizelge .......................... 26 Çizelge 4.8. Başarı düzeyi ve çalışma saatleri arasındaki çapraz çizelge ....................... 26 Çizelge 4.9. Çapraz çizelgelerden elde edilen ki-kare değerleri ..................................... 27 Çizelge 4.10. Yaşa göre sınıflama .................................................................................. 31 Çizelge 4.11. Araç tipine göre sınıflama ........................................................................ 31 Çizelge 5.1. Değişkenlere ait açıklamalar ve kodlamalar ............................................... 34 x ŞEKİLLERİN LİSTESİ Şekil Sayfa Şekil 5.1. Öğrencilerin cinsiyete göre dağılımı ........................................................... 34 Şekil 5.2. Öğrencilerin sınıflara göre dağılımı............................................................. 35 Şekil 5.3. Öğrencilerin geldiği yere göre dağılımı ....................................................... 35 Şekil 5.4. Öğrencilerin ÖSYM puanına göre dağılımı ................................................ 36 Şekil 5.5. Öğrencilerin tercih sırasına göre dağılımı ................................................... 36 Şekil 5.6. Öğrencilerin okudukları bölümlere göre dağılımı ....................................... 37 Şekil 5.7. Öğrencilerin not ortalamasına göre dağılımı ............................................... 38 Şekil 5.8. Öğrencilerin mezun oldukları lise türüne göre dağılımı .............................. 38 Şekil 5.9. Öğrencilerin doğduğu yere göre dağılımı .................................................... 39 Şekil 5.10. Not ortalaması için algoritmalarda kullanılan değişkenler ........................ 40 Şekil 5.11. C5.0 Algoritmasına göredeğişkenlerin not ortalamasındaki ağırlıkları ..... 40 Şekil 5.12. Not ortalaması C5.0 algoritması karar ağacı örneği .................................. 42 Şekil 5.13. C&RT Algoritmasına göre değişkenlerin not ortalamasındaki ağırlıkları 43 Şekil 5.14. C&RT Algoritması karar ağacı örneği ...................................................... 45 Şekil 5.15. CHAID Algortimasına göre değişkenlerin not ortalamasındaki ağırlıkları 46 Şekil 5.16. Not ortalaması için CHAID algoritması karar ağacı örneği ...................... 48 Şekil 5.17. QUEST Algoritmasına göre değişkenlerin not ortalamasındaki ağırlıkları 49 Şekil 5.18. Not ortalaması için QUEST algoritması karar ağacı örneği ...................... 50 Şekil 5.19. Bölüm değişkeni için modellerde kullanılan değişkenler .......................... 51 Şekil 5.20. C5.0 Algortimasına göre değişkenlerin bölüm üzerindeki ağırlıkları ....... 51 Şekil 5.21. Bölüm değişkeni için C5.0 algoritması karar ağacı örneği........................ 52 Şekil 5.22. C&RT Algortimasına göre değişkenlerin bölüm üzerindeki ağırlıkları .... 53 Şekil 5.23. Bölüm değişkeni için C&RT algoritması karar ağacı örneği .................... 54 xi Şekil Sayfa Şekil 5.24. CHAID Algortimasına göre değişkenlerin bölüm üzerindeki ağırlıkları .. 55 Şekil 5.25. Bölüm değişkeni için CHAID algoritması karar ağacı örneği................... 56 Şekil 5.26. QUEST Algortimasına göre değişkenlerin bölüm üzerindeki ağırlıkları .. 57 Şekil 5.27. Bölüm değişkeni için QUEST algoritması karar ağacı örneği .................. 58 Şekil 5.28. Algoritmalara göre değişkenlerin not ortalaması üzerine olan ağırlıkları . 59 Şekil 5.29. Değişkelerin algoritmalara göre bölüm üzerinde olan ağırlıkları .............. 60 xii SİMGELER VE KISALTMALAR Bu çalışmada kullanılmış simgeler ve kısaltmalar, açıklamaları ile birlikte aşağıda sunulmuştur. Kısaltmalar Açıklamalar C&RT Classification and Regression Trees CHAID Chi-Square Automatic Interaction Detector CRM Customer relationship management FEF Fen Edebiyat Fakültesi ID3 Iterative Dichotomiser 3 LYS Lisans Yerleştirme Sınavı OBP Orta Öğretim Başarı Puanı ÖSS Öğrenci Seçme Sınavı ÖSYM Ölçme, Seçme ve Yerleştirme Merkezi QDA Square Analysis of Variance QUEST Quaternion Estimator VD. Ve diğerleri YGS Yüksek Öğrenime Geçiş Sınavı 1 1. GİRİŞ Teknolojinin gelişmesinde uygulamalı bilimlerin yanında temel bilimler de önemli bir role sahiptir. Temel bilimlere ilişkin eğitimler üniversitelerin fen fakültelerinde verilmektedir. Ancak son yıllarda ülkemizde fen fakültelerine olan öğrenci talebi azalmaktadır. Birçok bölüm öğrenci sayısının yetersiz olmasından dolayı kapanma aşamasına gelmiştir. Bunda son yıllarda birçok yeni üniversitenin açılmasının payı çoktur. Öğrencilerin fizik, kimya, biyoloji gibi bölümleri tercih etmek yerine aynı puanlarla mühendislik veya işletme gibi alanlara yerleşebilmelerinin bu durum üzerinde etkili olduğu söylenebilir. Öğrencilerin bölüm tercihleri üzerinde başka değişkenlerin de etkisi olduğu düşünülebilir. Bu nedenle tercih üzerinde etkili olabilecek demografik özelliklerin belirlenmesi de fen fakültelerini tercih eden öğrenci profillerini belirlemek açısından önemlidir. Bölümleri tercih eden öğrencilerin ne kadar başarılı oldukları da bölümlere göre öğrenci profillerinin sınıflandırılması açısından önem taşımaktadır. Bu amaçla veri madenciliği tekniklerinden yararlanılabilir. Veri madenciliği, çok büyük miktardaki verilerin içindeki ilişkileri inceleyerek aralarındaki bağlantıyı bulmaya yardımcı olan ve veri tabanı sistemleri içerisinde gizli kalmış bilgilerin çekilmesini sağlayan veri analizi tekniğidir. Veri madenciliğinde en yaygın kullanılan yöntem ise karar ağaçlarıdır. Karar ağaçları kolay uygulanabilmesi ve sonuçların anlaşılabilir olması nedeniyle yaygın olarak kullanılan veri madenciliği tekniklerindendir. Bu çalışmada fen fakültelerini tercih eden öğrencilerin bölüm tercihlerinde ve not ortalamalarında etkili olan değişkenlerin belirlenmesi amaçlanmıştır. Bunun için veri madenciliğinin sınıflandırma algoritmalarından yararlanılmıştır. Çalışmanın ikinci bölümünde Türkiye’deki üniversite eğitim sistemi hakkında bilgiler verilmiştir. Bu bölümde ayrıca fen fakülteleri ile ilgili bilgiler verilmiş eğitim alanında yapılan çalışmalar hakkında literatür taraması yapılmıştır. Çalışmanın üçüncü bölümünde veri madenciliği hakkında bilgi verilmiştir. Bu bölümde veri madenciliğinde kullanılan yazılımlar ve algoritmalar hakkında bilgiler yer almaktadır. Dördüncü bölümde sınıflandırma algoritmalarının ayrıntıları yer almaktadır. Bu bölümde çalışmada kullanılacak olan ID3, C4.5/C5.0, C&RT, CHAID ve QUEST algoritmalarının işleyişi ve hesaplamalar hakkında bilgiler yer almaktadır. Beşinci bölümde Gazi Üniversitesi Fen Fakültesi öğrenci verisine 2 uygulanan sınıflandırma algoritmalarının sonuçları ve bulguları yer almaktadır. Bu bölümde veriye ait tanımlayıcı istatistikler ve karar ağaçları verilmektedir. Çalışmada kullanılan algoritmaların sonuçlarına ilişkin karşılaştırmalar da beşinci bölümde verilmiştir. Son bölüm sonuç ve tartışma bölümüdür. 3 2. ÜNİVERSİTE EĞİTİM SİSTEMİNDE FEN FAKÜLTELERİ Bu bölümde üniversite eğitim sistemleri hakkında bilgi verilmiştir. Aynı zamanda fen fakültelerinin durumu ve fen fakültelerini tercih eden öğrencilerin mevcut istatistikleri yorumlanmıştır. 2.1. Üniversite Eğitim Sistemi Bir toplumun görgüsünü, bilgisini, kültürünü, refah ve kalkınmışlık düzeyini kısaca genel niteliklerini belirleyen ve etkileyen en önemli etken, o toplumun bilgi ve eğitim düzeyidir. Genç insan gücü potansiyelinin değerlendirilmesi ve niteliğinin arttırılarak üretim sürecine katılımının sağlanması, Türkiye’ nin kalkınmasında hayati öneme sahiptir. Bu ise eğitim ve istihdam politikalarıyla yakından ilişkilidir. Eğitim-istihdam ilişkilerinin geliştirilmesi de hem birey hem de ulusal ekonomi için rekabet üstünlüğü sağlamada gereklidir. Bunun için bütün toplum mensuplarının kitlesel eğitimini genişletmeyi ve yükseltmeyi başlıca hedef seçmişlerdir. Bu hedefi gerçekleştirmeye çalışan kurumlardan biri olan üniversiteler de bilimsel bilgiyi araştırma yoluyla üretir, öğretir ve yayar(Arık, 2009). Bu noktada, üniversite öğretimi su üç işlevi yerine getirir; 1. Kültür aktarımı 2. Meslek eğitimi 3. Bilimsel araştırma ve yeni bilim adamlarının yetiştirilmesi Günümüzde bu işlevlere aynı önemde hizmet üretme işlevi de eklenmiştir. Mevcut sistemde üniversiteye giriş iki sınavla gerçekleşmektedir. YGS (Yükseköğrenime Geçiş Sınavı) LYS (Lisans Yerleştirme Sınavı) Her öğrenci YGS'ye girmek zorundadır. YGS, tüm lise öğrencilerinin aldığı ortak derslerden oluşur. Bunlar; Temel Matematik (Mat1), Temel Fen Bilimleri (9. sınıf), Dil ve Anlatım, Tarih, İnkılâp Tarihi, Milli Güvenlik Bilgisi, Temel Coğrafya (Coğ1), Felsefe'dir. Meslek ve teknik lise öğrencilerin sadece YGS' ye girmesi yeterliyken Anadolu ve Genel Lise öğrencilerinin LYS' ye de girmesi gerekmektedir. 4 2.2. Fen Fakülteleri Türkiye’deki fen fakülteleri incelendiğinde fakültelerin genel olarak Fizik, Kimya, Biyoloji, Matematik ve İstatistik bölümlerinden oluştuğu görülmektedir. Bu bölümlere ait kontenjanlar, yerleşen öğrenci sayıları ve yerleşen öğrenci oranları Çizelge2.1’ de verilmiştir. Çizelge incelendiğinde, Fizik, Kimya ve Biyoloji bölümlerine yerleşen öğrenci oranlarının 2009 dan 2012’ye kadar düzgün bir şekilde azaldığı görülmektedir. Matematik bölümü ise 2009-2011 yılları arasında yerleşen öğrenci oranı bakımından düzgün bir seyir izlerken 2012 yılında bölüme yerleşen öğrenci oranı keskin bir düşüşle %49,2’ye gerilemiştir. İstatistik bölümü de matematik bölümüne benzer bir seyir izlerken 2012’deki azalış miktarı matematik bölümüne göre daha azdır. 2011 yılında istatistik bölümüne yerleşen öğrenci oranı %100 iken 2012’de %72,6 olmuştur. Çizelge 2.1. Yıllara göre fen bölümlerinin öğrenci sayıları Yıllar Bölüm Fizik Kimya Biyoloji Matematik İstatistik Öğrenci Yerleşen Kontenjan % Yerleşen Kontenjan % Yerleşen Kontenjan % Yerleşen Kontenjan % Yerleşen Kontenjan % 2009 4942 6936 71.3 6479 7479 86.6 6897 7553 91.3 7796 7996 97.5 1819 2230 81.6 2010 3611 8266 43.7 7094 8977 79.0 7324 8885 82.4 9347 9455 98.9 2375 2375 100.0 2011 1545 4504 34.3 4582 8008 57.2 4339 8004 54.2 9354 9809 95.4 2387 2387 100.0 2012 555 2373 23.4 1949 5873 33.2 1679 5862 28.6 5430 11036 49.2 1809 2491 72.6 2013 553 1050 52.7 1647 2405 68.5 1435 2093 68.6 4963 5772 86.0 1887 2140 88.2 2013 yılında istatistik bölümü hariç diğer bölümlerde kontenjanlar neredeyse yarı yarıya azaltılmıştır. İstatistik bölümü kontenjanlarında ise yaklaşık olarak %15’lik bir azalmaya gidilmiştir. Buna rağmen 2013 yılında en fazla oranda öğrenci yerleşimi %88,2 ile istatistik bölümünde gerçekleşmiştir. Bu durumlar Şekil 2.1 de net bir şekilde görülmektedir. 5 100% 90% 80% 70% 60% Fizik Kimya 50% Biyoloji 40% Matematik İstatistik 30% 20% 10% 0% 2009 2010 2011 2012 2013 Şekil 2.1. Yıl bazında fen bölümlerine yerleşen öğrenci oranları Özellikle Fizik, Kimya ve Biyoloji bölümlerinin öğrenci sayılarındaki bu azalışın nedeni pedagojik formasyonun bu fakültelerde okuyan öğrencilerin elinden alınması olarak görülmektedir (http://fefkon.beun.edu.tr/Sonuc_raporlari/Paneller.pdf). Koncuk (2012) çalışmasında Fen Edebiyat Fakültelerinin tekrar rağbet görmesi için bu fakültelerin yeniden öğretmen yetiştirmeye başlaması böylece hem Eğitim Fakültelerinin hantallığı ortadan kalkması ve hem de Fen-Edebiyat Fakültelerine dinamizminin gelmesi yönünde bir öneri sunmaktadır. Ancak pedagojik formasyonun 2012 yılında kaldırıldığı dikkate alınırsa öğrenci sayılarındaki azalışın bu etkene bağlanması doğru olmaz. Bu azalışta yeni açılan üniversitelerin aynı puanla farklı bölüm alternatifleri sunması da etkili olmuştur. Örneğin bir öğrenci istihdam olanağı daha sınırlı olan Fizik bölümüne girmek yerine aynı puanla inşaat mühendisliğine girebilmektedir. Fen bölümlerinin, öğrenciler tarafından yeniden ilgi duyulan bir alan haline getirmek için; Üniversiteler bünyesinde tanıtım ofisleri kurulmalıdır, bu ofislerin FEF’lerin eğitimöğretim ve misyonunu tanıtan, mezunların yapabilecekleri iş olanaklarını ortaya koyan bilgileri kamuoyuyla paylaşması gerekir. İlköğretimden başlayarak temel bilimler özendirilmeli, ilk ve orta öğretimde ders müfredatları öğrencilerin bu bölümlere ilgisini arttıracak şekilde güncellenmelidir. Ortaöğretim müfredatlarında özellikle fen dersleri bilgi yığılması şeklinde öğretilmekte ve öğrenciler, ezberlemek zorunda kaldıkları temel bilimlerden daha öğrenmeden soğumaktadırlar. Öğrencilerin gözlem yapma, bilgiyi sistematik sınıflandırma ve 6 hipotez-kuram dizgisini anlama konusunda daha bilinçli olacağı şekilde, eğitim sistemi düzenlenmeli ve yeni eğitim planları oluşturulmalıdır. Bölüm isimlerinin, popüler alt dallarının isimleriyle değiştirilmesi ya da yeni bir bölüm olarak kurulması engellenmeli; farklı isimlerle anılan bölümlerden aynı unvanlı mezunlar verilmemelidir. Fen fakültelerinin bölümleri incelendiğinde en fazla rağbet gören bölümün İstatistik bölümü olduğu görülmektedir. Bu çalışmada hem fen fakültelerinde okuyan öğrencilerin başarı durumlarına etki eden faktörler hem de bölüm seçiminde etkili olan demografik özellikler incelenecek ve bölümler bazında karşılaştırmalar yapılacaktır. 2.3. Eğitim Alanında Veri Madenciliği İle İlgili Önceki Çalışmalar Aydın (2007) çalışmasında veri madenciliği konusunu ele alarak Uzaktan Eğitim Sisteminin planlama faaliyetlerine katkı sağlayabilecek öğrenci performansını tahmin etmeye yönelik bir model önermiştir. Ayrıca mezun öğrencilerin profillerini çıkarmaya yönelik kümeleme çalışması gerçekleştirmiştir. Bu çalışmasında Aydın, Öğrenci bilgi sistemi ve e-öğrenme sisteminden sağladığı verilerle SPSS Clementine veri madenciliği yazılımı kullanarak öğrencinin kimlik, geçmiş başarısı ve e-öğrenme kullanım güncelerini girdi parametresi olarak kullanan tahmin modelleri C5.0, Logistic Regression, Neural Net, C&RT, CHAID ve QUEST algoritmalarını çalıştırarak elde etmiştir. Bu modellere geçerlilik testi uygulayarak C5.0 ile elde ettiği karar ağacı modelini en iyi tahmin modeli olarak seçilmiştir. C5.0 algoritması ile elde edilen tahmin modeli %82,1 doğruluk oranı sağlamıştır. Yazar araştırmanın ikinci aşamasında mezun öğrenci verilerine kümeleme analizi uygulamıştır. Mezun öğrenciler; medeni durum, bilgisayar ve internet kullanım verileri, cinsiyet, mezuniyet yaşı ve mezuniyet gecikmesi özelliklerine göre beş küme halinde gruplandırılmıştır. Kümeleme sonucu bilgisayar ve internet kullanan bekâr erkek öğrencilerin diğer öğrencilere göre daha kısa sürede mezun oldukları gözlenmiştir. Mezuniyet gecikmesi en fazla olan öğrencilerin ise yaşı büyük, internet kullanmayan ve bilgisayarı sınırlı kullanan öğrenciler olduğu belirlenmiştir. Öğrenci başarılarını etkileyen faktörler üzerine yapılan araştırmalar arasında yer alan çalışmalardan biri de Kurt ve Erdem (2012) çalışmasıdır. Bu çalışmada başarılı ve başarısız öğrencilerin profilleri belirlenerek, uygun çözümler önerilmiştir. Öğrencilerin akademik 7 başarılarına etki eden faktörlerin belirlenmesinde veri madenciliği yöntemlerini kullanmıştır. Öğrencilerin başarılarına etki eden faktörleri bulabilmek amacıyla çalışmasında C&RT, CHAID, Neural Network, Apriori, k-ortalama modellerini kullanarak amaçlanan sonuçlara ulaşmaya çalışmıştır. Çalışmanın sonunda ise mezuniyet sonrası bölümle ilgili bir işte çalışıp çalışmama ihtimalinin başarıyı ciddi şekilde etkilediği, araştırmacı kişiliğin başarı üzerine çok büyük bir etkisi olduğu, başarısızlığa etki eden faktörlerin başında istemediği bölümde okumak ve başarısız öğrencilerin çoğunun istemediği bölümde okuduğu sonucuna ulaşmıştır. Öğrencilerin lise mezuniyet ortalamaları ile lisans ortalamaları arasında ilişki bulunmuş, cinsiyetin başarıda etkin olarak belirleyici bir etkisi saptamamıştır. Keskin vd.(2010) yaptıkları çalışmada Pamukkale Üniversitesi Buldan Meslek Yüksek Okulu bölümlerinde okuyan öğrencilerin profilini belirlemek amacıyla öğrencileri tesadüfi örnekleme yöntemiyle belirleyerek anket çalışması yapmışlardır. Araştırma sonucu, bayan öğrenci sayısının erkek öğrenci sayısından daha fazla olduğu ve yaş dağılımının birbirine oldukça yakın olduğunu saptamışlardır. Öğrencilerin geldikleri illerin dağılımına baktıklarında yakın illerden gelen öğrenci sayısının daha fazla olduğu sonucuna varmışlardır. Öğrencilerin bölüm seçmelerindeki en büyük etkenin bir mesleğe sahip olmak olduğu sonucunu elde etmişlerdir. Araştırmada elde edilen bulgular diğer çalışmalarda elde edilen bulgularla benzerlik gösterdiği kanaatine varmışlardır. Ataseven (2008) çalışmasında üniversite adaylarının tercihlerini belirleyen desenlerin veri madenciliği yöntemlerinden Karar ağaçları ve Lojistik Regresyonu kullanılarak geliştirilen model önerileri ve uygulamaları sunmuştur. Her puan türü için, o puan türünde yerleşmeye hak kazanmış adaylar üzerinde modellerin uygulamasını gerçekleştirmeyi amaçlamıştır. Bozkır vd.(2009) makalesinde öğrenci seçme sınavında öğrenci başarısını etkileyen faktörleri, veri madenciliği yöntemleriyle tespit etmiştir. Çalışmasında ÖSYM’ nin resmi internet sitesinden 2008 yılında uygulanmış olan ÖSS öğrenci anketinden elde edilen veriler üzerinde sınıflandırma ve kümeleme yöntemlerini uygulanmış ve öğrencilerin ÖSS sınavında gösterdikleri başarıyı etkileyen faktörleri tespit etmiştir. SPSS programını kullanarak verilerine kümeleme ve karar ağacı algoritmalarını uygulamıştır. Araştırma kapsamında, OBP puanı (Fen, Eşit ağırlık, sözel) tüm öğrencilerin ÖSS’ de ortak başarı ölçütü olarak ele alınırsa bu puan türüne etkiyen en önemli beş faktörün yaş, okul türü, 8 sanat derslerine ilgi, matematik dersi için harcanan ödev zamanı ve fen bilgisi laboratuar kullanım oranı olduğu gözlemlemiştir. Diğer tüm puan türlerinde de yaşın önemli bir etken olduğu sonucuna varmıştır. Ayrıca okullarda sunulan teknik imkânların ÖSS başarısı üzerinde önemli etkilerini tespit etmiştir. Özellikle kümeleme analizinde öğrencinin sahip olduğu sosyal, kültürel ve ekonomik imkânların ÖSS başarısına büyük katkısı bulunmuştur. Owen vd. (2011) “XI. Ulusal Psikolojik Danışmanlık ve Rehberlik Kongresi’ nde sundukları Üniversite Öğrencilerinin Bölüm Seçimlerini Etkileyen Etmenler çalışmalarında bölüm seçerek gelecekte edinecekleri meslek ile seçimlerini yapmış olan üniversite öğrencilerinin meslek seçimi yapmalarını etkileyen faktörleri belirlemişlerdir. Çalışmalarında 2009-2010 öğretim yılı bahar ve 2010-2011 öğretim yılı güz döneminde öğrenimine devam eden, Türkiye’de bulunan 3 özel, 10 devlet üniversitesi olmak üzere toplam 13 üniversiteden 869 (385 K, 484 E) öğrenci verilerini kullanmışlardır. Çalışmalarında üniversite öğrencilerinin cinsiyetleri, mezun oldukları lise türü, anne ve babalarının eğitim düzeyi, yaşamının çoğunu geçirdikleri yer değişkenlerine göre meslek seçme nedenlerinde ve seçtikleri bölümlerden memnuniyetlerinde farklıkların olması liselerde yapılacak mesleki rehberlik çalışmalarında işe yarayabilir sonucuna ulaşmışlardır. 9 3. VERİ MADENCİLİĞİ Frawley vd.(1992) veri madenciliğini “daha önceden bilinmeyen ve potansiyel olarak yararlı olma durumuna sahip verinin keşfedilmesi” olarak tanımlamıştır. Bir başka tanıma göre veri madenciliği, veri ambarlarındaki tutulan çok çeşitli verilere dayanarak daha önce keşfedilmemiş bilgileri ortaya çıkarma ve bunları karar vermek için kullanma süreci olarak ifade edilir (Swift, 2001). Daha genel bir ifadeyle veri madenciliği, geniş veri yığınları içerisinde, yararlı olma potansiyeline sahip, aralarında beklenmedik / bilinmedik ilişkilerin olduğu verilerin keşfedilerek, veri sahibi için hem anlaşılır hem de kullanılabilir bir biçime getirilmesine yönelik geliştirilmiş yöntemler topluluğu olarak tanımlanabilir (Öğüt, 2005). Veri madenciliğinin kökeni verilerin bilgisayar ortamında depolanmaya başladığı 1950’ li yıllara dayanmaktadır. Bilgisayarlarda verilerin depolanmasıyla birlikte veri tabanları denilen yapılar ortaya çıkmıştır. Veri tabanlarının büyük hacimlere ulaşması donanımsal olarak bu verilerin tutulacakları ortamların da genişlemesini gerektirmiştir. Gittikçe büyüyen veri tabanlarının organizasyonu, düzenlenmesi ve yönetimi de buna paralel olarak güç bir hal almaya başlamıştır. Bu aşamada veri modelleme kavramı ortaya çıkmıştır (Öğüt, 2005). İlk olarak basit veri modelleri olan hiyerarşik ve şebeke veri modelleri geliştirilmiştir. Hiyerarşik veri modeli, ağaç yapısına sahip, temelinde bir kök olan ve bu kök vasıtasıyla üstünde her daim bir, altında ise n sayıda düğüm bulunan veri modelidir. Şebeke veri modeli ise kayıt tipi ve bağlantıların olduğu, kayıt tiplerinin varlık, bağlantılarınsa ilişki tiplerini belirlediği bir veri modelidir. Şebeke veri modelinde herhangi bir eleman bir diğeri ile ilişki içerisine girebilir ancak çoklu ilişki kurmak söz konusu değildir. Hiyerarşik veri modellerinde ise bu durum daha kısıtlıdır. Bundan dolayı ihtiyaçlar doğrultusunda Geliştirilmiş Veri Modelleri geliştirilmiştir. Bunlar Varlık-İlişki, İlişkisel ve NesneYönelimli veri modelleri olarak bilinmektedirler. Günümüzde en sık kullanılanı ilişkisel veri modelidir. Nesne -Yönelimli veri modelleri ise hala gelişim süreci içerisindedir. Veri madenciliği, kavramsal olarak 1960’lı yıllarda, bilgisayarların veri analiz problemlerini çözmek için kullanılmaya başlamasıyla ortaya çıkmıştır. O dönemlerde, bilgisayar yardımıyla, yeterince uzun bir tarama yapıldığında, istenilen verilere ulaşmanın 10 mümkün olacağı gerçeği kabullenilmiştir. Bu işleme veri madenciliği yerine önceleri veri taraması (data dredging), veri yakalanması (data fishing) gibi isimler verilmiştir. 1990’lı yıllara gelindiğinde veri madenciliği ismi, bilgisayar mühendisleri tarafından ortaya atılmıştır. Burada amaç, geleneksel istatistiksel yöntemler yerine, veri analizinin algoritmik bilgisayar modülleri tarafından değerlendirmesini vurgulamaktır (Öğüt, 2005). İstatistik ise verilerin toplanması, düzenlenmesi, analiz edilmesi ve raporlaştırılması aşamalarını içeren veri bilimidir (Bakır ve Aydın, 2010). Bilgisayarların veri analizi için kullanılmaya başlanmasıyla istatistiksel çalışmalar da hız kazanmıştır. 1990 yılından sonra istatistik, veri madenciliği ile ortak bir platforma taşınmıştır. Verinin, yığınlar içerisinden çekip çıkarılması ve analizinin yapılarak kullanıma hazırlanması sürecinde veri madenciliği ve istatistik sıkı bir çalışma birlikteliği içine girmiştir. Veri madenciliğinin karar verici için sağladığı yararlar şu şekilde verilebilir: Bir işletme için mevcut müşterilerin karar verici tarafından daha iyi tanınmasını sağlayabilir. Bu sayede işletme müşterilere sunduğu tekliflerle karlılığını arttırabilir. Özellikle finans sektöründe mevcut müşterileri bölümlere ayırıp, kredi risk davranış modelleri oluşturarak, yeni başvuruda bulunan müşterilere karşı riskin minimize edilmesi sağlayabilir. En iyi müşteriler tespit edilerek bunlara yönelik yeni pazarlama stratejileri oluşturulabilir. Veri madenciliği ile mevcut müşteriyi tanıyarak kuruluşların müşteri ilişkileri yönetimlerinde (CRM) düzenleme ve geliştirmeler yapılabilir. Bu sayede kuruluşun müşterilerini daha iyi tanıyarak müşteri gibi düşünme kapasitelerinin arttırılması sağlanabilir. Günümüzde var olan yoğun rekabet ortamında kuruluşların hızlı ve kendisi için en doğru kararı almalarını sağlayabilir. Sosyal paylaşım siteleri gibi yazışmaların yapıldığı internet ortamlarında metin analizleri (text mining) yapılarak kullanıcılara yönelik sayfa düzenlemeleri ve reklamlarla iyileşme sağlanabilir. Yine aynı ortamlarda kullanıcıların kişisel profilleri belirlenebilir. 11 Dolayısıyla günümüzde veri madenciliği birçok alanda kullanılmaktadır. Bu alanlar pazarlama, bankacılık, endüstri, sağlık ve risk yönetimi gibi başlıklar altında sınıflandırılabilir (Eker, 2004). Pazarlama - Müşterilerin satın alma örüntülerinin belirlenmesi, - Müşterilerin demografik özellikleri arasındaki bağlantıların bulunması, - Posta kampanyalarında cevap verme oranının artırılması, - Mevcut müşterilerin elde tutulması, yeni müşterilerin kazanılması, - Pazar sepeti analizi, - Müşteri ilişkileri yönetimi, - Müşteri değerlendirmesi, - Satış tahmini, Bankacılık - Farklı finansal göstergeler arasında gizli korelâsyonların bulunması, - Kredi kartı dolandırıcılıklarının tespiti, - Kredi kartı harcamalarına göre müşteri gruplarının belirlenmesi, - Kredi taleplerinin değerlendirilmesi Endüstri - Kalite kontrolünde uygulanması, - Üretim çeşitliliğine ilişkin politikaların belirlenmesi Sağlık - Hastalar için erken uyarı sistemlerinin oluşturulması, - Laboratuar testlerinde hata tespiti, - Yerleşim yerlerine göre hastalık haritalarının çıkartılması 12 Sigortacılık/Risk Yönetimi - Yeni poliçe talep edecek müşterilerin tahmin edilmesi, - Sigorta dolandırıcılıklarının tespiti, - Riskli müşteri örüntülerinin belirlenmesi Yukarıda verilen alanlarla ilgili yapılan çalışmalardan bazıları şöyledir: Şimşek (2006) yaptığı çalışmada, veri madenciliği ile Müşteri İlişkileri Yönetimi (CRM)‘i incelemiş ve bu çalışmasında Kümeleme Analizi ve Birliktelik Analizini kullanmıştır. Bir diğer çalışma ise Topaloğlu(2007) tarafından yürütülen çalışmadır. Veri Madenciliği ile Meteorolojik Parametrelerin Analizi çalışmasında Karar Ağaçları yönteminden yararlanmıştır. Veri madenciliğinin istatistik ile olan yakın ilişkisi tıp ve ekonomi gibi bilim dalları için de önemli bir yöntemdir. Yıldırım vd.(2007) tarafından yapılan Hastane Bilgi Sistemlerinde Veri Madenciliği adlı çalışmalarında İlişkisel Kural Analizi (Association Rules Analysis) ile veri madenciliği tekniklerinden yararlanmışlardır. Bir diğer alan olan ekonomide ise Koyuncugil (2007) Veri Madenciliği ve Sermaye Piyasalarına uygulanması adlı çalışmasında Karar Ağaçları Yöntemleri ve Lojistik Regresyondan yararlanmıştır. Kim vd.(2011) yaptığı çalışmada, çok değişkenli süreçlerde bağımlı gözlem durumu için veri madenciliğine dayalı kontrol grafiklerini çalışmışlardır. Veri madenciliği algoritmaları ve klasik yöntemlerin tanıtıldığı çalışmada simülasyona dayalı karşılaştırılmalar yer almaktadır. Veri madenciliğine dayalı kontrol grafikleri ile geleneksel kontrol grafiklerinin karşılaştırılmasında özellikle süreçte küçük kaymaların meydana geldiği durumlarda, veri madenciliğine dayalı kontrol grafiklerinin daha etkin olduğu sonucuna ulaşılmıştır. Hisse senetleri, döviz kurlarına ve işletme iflaslarının tahmini, finansal risk yönetimi ve belirlenmesi, borç yönetimi, müşteri profillerinin belirlenmesi ve kara para aklama analizleri veri madenciliğinin finansal çalışmalarda kullanıldığı temel alanlardır. Veri madenciliğinin finansal çalışmalarda başarılı olarak uygulandığı araştırmalar; hilekârlığın, işletme iflas ve başarısızlıklarının belirlendiği Lee vd.(1996) ve Kumar vd.(1997) çalışmaları, stratejik finansal karar alma uygulamalarında Nazem ve Shin (1999) çalışması, pazar uygulamalarında Brachman vd. (1996), finansal performans uygulamalarında Magnusson vd.(2005) çalışmaları örnek olarak gösterilebilir. 13 İnternet, kullanım yaygınlığının artmasıyla birlikte sürekli büyüyen bir veri ağıdır. Dolayısıyla bu alanda da son yıllarda veri madenciliği çalışmalarına rastlamak mümkündür. Aynekin (2006) çalışmasında internet içeriğine ilişkin veri madenciliğini yapay sinir ağlarına dayalı olarak incelemiştir. Veri Madenciliği tekniklerinden olan birliktelik/sepet analizi de sık kullanılan yöntemlerdendir. Timor ve Şimşek (2008) ile Gürgen (2008) Türkiye’de perakende sektöründe faaliyet gösteren büyük bir market zincirine ait verilerden yararlanarak birliktelik analizi ile ilgili çalışmalar yapmışlardır. Bu çalışmalarda müşterilerin satın alma davranışlarını etkileyen değişkenler karar ağaçlarıyla belirtilmiştir. Emel vd.(2005) pazarlama stratejisi için birliktelik analizi uygulamışlar ve işletmenin en çok kar ettiği müşteri-ürün çiftlerini tespit etmeye çalışmışlardır. Yukarıda verilen örneklerde de görüldüğü üzere veri madenciliği uygulamaları geniş bir kullanım alanına sahiptir. Veri madenciliğinin kullanımının yaygınlaşması veri madenciliği yazılımlarının da aynı paralellikte gelişmesini sağlamıştır. Takip eden bölümde veri madenciliğinde kullanılan yazılımlar hakkında bilgi verilecektir. 3.1. Veri Madenciliği Yazılımları Her veri madenciliği çalışmasında verilerin kaynaklardan toplanması ve entegrasyonu, verilerin temizlenmesi, modelin oluşturulması, modelin denenmesi ve sonuçların sunuma hazırlanması adımları karşımıza çıkar. Bu amaçla veri madenciliği çalışmalarını yapmak için birçok yazılım geliştirilmiştir. Veri madenciliği ile ilgili yapılan çalışmalar dikkate alındığında kullanım yüzdelerine göre yazılımlar aşağıdaki grafikte verilmiştir (Rexer, 2013). YAZILIM 14 KXEN TIBCO S+ Salford Systems SAP Business Objects Orange C45/C50/See5 Oracle Advanced Analytics IBM Cognos SAS JMP Minitab Mathematica STATISTICA KNIME SAS Enterprise Miner IBM SPSS Modeler Microsoft SQL Server Matlab Weka SAS Rapid Miner IBM SPSS Statistics R 0 10 20 30 40 50 60 70 80 Kullanım Yüzdesi Şekil 3.1. Yazılımların kullanım yüzdeleri Grafikten de görüldüğü gibi veri madenciliğine ilişkin analizlerde en çok tercih edilen yazılım R yazılımıdır (%70). Bunu sırasıyla IBM SPSS Statistics (%34) ve RapidMiner (%32) yazlımları takip etmektedir. R yazılımının ücretsiz olması ve açık kodlu olması bu yazılımın tercih edilme nedenlerinin başında gelmektedir. Yazılımlarda kullanılan veri madenciliği yöntemlerinin dağılımı ise aşağıdaki grafikte yer YÖNTEM verilmiştir. MARS Uplift Modeling Link Analysis Genetic Algorithms Social Network Anaysis Rule Induction Survival Analysis Anomoly Detection Bayesian Support Vector Ensemble Models Association Rules Text Mining Factor Analysis Neural Nets Time Series Cluster Analysis Regression Decision Trees 0 10 20 30 40 50 Kullanım Yüzdesi Şekil 3.2. Yöntemlerin kullanım yüzdeleri 60 70 80 15 Şekilden de görüldüğü gibi veri madenciliği algoritmaları içerisinde en çok kullanılanı karar ağaçlarıdır (%69). Bunu sırasıyla Regresyon (%68) ve Kümeleme Analizleri (%60) takip etmektedir. Karar ağaçları elde edilmesi ve yorumlanması kolay algoritmalardır. Bu algoritmalar sınıflandırma algoritmaları içerisinde yer almaktadır. Bu çalışmada sınıflandırma algoritmaları kullanılmıştır. Bu konuyla ilgili bilgi takip eden bölümde yer almaktadır. 16 17 4. SINIFLANDIRMA ALGORİTMALARI Veri madenciliğinde kullanılan yöntemler önceki bölümde de bahsedildiği gibi Sınıflandırma Teknikleri, Birliktelik Kuralları, Kümeleme Analizi, Regresyon Analizi ve Zaman Serileri gibi başlıklar altında toplanabilmektedir. Bu bölümde çalışmada kullanılacak olan sınıflandırma algoritmalarının ayrıntıları verilmiştir. Sınıflandırma algoritmalarının geniş bir bölümünü karar ağaçları oluşturmaktadır. Bu algoritmaların birbirleri ile aralarında farklılıklar olmakla birlikte ciddi benzerlikler de bulunmaktadır. Aşağıda karar ağaçlarında kullanılan temel algoritma yapısı adımlar halinde verilmektedir. 1. Başlangıçta bütün noktalar ağacın kökünde toplanmaktadır. 2. Tüm örneklemler aynı sınıfa ait olması durumunda, düğüm yaprağa dönüşür ve aynı isim ile adlandırılır. 3. Aksi halde düğümdeki örneklemler birden fazla sınıfa aittir. Bu durumda test yapılarak karar verilir ve bir bölümlenme meydana gelmektedir. 4. Kategorik veriler kullanılmaktadır. Sürekli değişkenlerin kesikli değişken haline dönüştürülmesi gerekmektedir. 5. Bir dal, test değişkenin tüm değerleri için oluşturulmakta ve örneklemin bölümlenmesi buna göre yapılmaktadır. 6. Örneklemin her bölümlenmesinde yinelemeli olarak aynı algoritma kullanılmaktadır. 7. Bölümlemenin sona ermesi için aşağıdaki koşullardan birisinin gerçekleşmesi gerekmektedir. a. Bir düğümde bulunan bütün örneklemler aynı sınıfa aittir. b. Bölünmenin yapılacağı başka değişken kalmamıştır. c. Başka örneklem kalmamıştır. Karar ağaçları, a. Kişilerin kredi geçmişlerini kullanarak kredi kararlarının verilmesi, b. Geçmişte işletmeye en faydalı olan bireylerin özelliklerini kullanarak işe alma süreçlerinin belirlenmesi, c. Tıbbi gözlem verilerinden yararlanarak en etkin kararların verilmesi, d. Hangi değişkenlerin satışları etkilediğinin belirlenmesi, 18 Üretim verilerini inceleyerek ürün hatalarına yol açan değişkenlerin belirlenmesi gibi uygulamalarda kullanılmaktadır. 4.1. ID3 Algoritması Bu algoritma sınıflandırmada en ayırt edici özelliğe sahip değişkeni belirlerken entropi kavramını kullanır. Dunham (2003)’e göre entropi veri kümesi içerisindeki belirsizliği ve rastgeleliği ölçen bir kavramdır (Dunham, 2003:8). p1 , p2 ,..., pn ayrık olaylara ilişkin olasılıkları ifade etsin. Bu durumda n p i 1 i 1 olmak üzere entropi aşağıdaki gibi ifade edilebilir. n H ( p1 , p2 ,..., pn ) pi log(1/ pi ) i 1 Entropi hesaplanırken ilk başta tüm veri tabanı için hesaplanır. Ancak herhangi bir sınıflandırma (dallandırma) gerçekleştiğinde her bir alt bölümünde entropisi hesaplanmalıdır (Silahtaroğlu, 2013: 75). Hesaplanan entropi değeri ile alt bölüme ait entropi değerleri arasındaki fark kazanım (gain) olarak adlandırılır. Bu değer aşağıdaki gibi hesaplanır. n G( D) H ( D) P( Di ) H ( Di ) i 1 Burada D bir değişkeni temsil ederken Di değişkenin i. düzeyini temsil etmektedir. Kazanım değeri hangi değişken için daha büyükse o değişken üzerinden dallandırma yapılır. 19 ID3 algoritmasının işleyişini bir örnekle açıklayalım. Çizelge 4.1. Örnek veri çizelgesi Cinsiyet K K E E K E E K E E K K K K E Kilo 56 75 80 65 85 60 78 55 83 75 75 81 58 55 90 Boy 161 165 173 175 170 155 180 176 168 187 175 165 174 160 181 Beden Orta Büyük Orta Küçük Orta Küçük Orta Küçük Büyük Orta Orta Büyük Küçük Küçük Büyük Çizelgede ki veriler kullanılarak bir karar ağacı oluşturmak istenirse kök düğüm şu şekilde hesaplanır; Önce genel entropisi hesaplanır. Toplam gözlem sayımız 15 ve bu gözlemlerden bedene göre 5 tanesi küçük, 7 tanesi orta ve 3 tanesi büyük sınıfında bulunmaktadır. n Kazanım( D; S ) H ( D) P( Di ) H ( Di ) i 1 H ( p1 , p2 ,..., pn ) pi log(1/ pi ) 5 15 6 15 4 15 log log log 0.4710 15 5 15 6 15 4 Şimdi cinsiyet değişkeni için entropi hesaplanırsa, küçük sınıfında ki kadın sayısı 3, orta sınıfında ki kadın sayısı 3 ve büyük sınıfında ki kadın sayısı 2’ dir aynı şekilde erkekler içinde hesaplanır. 3 8 3 8 2 8 entropi kadın = log log log 0.4685 8 3 8 3 8 2 2 7 3 7 2 7 entropi erkek = log log log 0.4677 7 2 7 3 7 2 20 8 7 Ağırlıklı toplam= 0.4685 0.4677 0.4680 15 15 Cinsiyet için kazanım ise 0.4710 0.4680 0.003 olarak hesaplanır. Aynı işlemler kilo için de yapılır ancak öncelikle kilo değişkeninin gruplara ayrılması gerekmektedir. Çizelge 4.2. Kiloya göre sınıflandırma Aralık(kilo) 55-65 66-75 76 ve üstü Grup No 1 2 3 1. grup kilo için entropi= 4 6 2 6 log log 0.2760 6 4 6 2 2. grup kilo için entropi= 1 3 2 3 log log 0.2763 3 1 3 2 4 6 2 6 log log 0.2760 6 4 6 2 6 3 6 Ağırlıklı toplam= 0.2760 0.2763 0.2760 0.2760 15 15 15 3. grup kilo için entropi= Kilo için kazanım ise 0.4710 0.2760 0.195 olacaktır. Aynı işlemleri boy değişkeni için yapılır. Çizelge 4.3. Boya göre sınıflandırma Aralık(boy) 155-165 166-175 176 ve üstü Grup No 1 2 3 1. grup boy için entropi= 1 5 4 5 log log 0.2165 5 1 5 4 2. grup boy için entropi= 3 6 3 6 log log 0.3010 6 3 6 3 3. grup boy için entropi= 1 4 3 4 log log 0.2437 4 1 4 3 21 Ağırlıklı toplam= 5 6 4 0.2165 0.3010 0.2437 0.258 15 15 15 Boy için kazanım ise 0.4710 0.258 0.213 olarak hesaplanır. Bütün değişkenler için hesaplanan kazanımlar dikkate alındığında; Cinsiyet (kazanım): 0.003 Kilo (kazanım): 0.195 Boy (kazanım): 0.213 olarak hesaplanır. Bu aşamadan sonra en yüksek olan kazanım boy kök düğüm kabul edilir. Bu aşamadan sonra boy verileri ele alınarak kilo ve cinsiyet değişkenleri için tekrar kazanımlar hesaplanır ve düğümlerin isimleri belirlenir. Daha sonra aynı işlemler diğer dallar içinde sırasıyla uygulanarak ağaç oluşturulur. 4.2. C4.5 ve C5.0 Algoritmaları Entropi temelli ID3 algoritmasının geliştirilmiş formudur. Birçok veri madenciliği yazılımı bu algortimayı içermektedir. Bu algoritmada hedef değişken üzerinde etkili olabilecek her bir değişken için ayırma değeri (split value) ve kazanım oranı (gain ratio) hesaplanır. Genel entropi fonksiyonu H ( p1 , p2 ,..., pn ) pi log(1/ pi ) olmak üzere ayırma değeri D D D H 1 , 2 ,..., s D D D şeklinde ifade edilebilir. Kazanım oranı ise GR( D) H ( D) SV ( D) olarak yazılır (Pang and Gang, 2009). C4.5 ve C5.0 Algoritmalarının işleyişini bir örnekle açıklayalım. 22 Çizelge4.1’ de yer alan örnek veri kullanılarakdiğer algoritmalardan farklı olarak kazanımlar aşağıdaki gibi hesaplanır. Kazanım Oranı(D,S)= Kazanım(D,S)/Ayırma Bilgisi(D,S) D D Ayırma Bilgisi(D;S)=H i ,..., s D D Cinsiyet için ayırma bilgisi 8 7 8 15 7 15 H ; log log 0.3001 15 15 15 8 15 7 Kazanım oranı: 0.4710 0.3001 0.1709 Kilo için ayırım bilgisi 6 3 6 6 15 3 15 6 15 H ; ; log log log 0.4577 15 15 15 15 6 15 3 15 6 Kazanım oranı: 0.4710 0.4577 0.013 Boy için ayırma bilgisi 5 6 4 5 15 6 15 4 15 H ; ; log log log 0.4712 15 15 15 15 5 15 6 15 4 Kazanım oranı: 0.4710 0.4712 0.0002 Bu algoritma sonucunda elde edilen kazanım oranlarından en küçük değerli değişken kök olarak atanır. Yani kök düğüm boy değişkenidir. 4.3. C&RT Algoritması C&RT, Sınıflandırma ve Regresyon Ağaçları kısaltmasıdır. Bu algoritma kümedeki kayıtları önceki alt kümedeki kayıtlardan daha fazla homojen olacak şekilde iki alt kümeye böler. Bu yinelemeli bir işlemdir, oluşan alt kümelerin her biri daha sonra tekrar bölünür ve işlem homojenlik kriterine ulaşılana kadar veya başka bazı kriterlerle karşılaşana kadar tekrar eder. Bu algoritma ikili ağaçlar üreten bir algoritmadır. Yani her bir düğüm noktasından iki dallandırma yapılmasını sağlar. Bu nedenle algoritmanın adımları verilirken “ağacın sağı” ve “ağacın solu” gibi kavramlar kullanılır. 23 C&RT algoritması da ID3 algoritmasında olduğu gibi entropiden yararlanır. En iyi ayırma kriterinin belirlenmesinde ise farklı bir formül kullanır. Bu amaçla kullanılan formül aşağıda verilmiştir. M s / t 2 PL PR P(C j / tL ) P(C j / tR ) j 1 Burada (s/t) : Dallandırma kriteri t: dallanmanın yapılacağı düğüm c: kriter L: Ağacın sol tarafı R: Ağacın sağ tarafı PL: Bir kaydın solda olma olasılığı PR: Bir kaydın sağda olma olasılığı P(C j / tL ) :Cj sınıfındaki bir kayıtın ağacın solunda olma olasılığı P(C j / tR ) :C sınıfındaki bir kayıtın ağacın sağında olma olasılığı j Bu fonksiyona Twoing Kriter Fonksiyonu denir (Silahtaroğlu, 2013). 4.4. CHAID Algoritması Kass (1980) tarafından geliştirilen bu teknik, Ki-kare Otomatik Etkileşim Dedektörünün (CHi-squared Automatic Interaction Detection) kısaltmasıdır. Ağaç diyagramı oluşturmak için son derece etkili bir istatistiksel tekniktir.Algoritma, homojen değişken düzeylerini birleştirmeye ve heterojen olan düzeyleri ise ayrı tutarak dallandırma yapmaya dayalıdır. Dallandırmanın uygulanabilmesi için en iyi ayırt edici değişkenin belirlenmesi gerekir. Yöntem bunun için ki-kare istatistiğini temel alır. Değişkenlerin bölünmeye uygun olup olmadığına, Bonferroni düzeltilmiş p değeri kullanılarak karar verilir. CHAID ikili bir ağaç yöntemi değildir: yani, ağaçta bulunan herhangi bir özel seviyede ikiden fazla kategori üretebilir. Bu nedenle, ikili oluşturma yöntemlerinden daha geniş bir ağaç oluşturma eğilimindedir. Tüm değişken türleriyle çalışır ve eksik değerleri tek bir kategori olarak işlemek suretiyle ele alabilir. 24 CHAID algoritmasının genelleştirilmiş bir türü CHAID yönteminin bazı zayıflıklarını gidermek için geliştirilmiştir(Biggs, de Ville ve Suen, 1991). Bazı durumlarda CHAID bir değişken için en uygun bölünmeyi bulamayabilir. Genelleştirilmiş CHAID, sadece iki üst kategori kalana kadar tahmin edici değişkenlerinin kategorilerini birleştirmeye devam etmek suretiyle bu soruna çözüm getirir. Algoritma birleşme dizilerini inceler ve hedef değişkenle en güçlü ilişkiyi veren kategorilerin kümesini bulur.Bu ilişki için düzeltilmiş pdeğeri hesaplanır. Böylece bir tahmin edici için en iyi bölme bulunur ve hesaplanan pdeğerlerleri karşılaştırılarak hangi değişkenden bölme yapılacağı seçilebilir. CHAID sürekli veya kategorik değişkenlerle çalışabilir. Bununla birlikte, sürekli değişkenleranaliz amacıyla kategorize edilir. Hedef değişkeni Y üzerinde etkili olabilecek değişken X olsun. CHAID algoritmasının işleyişi aşağıdaki gibi verilebilir. a Adım 1:Y’nin kategori sayısı d, X in kategori sayısı ise a olmak üzere değeri kadar 2 a d boyutlu çapraz çizelgeler oluşturulur. Adım 2: Her bir çapraz çizelge için ki-kare değeri hesaplanır. Adım 3: Anlamsız çıkan ki-kare değerleri için X’in kategorileri birleştirilir. Adım 4: Anlamlı bulunan ki-kare değerleri içerisinde hangi X değişkeni için ki-kare değeri büyükse o değişken dallandırma için kullanılır. Ki-kare istatistiği aşağıdaki gibi hesaplanır. c r 2 (Gij Bij )2 j 1 i 1 Bij Burada Gij , i. satır j. sütun için gözlenen frekansı, Bij , i. satır j. sütun için beklenen frekansı, c, sütun sayısını, r ise satır sayısını göstermektedir. Bu istatistik (r 1)(c 1) serbestlik dereceli ki-kare dağılımına sahiptir. Beklenen frekans hesabı ise aşağıdaki gibi verilebilir. Bij (T. j )(Ti. ) n Burada T. j , j. sütun toplamını ve Ti. , i. satır toplamını göstermektedir. CHAID algoritmasının işleyişini aşağıda yer alan örnekle açıklayalım. 25 100 kişilik bir öğrenci grubunun uyku saati, yaşanılan yer ve haftalık çalışma saati değişkenlerine göre başarı düzeylerini incelemek için bir karar ağacını CHAID algoritmasına dayalı olarak oluşturalım. Çalışma için değişkenlere ait düzeyler Çizelge4.4’de verilmiş olsun. Çizelge 4.4. Değişkenler ve düzeyleri Değişken Başarı düzeyi Uyku saati Yaşanılan yer Haftalık çalışma saati Değeri Kötü, Orta, İyi 8 saatten fazla, 8 saatten az Yurt, Ev 5 saatten az, 5 saatten fazla Karar ağacını CHAID algoritmasına dayalı olarak oluşturmak için aşağıdaki adımlar takip edilir. Örneğin başarı düzeyi ile bağımsız değişkenler arasındaki ki-kare değerleri ve çapraz çizelge dikkate alınır. Çizelge 4.5. Başarı düzeyi ve uyku süresi arasındaki çapraz çizelge Başarı Düzeyi Uyku Süresi 8 saatten fazla (1) 8 saatten az (2) Toplam Kötü (1) 20 10 30 Orta (2) 40 6 46 İyi (3) 5 19 24 Toplam 65 35 100 Bu çizelgedeki değerler gözlenen frekansları göstermektedir. i. satır ve j. sütuna ait beklenen frekansın hesaplanmasında ise Bij TiT j n formülünden yararlanılır. Burada i. satır toplamı Ti, j. sütun toplamı Tj ve n genel toplamı göstermektedir. Beklenen frekanslar aşağıdaki çizelgede parantez içinde verilmiştir. Çizelge 4.6. Beklenen frekanslar Uyku Süresi 8 saatten fazla (1) 8 saatten az (2) Toplam Kötü (1) 20 (19.5) 10 (10.5) 30 Başarı Düzeyi Orta (2) 40 (29.9) 6(16.1) 46 İyi (3) 5 (10.5) 19 (8.4) 24 Toplam 65 35 100 26 r c 2 Gij Bij Bij2 i 1 j 1 0.012 6.33 3.41 13.37 7.20 0.023 30.345 Aynı şekilde diğer çapraz çizelgeler için de ki-kare değerleri hesaplanır. Çizelge 4.7. Başarı düzeyi ve yaşanılan yer arasındaki çapraz çizelge Başarı Düzeyi Kötü (1) 25 (21) 5 (9) 30 Yaşanılan Yer Yurt (1) Ev (2) Toplam r c 2 i 1 j 1 Orta (2) 37 (32.2) 9 (13.8) 46 İyi (3) 8 (16.8) 16 (7.2) 24 Toplam 70 30 100 Gij Bij Bij2 0.76 0.71 4.60 1.77 1.66 10.75 20.25 Çizelge 4.8. Başarı düzeyi ve çalışma saatleri arasındaki çapraz çizelge Başarı Düzeyi Çalışma Saatleri 5 saatten az (1) 5 saatten fazla (2) Toplam r c 2 i 1 j 1 Kötü (1) 26 (20.1) 4 (9.9) 30 Orta (2) 31 (30.82) 15 (15.18) 46 İyi (3) 10 (16.08) 14 (7.92) 24 Toplam 67 33 100 Gij Bij Bij2 1.73 0.001 2.29 3.5 0.0021 4.66 12.19 Elde edilen ki-kare değerleri aşağıdaki çizelge 4.9 aracılığıyla verilebilir. 27 Çizelge 4.9. Çapraz çizelgelerden elde edilen ki-kare değerleri Bağımlı değişken Başarı düzeyi Başarı düzeyi Başarı düzeyi Bağımsız değişken Uyku süresi Yaşanılan yer Çalışma saati Ki-kare 30.35 20.25 12.19 Burada anlamlı olanlar içinde en büyük ki-kare değerine sahip bağımsız değişkene göre dallandırma yapılır. Bu durumda karar ağacının kök düğümünden yapılacak dallandırma aşağıdaki gibi gösterilebilir. Kötü 30 Orta 46 İyi 24 Uyku Süresi 8 saatten fazla Kötü 20 Orta 40 İyi 5 8 saatten az Kötü 10 Orta 6 İyi 19 Şekil 4.1. Karar ağacı 4.5. QUEST Algoritması QUEST, hızlı, yansız, verimli istatistiksel ağaç anlamına gelir. Nispeten yeni bir ikili ağaç oluşturma algoritmasıdır. En önemli özelliği ise bölme alanı seçimi ve bölme noktası seçimini ayrı ayrı ele alır. Bölme işlemleri için bir alfa düzeyi belirlenir. Varsayılan değer nominal 0.05 olarak alınır. Sonraki aşama bağımsız değişken seçimidir. Bağımsız değişken seçimine ilişkin adımlar aşağıda verilmiştir. Bağımsız değişken seçimi 1. İlgilenilen değişken kategorik ise Pearson ki-kare testinin p değeri aksi durumda yani ilgilenilen değişken sürekli ise F testininp değeri kullanılır. 28 2. En küçük p değeri, önceden belirlenmiş ve Bonferroni-düzeltmeli B seviyesiyle karşılaştırılır. En küçük p değeri B değerinden daha küçük ise, bu durumda düğümü bölmek için ilgili değişken seçilir. Aksi durumda 3. adıma gidilir. 3. En küçük p değeri B değerinde daha büyükse, bu durumda ölçek seviyesi sürekli olan her bir X için bir p değeri hesaplamak amacıyla eşit olmayan varyanslar için Levene testi kullanılır. Levene testinden elde edilen en küçük p değeri yeni bir Bonferronidüzeltmeli L seviyesiyle karşılaştırılır. 4. Eğer p değeri, L değerinden daha küçük ise, düğümü bölmek için Levene testinden elde edilen en küçük p değerine karşılık gelen tahmin edici değişken seçilir.Eğer p değeri, L değerinden büyükse, düğüm bölünmez. Bölme noktası seçimi (bağımsız değişken sürekliyse) Eğer bağımlı değişken sadece iki kategoriye sahip ise bölme işlemi bu iki kategoriye göre yapılır. Aksi takdirde, kategoriler aşağıdaki şekilde iki üst sınıfa gruplandırılır; 1. Bağımlı değişkenin her bir kategorisi için bağımsız değişkenortalaması hesaplanır. 2. Eğer tüm ortalamalar aynı ise, en büyük ağırlıklı frekansa sahip kategori bir üst sınıf olarak seçilir ve diğer tüm kategoriler diğer üst sınıfı oluşturmak üzere birleştirilir. 3. Eğer tüm ortalamalar aynı değilse, kategorilerinden iki süper sınıf elde etmek amacıyla k 2 olmak üzere k-ortalama kümeleme algoritması uygulanır. 4. Bölme noktasını belirlemek için karesel farklılık analizi (QDA) uygulanır. QDA’ın genellikle iki kesme noktası ürettiğine dikkat edilmelidir, birinci üst sınıfın örneklem ortalamasına daha yakın olan nokta tercih edilir. Bölme noktası seçimi (bağımsız değişken kategorikse) QUEST ilk önce, tahmin edicileri kategorilerine farklılık koordinatları atayarak, sürekli hale getirir yukarıda tarif edildiği gibi bölünür. QUEST algoritmasında kullanılan test istatistikleri ve diğer formüller aşağıdaki gibi verilebilir. 29 Ki-Kare Testi c r 2 (Gij Bij )2 Bij j 1 i 1 Burada Gij , i. satır j. sütun için gözlenen frekansı, Bij , i. satır j. sütun için beklenen frekansı, c, sütun sayısını, r ise satır sayısını göstermektedir. Bu istatistik (r 1)(c 1) serbestlik dereceli ki-kare dağılımına sahiptir. Beklenen frekans hesabı ise aşağıdaki gibi verilebilir. Bij (T. j )(Ti. ) n Burada T. j , j. sütun toplamını ve Ti. , i. satır toplamını göstermektedir. F Testi Bağımlı değişkenin k tane sınıfa sahip olduğu varsayılırsa bağımsız değişken için F değeri aşağıdaki gibi hesaplanır. k F n (X i 1 nj i i X ) 2 / (k 1) k 2 ( X X ) / nj k ij j 1 i 1 j 1 k Levene Testi Sürekli X değişkeni için, Zij X ij X j dönüşümü uygulanır.X değişkeni için Levene F istatistiğinin değeri Z ij değerleri kullanılarak elde edilen ANOVA F istatistiğinin değeridir. Bonferroni Düzeltmesi Düzeltilmiş alfa düzeyi B ,nominal değerin olası karşılaştırmalar sayısına bölünmesiyle hesaplanır. 30 QUEST için, başlangıç değişkeninin seçilmesi amacıyla Bonferroni düzeltilmiş alfa düzeyi αB aşağıdaki gibi verilsin. B nominal m Burada m modeldeki tahmin edici değişkelerin sayısıdır. Levene testi için Bonferroni düzeltilmiş alfa düzeyi αL ise L nominal m mc olarak yazılır. Burada mc sürekli değişkenlerin sayısıdır. Durma Kuralları Durma kuralları ağaçta düğüm bölmenin ne zaman duracağını, algoritmanın nasıl karar verdiğini kontrol eder. Ağaç oluşturma, ağaçtaki her yaprak düğümü en az bir durma kuralı tetikleyene kadar devam eder. Aşağıdaki koşullardan herhangi biri sağlanırsa; Düğüm safsa, yani düğümdeki tüm kayıtlar model tarafından kullanılan tüm tahmin edici değişkenler için aynı değere sahipse, Mevcut düğüm için ağaç derinliği (mevcut düğümün özyinelemeli bölünme sayısı), maksimum ağaç derinliğiyse(varsayılan veya kullanıcı tanımlı), Düğümdeki kayıtların sayısı, minimum üst düğüm miktarından(varsayılan veya kullanıcı tanımlı) daha az ise, Düğümün en iyi bölmesinden elde edilen herhangi bir alt düğümdeki kayıtların sayısın minimum alt düğüm miktarından (varsayılan veya kullanıcı tanımlı) daha az ise, düğüm bölünmekten korunacaktır. QUEST algoritmasının da işleyişini bir örnekle açıklayalım. İlk olarak her bir nitelik için aşağıdaki çizelgelerde görüldüğü gibi ayrı bir nitelik listesi hazırlar. 31 Çizelge 4.10. Yaşa göre sınıflama Yaş Sınıf Sıra No 17 Y 2 21 Y 1 22 Y 3 36 D 4 Araçlar yaşlarına göre sınıflara ayrılmış ve sıralanmıştır. Çizelge 4.11. Araç tipine göre sınıflama Araç Tipi Sınıf Sıra No Sedan Y 1 Spor Y 2 Spor Y 3 Sedan D 4 Araç tiplerine göre sınıflama yapılmış ve sıralanmıştır. Her çizelgede kullanılacak olan değişken, sınıf ve sıra no bulunacaktır. Bu durumda veri setindeki nitelik sayısı kadar çizelge oluşacaktır. Sayısal değerleri taşıyan çizelgeler sayısal değer değişkenine göre sıraya dizilirken, kategorik verileri taşıyan çizelgeler ise sıra numarasına göre sıralı olarak kalacaktır. Eğitim kümelerinden elde edilen ilk listeler sınıflandırma ağacının köküyle ilişkilendirilir. Ağaç büyüyüp düğümler yeni dallara bölündükçe her düğüme ait değişken listeleri de bölünerek yeni dallarla ilişkilendirilir. Bir liste bölündüğünde ise içindeki kayıtların sıralaması değiştirilemez; böylece bölünme suretiyle oluşturulmuş yeni listelerin bir daha kendi içlerinde sıraya dizilmesine gerek kalmaz. Bölünme aşamasına gelmiş düğümler için Cüst ve Calt adı verilen ve düğümdeki sınıf dağılımlarını elde etmek için kullanılan histogramlar belirlenir. Düğümlerden alt dallara ayırma kriteri için Gini indeksi kullanılır. Herhangi bir K kümesinin gini(K) indeksi aşağıdaki gibi hesaplanır. 32 gini( K ) 1 p j 2 Burada K kümesi içinde j sınıfının sıklığı pj ile gösterilir. Eğer K kümesi K1ve K2 alt kümelere bölünürse bölünmüş K kümesinin gini indeksi aşağıdaki gibidir. ginibölünmüş ( K ) n1 n2 gini ( K1 ) gini ( K 2 ) n1 n2 n1 n2 Örnek çizelgede yer alan veriler dikkate alınarak aşağıdaki hesaplamalar yapılır. 2 2 2 Gini ( Kadın) 1 3 / 8 3 / 8 2 / 8 0.3437 2 2 2 Gini ( Erkek ) 1 2 / 7 3 / 7 2 / 7 0.2653 Ginibölünmüş (cinsiyet ) 8 7 0.3437 0.2653 0.3068 15 15 Daha sonra aynı işlemler boy ve kilo değişkenleri içinde hesaplanır ve en küçük Ginibölünmüş değerine sahip değişken kök düğüm olarak belirlenir. 33 5. UYGULAMA Bu bölümde veri yapısı ve değişkenler hakkında bilgi verilerek çalışmaya alınan değişkenlere ait tanımlayıcı istatistikler ve grafikler elde edilmiştir. Daha sonra 2010 yılında Gazi Üniversitesi Fen Fakültesinde okuyan öğrencilerinin profilerini incelemek için sınıflandırma algoritmalarından CHAID, C&RT, C5.0 ve QUEST algoritmaları kullanılarak elde edilen sonuçlar ve grafikler verilerek sonuçlar yorumlanmıştır. Tüm bu algoritmalar SPSS Clementine 12 kullanılarak elde edilmiştir. 5.1. Veri Yapısı ve Değişkenler Çalışmada kullanılan veriler Gazi Üniversitesi Fen Fakültesi öğrencilerine ait 2010 yılı verileridir. Veriler Gazi Üniversitesi Öğrenci İşlerinden temin edilmiştir. Veride toplam öğrenci sayısı 2953’dür. Türkiye’de 2010 yılında Fen fakültelerine kayıtlı öğrenci sayısı ise 20205’dir. Bilgileri eksik veya hatalı olan öğrenciler veritabınından çıkartılmıştır. Veri son haliyle toplam 2760 öğrenci kaydından oluşmaktadır. Veride öğrenci profillerini belirlemeye yönelik değişkenler yer almaktadır. Bunlar; cinsiyet, sınıf, geldiği il, ÖSYM puanı, tercih sırası, bölüm, şube, not ortalaması, mezun olduğu lise türü ve doğum yeridir. Bu değişkenlere ait açıklamalar ve etiketlemeler aşağıdaki çizelgede verilmiştir. 34 Çizelge 5.1. Değişkenlere ait açıklamalar ve kodlamalar Değişken adı Cinsiyet Açıklama Öğrencinin cinsiyeti Sınıf Öğrencinin sınıfı Geldiği il Öğrencinin Ankara dışından gelip gelmediği Öğrencinin üniversiteye giriş sınavından aldığı puan Öğrencinin bölümünü kaçıncı sırada tercih ettiği Öğrencinin bölümü ÖSYM Puanı Tercih Sırası Bölüm Şube Not Ortalaması Mezun Olduğu Lise Türü Doğum Yeri Öğrencinin normal ya da ikinci öğretimde olma durumu Öğrencinin genel not ortalaması Öğrencinin mezun olduğu lisenin türü Öğrencinin Ankara dışında doğup doğmadığı Kodlama 1=Erkek 2=Kız 1=1.Sınıf 2=2.Sınıf 3=3.Sınıf 4=4.Sınıf 1=Ankara 2=Ankara Dışı Kodlama yok Kodlama yok 1=Biyoloji 2=Fizik 3=İstatistik 4=Kimya 5=Matematik 1=Normal 2=İkinci Kodlama yok 1=Anadolu Lisesi 2=Düz Lise 3=Özel Lise 4=Diğer 1=Ankara 2=Ankara Dışı 5.2. Tanımlayıcı İstatistikler Bu bölümde uygulamada kullanılan veri yapısına ait tanımlayıcı istatistikler ve grafiklere yer verilmiştir. Şekil 5.1. Öğrencilerin cinsiyete göre dağılımı 35 Çalışmada yer alan öğrencilerin %67’si kız, %33’ü ise erkek öğrencilerdir. Şekil 5.2. Öğrencilerin sınıflara göre dağılımı Şekle göre, öğrencilerin %14,75’i 1. Sınıf, %21,67’si 2. Sınıf, %20,58’ i ise 3. Sınıftadır. 4. Sınıftaki öğrenci oranı %28,12 iken okulu 4 senede bitiremeyen öğrencilerin oranı %14,89’dur. Şekil 5.3. Öğrencilerin geldiği yere göre dağılımı Çalışmada yer alan öğrencilerin %79,60’ı Ankara dışından gelmişken, %20,40’ı ise Ankara içinden gelmiştir. 36 Şekil 5.4. Öğrencilerin ÖSYM puanına göre dağılımı Çalışmada yer alan öğrencilerin ÖSYM puanlarının ortalaması yaklaşık olarak 300’dür. Öğrencilerin bu ortalama etrafında hafif sağa çarpık ( ˆ 0.87 ) bir dağılım göstermektedir. Şekil 5.5. Öğrencilerin tercih sırasına göre dağılımı 37 Çalışmada yer alan öğrencilerin yaklaşık olarak %12’si birinci tercihlerine yerleşirken ikinci tercihlerine yerleşen öğrencilerin oranı yaklaşık %9,7’dir. Şekil 5.6. Öğrencilerin okudukları bölümlere göre dağılımı Grafiğe göre, hem normal öğretimde hem de ikinci öğretimde istatistik bölümünde okuyan öğrencilerin sayısı diğer bölümlere göre daha fazladır. Şekilden de görüldüğü gibi Fizik bölümünde okuyan öğrenci sayıları diğer bölümlere göre çok daha düşüktür. 2010 yılında normal öğretimde okuyan öğrencilerin %25,55’i İstatistik bölümünde iken sadece %13,6’sı Fizik bölümündedir. İkinci öğretimde ise bu oranlar sırasıyla %32,06’ya %10,58 olarak görülmektedir. 38 Şekil 5.7. Öğrencilerin not ortalamasına göre dağılımı Çalışmada yer alan öğrencilerin not ortalamalarının ortalaması yaklaşık olarak 2’dir. Öğrencilerin bu ortalama etrafında hafif sola çarpık ( ˆ 0.27 ) bir dağılım gösterdiği söylenebilir. Şekil 5.8. Öğrencilerin mezun oldukları lise türüne göre dağılımı 39 Çalışmada yer alan öğrencilerin %55,36 gibi yüksek bir oranı düz lise mezunudur. Anadolu lisesinden mezun olmuş öğrencilerin oranı %24,2 iken özel liseden mezun olmuş öğrencilerin oranı %16,96’dır. Şekil 5.9. Öğrencilerin doğduğu yere göre dağılımı Çalışmada yer alan öğrencilerin %54.06’sı Ankara dışında doğmuşken, %45.94’ü ise Ankara içinden doğmuştur. 5.3. Sınıflandırma Algoritmalarına İlişkin Bulgular Bu bölümde öğrencilerin not ortalaması hedef değişken olmak üzere C5.0, CHAID, C&RT ve QUEST algoritmalarına ilişkin sonuçlar yer almaktadır. Algoritmalarda kullanılan değişkenler aşağıdaki şekilde verildiği gibidir. 40 Şubesi Cinsiyeti Doğum Yeri Nüfusa kayıtlı olduğu il Lise Türü Not Ortalaması Bölüm Şekil 5.10. Not ortalaması için algoritmalarda kullanılan değişkenler Bu değişkenler kullanılarak oluşturulan veri madenciliği algoritmalarından karar ağaçlarının analiz sonuçları aşağıda yer almaktadır. Şekil 5.11.C5.0 Algoritmasina göre değişkenlerin not ortalamasindaki ağırlıkları Yukarıdaki şekilde görüldüğü gibi C5.0 algoritmasına göre not ortalaması üzerinde en önemli değişken cinsiyet değişkenidir. Şekle göre çalışmaya katılan öğrencilerin en yüksek orana sahip olanları 2 ile 3 arasında not ortalaması olan öğrencilerdir ve bu oran %45,072’ dir. Not ortalaması üzerindeki en önemli değişken cinsiyet olarak belirlenmiştir. Cinsiyete göre düğümler (nodes) incelendiğinde kızların not ortalamasından 2 ile 3 arasında olanların oranı %50.700 iken erkeklerin not ortalamasından 1 ile 2 arasında olanların oranı ise %42,810 olduğu görülür. 41 Erkek öğrencilerin not ortalaması üzerindeki en önemli değişken okuduğu bölümdür. Şekle göre tüm bölümler birer düğüm oluşturmaktadır. Biyoloji bölümünde okuyan öğrencilerden en yüksek ortalamaya sahip olanlar 1 ile 2 arasındaki not ortalamasıdır ve %46,763 olarak hesaplanmıştır. Fizik bölümüne bakıldığında bu oran %36,242 istatistik bölümü öğrencilerinin not ortalama oranı %48.903, kimya bölümü öğrencilerinin not ortalaması oranı %35,119 ve son olarak matematik bölümü öğrencilerinin not ortalaması oranı %43,411’dir. Biyoloji bölümünde okuyan öğrenciler üzerindeki en önemli değişken doğum yeri, fizik bölümünde okuyan öğrenciler üzerindeki en önemli değişken mezun olunan lise türü, istatistik bölümünde okuyan öğrenciler üzerindeki en önemli değişken şube ve son olarak kimya bölümünde okuyan öğrenciler üzerinde en öenmli değişken nüfusa kayıtlı olunan il değişkenidir. Tüm düğümler dikkate alındığında en yüksek not ortalaması özel lise mezunu, nüfusa kayıtlı olduğu il Ankara dışı olan ve kimya bölümü okuyan erkek öğrencilerdir. Bu özelliklere sahip ve not ortalaması 2 ile 3 arasında olan öğrencilerin oranı %60,870 dir. Şekil 5.12. Not ortalaması c5.0 algoritması karar ağacı örneği 42 43 Şekil 5.13. C&RT Algoritmasına göre değişkenlerin not ortalamasındaki ağırlıkları Yukarıdaki şekilde görüldüğü gibi C&RT algoritmasına göre not ortalaması üzerinde en önemli değişkenler sırasıyla cinsiyet, bölüm, şube, lise türü ve doğum yeridir. Bu değişkenlere göre elde edilen karar ağacı aşağıda şekilde verilmiştir. Şekle göre çalışmaya katılan öğrencilerin en yüksek orana sahip olanları 2 ile 3 arasında not ortalaması olan öğrencilerdir ve bu oran %45,072’ dir. Not ortalaması üzerindeki en önemli değişken cinsiyet olarak belirlenmiştir. Cinsiyete göre düğümler (nodes) incelendiğinde kızların not ortalamasından 2 ile 3 arasında olanların oranı %50.700 iken erkeklerin not ortalamasından 1 ile 2 arasında olanların oranı ise %42,810 olduğu görülür. Kız öğrencilerin not ortalaması üzerindeki en önemli değişken okuduğu bölümdür. Şekle göre biyoloji ve istatistik bölümünde okuyan kız öğrencilerin not ortalaması 2 ile 3 arasında yer alanların oranı %53,068 iken fizik, kimya ve matematik bölümünde okuyan öğrencilerinnot ortalaması 2 ile 3 arasında olanların oranı %48,566 olarak hesaplanmıştır. Kız öğrencilerden biyoloji ve istatistik bölümü okuyanların Normal ve ikinci öğretim(Şube) ayrımı yapıldığında normal öğretim öğrencilerinde not ortalaması 2 ile 3 arasında yer alanların oranı %56,344 iken ikinci öğretim öğrencilerinin not ortalaması 2 ile 3 arasında olanların oranı %49,398 olduğu görülmektedir. Kız öğrencilerdenfizik, kimya ve matematik bölümü okuyanlar üzerinde önemli değişken mezun oldukları lisedir.Bu öğrenciler düz lise ve diğer liseler olmak üzere 2 kola ayrılmıştır.Düz lise mezunu kız öğrencilerden not ortalaması %44,213 iken diğer lise türlerinden mezun olan öğrencilerin not ortalama 2 ile 3 arasında olanların oranı ise %53,675’ dir. 44 Erkek öğrencilerin not ortalaması üzerinde de en önemli değişkenin bölüm olduğu görülmektedir. Şekle göre biyoloji ve istatistik bölümünde okuyanerkek öğrencilerin not ortalaması 1 ile 2 arasında yer alanların oranı %48,253 fizik, kimya ve matematik bölümünde okuyan ve not ortalaması 1 ile 2 arasında olanların oranı ise %37,220’ dir. Biyoloji ve istatistik bölümünde okuyan erkek öğrencilerin not ortalaması üzerinde en etkili değişken şube, fizik, kimya ve matematik bölümünde okuyan öğrencilerin not ortalaması üzerinde en etkili değişken Lise türüdür. Şekilden de görüldüğü gibi normal eğitimde okuyan erkek öğrencilerin not ortalaması 2 ile 3 arası olanların oranı %45 iken ikinci eğitimde okuyan erkek öğrencilerin 1 ile 2 arası not ortalaması oranı %54,264 olmuştur. Normal öğretimde okuyan erkek öğrencilerin not ortalaması üzerinde en önemli değişken ise lise türüdür.Özel lise mezunu öğrencilerin 2 ile 3 arası not ortalaması oranı %61,111 iken diğer lise türlerinden mezun olanların not ortalaması 1 ile 2 arasında yer alanları oranı %44,512’ dir. Fizik, kimya ve matematik bölümü okuyan erkek öğrenciler ise mezun oldukları lise türüne göre dallara ayrılmıştır. Tüm düğümler dikkate alındığında en yüksek not ortalaması özel lise mezunu, normal öğretimde biyoloji ve istatistik bölümlerini okuyan erkek öğrenciler olduğu görülmektedir. Bu özelliklere sahip ve not ortalamsı 2 ile 3 arasında olan öğrencilerin oranı %61,11’ dir. Şekil 5.14. C&RT Algoritması karar ağacı örneği 45 46 Şekil 5.15. CHAID algortimasına göre değişkenlerin not ortalamasındaki ağırlıkları Yukarıdaki şekilde görüldüğü gibi CHAID algoritmasına göre not ortalaması üzerinde etkili olan en önemli değişkenler sırasıyla cinsiyet, bölüm şube ve doğum yeridir.Bu değişkenlere göre elde edilen karar ağacı aşağıda şekilde verilmiştir. Şekle göre çalışmaya katılan öğrencilerin not ortalaması 0 ile 1 arasında olanların oranı % 11,933, not ortalaması 1 ile 2 arasında olanların oranı % 36,630, not ortalaması 2 ile 3 arasında olanların oranı %45,072 ve not ortalaması 3 ile 4 arasında olanların oranı ise %6,304’dir. Not ortalaması üzerindeki en önemli değişken cinsiyet olarak belirlenmiştir. Cinsiyete göre düğümler (nodes) incelendiğinde kızların not ortalamasının en yüksek olduğu aralık 2 ile 3 arası ve % 50,700 iken, erkeklerin not ortalamasının en yüksek olduğu aralık 1 ile 2 arası ve % 42,810 olduğu görülür. Kız öğrencilerin not ortalaması üzerindeki en önemli değişken okuduğu bölümdür. Şekle göre biyoloji ve istatistik bölümünde okuyan kız öğrencilerin not ortalaması 2 ile 3 arasında yer alanların oranı %53,068 iken fizik ve matematik bölümünde okuyan öğrencilerinnot ortalaması 2 ile 3 arasında olanların oranı %49,420 olarak hesaplanmıştır. Kimya bölümünde okuyan kız öğrencilerden not ortalaması 2 ile 3 arasında olanların oranı da %47,185’ dir. Kız öğrencilerden biyoloji ve istatistik bölümü okuyanların Normal ve ikinci öğretim(Şube) ayrımı yapıldığında normal öğretim öğrencilerinde not ortalaması 2 ile 3 arasında yer alanların oranı %56,344 iken ikinci öğretim öğrencilerinin not ortalaması 2 ile 3 arasında olanların oranı %49,398 olduğu görülmektedir. Kız öğrencilerdenfizik ve matematik bölümü okuyanların Normal ve ikinci öğretim(Şube) ayrımı yapıldığında 47 normal öğretim öğrencilerinde not ortalaması 2 ile 3 arasında yer alanların oranı %52,568 iken ikinci öğretim öğrencilerinin not ortalaması 2 ile 3 arasında olanların oranı %45,588 olduğu görülmektedir. Yine kız öğrencilerden kimya bölümünde okuyanlar için en önemli değişken doğum yeri olmuştur. Doğum yeri Ankara olan ve not ortalaması 2 ile 3 arasında olan kimya bölümü öğrencilerinin oranı %45,181 iken doğum yeri Ankara dışı olanların oranı ise %48,792 olarak belirlenmiştir. Erkek öğrencilerin not ortalaması üzerinde de en önemli değişkenin bölüm olduğu görülmektedir. Şekle göre biyoloji ve istatistik bölümünde okuyanerkek öğrencilerin not ortalaması 1 ile 2 arasında yer alanların oranı %48,253 fizik, kimya ve matematik bölümünde okuyan ve not ortalaması 1 ile 2 arasında olanların oranı ise %37,220’ dir. Biyoloji ve istatistik bölümünde okuyan erkek öğrencilerin not ortalaması üzerinde en önemli değişken şube, fizik, kimya ve matematik bölümünde okuyan öğrencilerin not ortalaması üzerinde en önemli değişken Lise türüdür. Şekilden de görüldüğü gibi normal eğitimde okuyan erkek öğrencilerin not ortalaması 2 ile 3 arası olanların oranı %45 iken ikinci eğitimde okuyan erkek öğrencilerin 1 ile 2 arası not ortalaması oranı %54,264 olmuştur. Normal öğretimde okuyan erkek öğrencilerin not ortalaması üzerinde en önemli değişken ise doğum yeridir. Ankara’da doğumlu öğrencilerin 2 ile 3 arası not ortalaması oranı %42,683 iken doğum yeri Ankara Dışı olanların not ortalaması oranı %46,610’ a yükselmiştir.Tüm düğümler dikkate alındığında en yüksek not ortalaması oranına sahip öğrencilerin normal öğretimde okuyan matematik bölümü kız öğrenciler olduğu görülmektedir.Bu öğrencilerin 2 ile 3 arasında not ortalaması oranı % 58,371 olarak bulunmuştur. Şekil 5.16. Not ortalaması için CHAID algoritması karar ağacı örneği 48 49 Şekil 5.17. QUEST Algoritmasına göre değişkenlerin not ortalamasındaki ağırlıkları Yukarıdaki şekilde de görüldüğü gibi QUEST algoritmasına göre not ortalaması üzerinde en önemli değişken cinsiyettir. Şekle göre çalışmaya katılan öğrencilerin en yüksek orana sahip olanları 2 ile 3 arasında not ortalaması olan öğrencilerdir ve bu oran %45,072’ dir. Not ortalaması üzerindeki en önemli değişken cinsiyet olarak belirlenmiştir. Cinsiyete göre düğümler (nodes) incelendiğinde kızların not ortalamasından 2 ile 3 arasında olanların oranı %50,700 iken erkeklerin not ortalamasından 1 ile 2 arasında olanların oranı ise %42,810 olduğu görülür.Erkek öğrencilerin not ortalaması üzerinde en önemli değişken okuduğu bölümdür. Şekle göre biyoloji ve istatistik bölümünde okuyan erkek öğrencilerin not ortalaması 1 ile 2 arasında yer alanların oranı %48,253 iken fizik, kimya ve matematik bölümünde okuyan öğrencilerinnot ortalaması 1 ile 2 arasında olanların oranı %37,220 olarak hesaplanmıştır. Erkek öğrencilerden biyoloji ve istatistik bölümü okuyanların Normal ve ikinci öğretim(Şube) ayrımı yapıldığında normal öğretim öğrencilerinde not ortalaması 2 ile 3 arasında yer alanların oranı %45 iken ikinci öğretim öğrencilerinin not ortalaması 2 ile 3 arasında olanların oranı %54,264 olduğu görülmektedir. Fizik, kimya ve matematik bölümünde okuyan erkek öğrenciler üzerinde en önemli değişken mezun oldukları lisedir.Bu öğrenciler anadolu lisesi ile düz lise bir düğüm, özel lise ve diğer lise türleri bir düğüm olmak üzere ayrılmıştır. Düz lise ve anadolu liselerinden mezun olan erkek öğrencilerden ortalaması 1 ile 2 arasında olanların oranı %39,773 özel lise ve diğer lise türlerinden mezun olan erkek öğrencilerden ortalaması 2 ile 3 arasında olanların oranı ise %42,553’dür. 50 Tüm düğümler dikkate alındığında en yüksek not ortalaması ikinci öğretim ve biyoloji, istatistik bölümünde okuyan erkek öğrencilerin oranıdır. Bu oran not ortalaması 1 ile 2 arasında olanlar için %54,264 olarak bulunmuştur. Şekil 5.18. Not ortalaması için QUEST algoritması karar ağacı örneği Bu bölümde öğrencilerin eğitim gördüğü bölüm değişkeni hedef değişken olmak üzere C5.0, CHAID, C&RT ve QUEST algoritmalarına ilişkin sonuçlar yer almaktadır. Algoritmalarda kullanılan değişkenler aşağıdaki şekilde verildiği gibidir. 51 Tercih Sırası Cinsiyeti Doğum Yeri Nüfusa kayıtlı olduğu il Lise Türü Bölüm Ösym Puanı Şekil 5.19. Bölüm değişkeni için modellerde kullanılan değişkenler Bu değişkenler kullanılarak oluşturulan veri madenciliği algoritmalarından karar ağaçlarının analiz sonuçları aşağıda yer almaktadır. Şekil 5.20. C5.0 Algortimasına göre değişkenlerin bölüm üzerindeki ağırlıkları Yukarıdaki şekilde de görüldüğü gibi C5.0 algoritmasına göre bölüm değişkeni üzerinde en önemli iki değişken sırasıyla ösym puanı ve lise türüdür.Bu değişkenlere göre elde edilen karar ağacı aşağıda şekilde verilmiştir. Şekle göre çalışmaya katılan öğrencilerden %28,623’ ü istatistik bölümü, %19,746’ sı matematik bölümü %19,855’ i biyoloji bölümü, %19,601’ i kimya bölümü ve %12,174’ ü 52 fizik bölümünde okumaktadır. Bölüm değişkeni üzerinde en önemli değişken ösym puanıdır. Ösym puanı 170 ile 250 arasında olan öğrenciler, 250 ile 350 arasında puan alan öğrenciler, 350 ile 450 arasında puan alan öğrenciler ve daha yüksek puan alan öğrenciler olmak üzere 4 düğüme ayrılmıştır. Ösym puanı 170 ile 250 arasında olan öğrencilerin %34,717’ si biyoloji, %20’ si fizik, %8,302’ si istatistik, %33,585’ i kimya ve %3,396’ sı matematik bölümüne yerleşmiştir. Ösym puanı 250 ile 350 arasında olan öğrencilerin %20,744’ ü biyoloji, %20,651’ i kimya, %12.977’ si fizik, %14.651’ i matematik ve %30,977’ si istatistik bölümüne yerleşmişlerdir.Ösym puanı 350 ile 450 arasında olan öğrencilerin %2,915’ i biyoloji, %1,166’ sı fizik, %29,738’ i istatistik, %2,332’ si kimya ve %63,848’ i matematik bölümüne yerleşmiştir. Son olarak ösym puanı 450’ den yüksek olan öğrencilerin tamamı tercihini matematik bölümünden yana kullanmışlardır. Şekil 5.21. Bölüm değişkeni için c5.0 algoritması karar ağacı örneği 53 Şekil 5.22. C&RT Algortimasına göre değişkenlerin bölüm üzerindeki ağırlıkları Yukarıdaki şekilde görüldüğü gibi C&RT algoritmasına göre bölüm değişkeni üzerinde önemli dört değişken sırasıyla ösym puanı, lise türü, tercih sırasıdır. Bu değişkenlere göre elde edilen karar ağacı aşağıda şekilde verilmiştir. Şekle göre çalışmaya katılan öğrencilerinden %28,623’ ü istatistik bölümü, %19,746’ sı matematik bölümü, %19,855’ i biyoloji bölümü, %19,601’ i kimya bölümü ve %12,174’ ü fizik bölümünde okumaktadır. Bölüm üzerindeki en önemli değişken ösym puanı olarak belirlenmiştir. Ösym puanına göre düğümler incelendiğinde puanı 170 ile 350 arasında olan öğrencilerin %28,489’ u istatistik bölümünde, puanı 350’ den yüksek olan öğrencilerin %64,058’ i matematik bölümünü seçmiştir. Ösym puanı 170 ile 250 arasında olan ve biyoloji bölümü okuyan öğrenciler üzerinde en etkili değişken cinsiyettir.Ösym puanı 250 ile 350 arasında olan ve istatistik bölümü okuyan öğrenciler üzerinde en önemli değişken ise lise türüdür.Ösym puanı 350 ile 450 arasında olan ve 450’ den daha yüksek puan alan ve matematik bölümü okuyan öğrenciler üzerinde en önemli değişken tercih sırasıdır. Tercih sırası ilk 14 olan öğrencilerin % 70,260’ ı matematik bölümü öğrencileri diğer tercih sırasını yapan öğrencilerin %51,316’ sı istatistik bölümünü seçen öğrencilerdir. Bu şekilde tercih yapan istatistik bölümü öğrencilerin seçimlerinde de doğum yeri önemli olmuştur. Doğum yeri Ankara olanların %64,516’ sı istatisitk, doğum yeri Ankara dışı olanların %51,111’ i matematik bölümünü tercih etmiştir. Tüm düğümler dikkate alındığında en yüksek orana sahip düğüm , ösym puanı 350 ile 450 arası ve 450’ den daha yüksek ve ilk 14. sırada tercih yapan öğrencilerdir. Bu öğrencilerin %70,260’ ı matematik bölümüne yerleşmiştir. Şekil 5.23. Bölüm değişkeni için c&rt algoritması karar ağacı örneği 54 55 Şekil 5.24. CHAID Algortimasına göre değişkenlerin bölüm üzerindeki ağırlıkları Yukarıdaki şekilde görüldüğü gibi CHAID algoritmasına göre bölüm değişkeni üzerinde önemli üç değişken sırasıyla Ösym puanı, lise türü ve cinsiyettir. Nüfusa kayıtlı olduğu il ve doğum yeri değişkenlerinin de etkili olduğu görülmektedir. Bu değişkenlere göre elde edilen karar ağacı aşağıda şekilde verilmiştir. Şekle göre çalışmaya katılan öğrencilerinden %28,623’ ü istatistik bölümü, %19,746’ sı matematik bölümü, %19,855’ i biyoloji bölümü, %19,601’ i kimya bölümü ve %12,174’ ü fizik bölümünde okumaktadır.Bölüm üzerindeki en önemli değişken ösym puanı olarak belirlenmiştir. Ösym puanına göre düğümler incelendiğinde puanı 170 ile 250 arasında olan öğrencilerin %34,717’ si biyoloji bölümünde, puanı 250 ile 350 arasında olan öğrencilerin %30,977’ si istatistik bölümünü, puanı 350 ile 450 arasında olan ve 450’ den daha yüksek puan almış öğrencilerin %64,058’ i matematik bölümünü seçmiştir. Ösym puanı 170 ile 250 arasında olan ve biyoloji bölümü okuyan öğrenciler üzerinde en önemli değişken cinsiyettir.Ösym puanı 250 ile 350 arasında olan ve istatistik bölümünde okuyan öğrenciler üzerinde en önemli değişken ise lise türüdür.Ösym puanı 350 ile 450 arasında olan ve 450’ den daha yüksek puan alan ve istatistik bölümünde okuyan öğrenciler üzerinde en önemli değişken tercih sırasıdır. Karar Ağacı ösym puanı 250 ile 350 arasında olan ve istatistik bölümü okuyan öğrencilerin mezun olduğu liselere göre dallara ayrılmıştır. Tüm düğümler dikkate alındığında en yüksek oran ösym puanı 350 ile 450 arasında ve 450’den daha yüksek olan öğrencilerinden ilk 14. sıradaki tercihine yerleşen, matematik bölümü öğrencileridir. Bu oran %70,260 olarak hesaplanmıştır. Şekil 5.25. Bölüm değişkeni için CHAID algoritması karar ağacı örneği 56 57 Şekil 5.26.QUEST algortimasına göre değişkenlerin bölüm üzerindeki ağırlıkları Yukarıdaki şekilde görüldüğü gibi QUEST algoritmasına göre bölüm değişkeni üzerinde önemli üç değişken sırasıyla ösym puanı lise türü ve cinsiyet değişkenleridir.Bu değişkenlere göre elde edilen karar ağacı aşağıda şekilde verilmiştir. Şekle göre çalışmaya katılan öğrencilerinden %28,623’ ü istatistik bölümü, %19,746’ sı matematik bölümü %19,855’ i biyoloji bölümü, %19,601’ i kimya bölümü ve %12,174’ ü fizik bölümünde okumaktadır.Bölüm üzerindeki en önemli değişken ösym puanı olarak belirlenmiştir.Ösym puanına göre düğümler incelendiğinde puanı 350 ile 450 arasında olan öğrencilerin %63,848’ i matematik bölümünde, diğer öğrencilerin %28,465’ i istatistik bölümünü seçmiştir. Matematik bölümünü seçen öğrencileri etkileyen en önemli değişken tercih sırasıdır. İlk 16 tercihinde matematik bölümüne yerleşen öğrencilerin oranı %69,231 iken son 16 tercihinde öğrencilerin %54,386’ sı istatistik bölümüne yerleşmiştir.Diğer ösym puanına sahip öğrencilerin seçiminde önemli olan değişken ise mezun oldukları lise türüdür.Anadolu lisesi ve diğer lise türleri olarak iki kola ayrılmıştır.Anadolu lisesi mezunu öğrencilerin %36,881’ i istatistik bölümüne yerleşirken diğer lise türü mezunlarının %26,015’ i yine istatistik bölümüne yerleşmiştir.Bu seçimlerinde cinsiyetinde önemli olduğu şekilde görülmektedir. Tüm düğümler dikkate alındığında ösym puanı 350 ile 450 arasında olan ve ilk 16 tercihi arasında matematik bölümüne yerleşen öğrencilerin oranının %69,231 olduğu görülmektedir. 58 Şekil 5.27. Bölüm değişkeni için QUEST algoritması karar ağacı örneği 59 5.4. Sonuçların Karşılaştırılması Uygulama bölümündenki veri de yer alan değişkenlerden not ortalaması ve bölüm değişkenleri üzerinde önemli olan değişkenler veri madenciliği algoritmaları kullanarak yorumlanmıştır. Hemen hemen her algoritma aynı sonuçlara ulaşmıştır. Öğrencilerin not ortalaması üzerinde önemli olan değişkenler incelendiğinde bütün veri madenciliği algoritmalarında öğrencilerin not ortalamaları üzerinde en önemli değişken cinsiyet olarak görülmektedir. Tüm algoritmaların karşılaştırılması aşağıdaki şekilde verildiği gibidir. C5.0 Cinsiyet QUEST Bölüm Şube Doğum Yeri C&RT Lise Türü İl CHAID 0% 20% 40% 60% 80% 100% Şekil 5.28. Algoritmalara göre değişkenlerin not ortalaması üzerine olan ağırlıkları C5.0 ve C&RT algoritmalarında not ortalması üzerinde en önemli değişkenler sırasıyla cinsiyet, bölüm, şube, doğum yeri, lise türü ve nüfusa kayıtlı olduğu ildir. CHAID algoritmasının sonuçları diğer algoritmalardan farklı olarak not ortalaması üzerinde en önemli değişkenler arasına nüfusa kayıtlı olunan ili almamıştır. QUEST algoritması ise not ortalaması üzerinde en önemli değişkenler öncelik yine cinsiyet ancak sonrasında şube, bölüm, lise türü, doğum yeri ve nüfusa kayıtlı olunan il olarak belirlenmiştir. Tüm algoritmalara bakıldığında en yüksek not ortalamasına sahip öğrenci profili farklılık göstermektedir. Öncelikle C5.0 algoritmasının sonucunda elde edilen en yüksek not 60 ortalamasına sahip öğrenci profilinin Özel lise mezunu, nüfusa kayıtlı olduğu il Ankara dışı olan ve Kimya bölümünde okuyan erkek öğrenciler olduğu görülmektedir. C&RT algoritması sonucu en yüksek not ortalamasına sahip öğrenci profili yine Özel lise mezunu ve normal öğretimde eğitim gören biyoloji ve istatistik bölümlerinde okuyan erkek öğrenciler olduğu görülmektedir. CHAID algoritmasının en yüksek not ortalamasına sahip öğrenci profili ise normal öğretimde eğitim gören matematik bölümü kız öğrenciler olduğu saptanmıştır. Son olarak QUEST algoritmasının not ortalaması en yüksek olan öğrenci profili, ikinci öğretim biyoloji ve istatistik bölümlerinde eğitim alan erkek öğrenciler olarak belirlenmiştir. Bir diğer bağımlı değişken olan bölüm değişkeni üzerinde en önemli değişkenler Ösym puanı ve Lise türü değişkenleridir ve tüm algoritmalar aynı sonuca ulaşmıştır. Bölüm değişkeni üzerinde önemli değişkenler incelensin. Aşağıdaki şekilde tüm algoritmaların karşılaştırılması yer almaktadır. C5.0 Ösym Puanı Lise Türü QUEST Cinsiyet Tercih sırası C&RT İl Doğum Yeri CHAID 0% 20% 40% 60% 80% 100% Şekil 5.29. Değişkenlerin algoritmalara göre bölüm üzerinde olan ağırlıkları C5.0 algoritmasına göre bölüm üzerinde bu değişkenlerin önem sıralaması Ösym Puanı, lise türü, cinsiyet, tercih sırası, nüfusa kayıtlı olduğu il ve doğum yeri değişkenleri etkin çıkmıştır. C&RT algoritmasında ise sıralama Ösym Puanı, lise türü, tercih sırası, doğum yeri, cinsiyet ve nüfusa kayıtlı olduğu il olarak gerçekleşmiştir. 61 CHAID algoritmasında bu sıralama Ösym Puanı, lise türü, cinsiyet, tercih sırası, nüfusa kayıtlı olduğu il ve doğum yeri değişkenleridir. QUEST algoritmasının sonuçları diğer algoritmalara göre daha farklıdır. Bölüm değişkeni üzerinde en önemli değişkenler Ösym puanı, lise türü ve cinsiyet olarak belirlenmiştir. Tüm algoritmalara bakıldığında en yüksek orana sahip öğrenci profilleri değişiklik göstermektedir. C5.0 algoritmasının sonucunda en yüksek orana sahip düğüm Ösym puanı 450’ den yüksek olan öğrencilerinin tümünün matematik bölümüne yerleşmesi sonucudur. C&RT algoritması ise Ösym puanı 350 ile 450 arasında olan puanı 450’ den yüksek olan öğrencilerin ilk 14. tercihlerinde matematik bölümüne yerleştikleri sonucuna ulaşmıştır. CHAID algoritması sonucunda ise enyüksek orana sahip düğüm Ösym puanı 350 ile 450 arasında olan ve puanı 450’ den yüksek olan öğrencilerin ilk 14. Tercihlerinde matematik bölümüne yerleşen öğrenciler olduğu sonucuna varılmıştır. Bu sonuca göre CHAID ve C&RT algoritması aynı sonuca ulaşmıştır. Son olarak QUEST algoritmasının sonuçlarına bakıldığında Ösym puanı 350 ile 450 arasında olan öğrenciler ilk 16. Tercihlerinde matematik bölümüne yerleşmektedir. Genel anlamda CHAID, C&RT ve QUEST hemen hemen yakın sonuçlara varmışlardır. 62 63 5. SONUÇ VE TARTIŞMA Bu tez çalışmasının amacı Fen Fakültesi bölümlerinde okuyan öğrencilerin demografik özelliklerine göre profillerini belirlemek ve bu açılardan bölümler arasındaki öğrenci farklılıklarını ortaya koyabilmektir. Bu çalışmada Gazi Üniversitesi Fen Fakültesi öğrenci verileri kullanılmıştır. Gazi Üniversitesi öğrenci işlerinden temin edilen veriye göre 2010 yılı Fen Fakültesinde eğitim gören öğrenci sayısı 2953’ tür. Bilgileri eksik veya hatalı olan öğrenciler veritabanından çıkarılmış ve gözlem sayısı 2760 olarak belirlenmiştir. Çalışmada elde edilen bulgular ışığında aşağıda ki sonuçlara ulaşılmıştır. 2010 yılı Fen Fakültesinde eğitim gören öğrencilerin 1856’ sı kız öğrenci 904’ ü ise erkek öğrencidir. Öğrencilerin sınıf dağılımına göre 4. Sınıfta okuyan öğrenci sayısı çoğunlukta olup 776’ dır. Gazi Üniversitesi Fen Fakültesi öğrencilerinin 2197’ si Ankara dışından gelmektedir. Öğrencilerin ÖSYM puanına bakıldığında Ösym puanı ortalama 300’ dür. Öğrenciler bölüm tercihlerinde yaklaşık %12 gibi bir oranla 1. tercihlerine yerleşmektedir. İlk tercihine yerleşen öğrenciler çoğunluktadır. Fen Fakültesi bölümlerinde okuyan öğrencilerin %25,55’ normal öğretim İstatistik bölümü öğrencileriyken %32,06’ sı ikinci öğrentim yine istatistik bölümü öğrencileridir. Bunun sonucu olarak İstatistik bölümü diğer bölümlerden daha yüksek bir orana sahiptir. Öğrencilerin not ortalaması istatistiklerine bakıldığında ortalama 2 civarındadır. Son olarak öğrencilerin mezun oldukları lise türleri arasında en yüksek orana sahip lise türü düz lisedir. Bu oran %55.36 olup tüm öğrencilerin yarısından fazlasının düz lise mezunu olduğunu göstermektedir. 2009 ve 2013 yılları arasında Fen Fakültelerine yerleşen öğrenci sayılarına bakıldığında tüm bölümlere yerleşen öğrenci sayısı azalma gösterirken istatistik bölümüne yerleşen öğrenci sayıları hemen hemen her yıl artış göstermektedir. Bunun sonucu olarak her geçen yıl öğrencilerin Fen Fakültesi bölümlerine olan ilgisinin azaldığı, tercih edilebilirlik oranlarının azaldığı söylenilebilir. 64 Çalışmanın uygulama bölümünde elde edilen sonuçlara göre ise öğrencilerin not ortalamasını ve tercih ettikleri bölüm üzerinde seçilen bazı değişkenlerin önemleri (ağırlıkları) belirlenmiştir. Analiz sonuçları not ortalaması açısından incelendiğinde bu değişkeni üzerinde en önemli değişkenin cinsiyet olduğu ortaya çıkmıştır. Üstelik bu sonuca, çalışmada kullanılan tüm veri madenciliği algoritmaları tarafından ulaşılmıştır. Analiz sonuçları bölüm değişkeni açısından incelendiğinde ise bu değişkeni üzerinde en önemli değişkenlerin Ösym puanı ve öğrencilerin mezun oldukları lise türü olduğu ortaya çıkmıştır. Yine, bu sonuca tüm veri madenciliği algoritmaları tarafından ulaşılmıştır. 65 KAYNAKLAR Ataseven, S. (2008).Üniversitelerin adaylar tarafından tercih edilme desenlerini veri madenciliği yöntemleri ile belirleyen bir model önerisi.Yüksek Lisans Tezi, Kültür Üniversitesi Fen Bilimleri Enstitüsü, İstanbul. Arık, M. (2009). Gazi üniversitesi gazi eğitim fakültesi ortaöğretim fen ve matematik alanları eğitimi bölümü kimya eğitimi anabilim dalı öğrenci profili. Yüksek Lisans Tezi, Eğitim Bilimleri Enstitüsü Kimya Eğitimi Anabilim Dalı, Ankara. Aydın, S. (2007).Veri madenciliği ve anadolu üniversitesi uzaktan eğitim sisteminde bir uygulama. Doktara Tezi, Eskişehir Anadolu Üniversitesi Sosyal Bilimler Enstitüsü İşletme Anabilim Dalı, Eskişehir. Aynekin, G. (2006). İnternet içerik madenciliğinde yapay sinir ağları ve bir uygulama. Yüksek Lisans Tezi, Endüstri Mühendisligi Anabilim Dalı, Bursa. Bakır, M. A. ve Aydın, C. (2010). İstatistik.(3. Baskı), Ankara: Nobel Yayın Dağıtım. Biggs, D., B. De Ville, ve E. Suen (1991). A method of choosing multi- way partitions for classication and decision trees.Journal of Applied Statistic, 18(1), 49-62. Brachman, R. J., Khabaza, T., Kloesgen, W., Piatetsky-Shapiro, G. ve Simoudis, E. (1996). Mining business databases. Communications of the ACM, 39(11), 42-48. Bozkır, A. S, Sezer, E. ve Gök, B. (2009). Öğrenci seçme sınavında (ÖSS) öğrenci başarımını etkileyen faktörlerin veri madenciliği yöntemleriyle tespiti.5. Uluslar arası İleri Teknolojiler Sempozyumu, Karabük. Dunham, M. H. (2003).Data mining ıntroductory and advanced topics, New Jersey: Prentice Hall, Pearson Education. Eker, H. Veri madenciliği veya bilgi keşfi. URL: http://www.bilgiyonetimi.org/cm/pages/mkl_gos.php?nt=538 (Son Erişim Tarihi : 05.05.2004). Emel, G. G., Taşkın, Ç. ve Tok, A. (2005). Pazarla stratejilerinin oluşturulmasında bir karar destek aracı: birliktelik kuralı madenciliği. Dokuz Eylül Üniversitesi Sosyal Bilimler Enstitüsü Dergisi,7(3),30-59. Frawley, W., Piatetsky, G., S ve Matheus, C. (1992). Knowledge discovery in databases: an overview. AI Magazine,13(3),57-70. 66 Gürgen, G. (2008). Birliktelik kuralları ve sepet analizi ve bir uygulaması.Yüksek Lisans Tezi, Marmara Üniversitesi Sosyal Bilimler Enstitüsü Ekonometri Anabilim Dalı, İstanbul. Kass, Gordon V. (1980). An exploratory technique for ınvestigating large quantities of categorical data, Applied Statistics, 29(2), 119-127. Keskin, N., Koraltan, A. ve Öztürk, Ö. (2010). Pamukkale üniversitesi buldan MYO öğrenci profili.Ulusal Meslek Yüksekokulları Öğrenci Sempozyumu, Düzce. Kim, S. B., Jitpitaklert, W., Park, S.K., ve Hwang, S.J. (2011). Data mining model-based control charts for multivariate and autocorrelated processes.Expert Systems with Applications, 39(2), 2073-2081. Koncuk, İ. (2012). Fen-Edebiyat fakülteleri ve formasyon programı (öğretmen yetiştirme). 21. Yüzyılda Eğitim ve Toplum (Eğitim Bilimleri ve Sosyal Araştırmalar Dergisi), 1(2),97-104. Koyuncugil, A. S, ve Özgülbaş, N. (2009). Veri madenciliği: tıp ve sağlık hizmetlerinde kullanımı ve uygulamaları. Bilişim Teknolojileri Dergisi, 2(2), 21-32. Koyuncugil, A. S (2007). Veri madenciliği ve sermaye piyasalarına uygulanması. Sermaye Piyasası Kurulu Araştırma Raporu,Sermaye Piyasası Kurulu Araştırma Dairesi, Ankara. Kumar, N., Krovi, R. ve Rajagopalan, B (1997). Financial decision support with hybrid genetic and neural based modeling tools. European Journal of Operational Research, 103(2), 339-349. Kurt, Ç. ve Erdem, A. (2012). Öğrenci başarısını etkileyen faktörlerin veri madenciliği yöntemleriyle incelenmesi. Politeknik Dergisi, 15(2), 111-116. Lee, K, C, Han, I, ve Kwon, Y. (1996). Hybrid neural network models for bankruptcy predictions.Decision Support Systems, 18(1), 63-73. Magnusson, C., Arppe, A., Eklund, T., ve Back, B. (2005). The language of quarterly reports as an ındicator of change in the company’s financial status. Information &Management, 42(4), 561-570. Nazem, S ve Shin, B(1999). Data mining: new arsenal for strategic decision making. Journal of Database Management, 10(1), 39-42. 67 Owen F. K., Kepir D. D, Özdemir S., Ulaş Ö. ve Yılmaz O. (2012). Üniversite öğrencilerinin bölüm seçme nedenleri, Mersin Üniversitesi Eğitim Fakültesi Dergisi, 8(3),135-151. Öğüt, S. (2005). Veri madenciliği kavramı ve gelişim süreci.Veri Madenciliği Paneli, İstanbul. Pang, S., and Gong, J. (2009). C5.0 Classification Algorithm and application on ındividual credit evaluation of banks. System Engineering-Theory&Practice, 29(12), 94-104. Rexer, K. 2013 data miner survey highlights. Boston:Predictive Analytics World, URL:http://agiltools.com/blogsp/wp-content/uploads/2013/12/2013-Rexer-DMSurvey-PAW Deck.pdf (Son Erişim Tarihi:05.08.2013). Silahtaroğlu, G. (2013).Veri Madenciliği: Kavram ve Algoritmaları.İstanbul: Papatya Yayıncılık,75. Swift, R. (2001).Accelerating customer relationship. Prentice Hall PTR. Şimşek, U. T. (2006).Veri madenciliği ve müşteri ilişkileri yönetiminde (CRM) bir uygulama. Basılmamış Doktora Tezi, İstanbul Üniversitesi Sosyal Bilimler Enstitüsü, İstanbul. Timor, M. ve Şimşek, T. (2008). Veri madenciliğinde sepet analizi ile tüketici davranışı modellemesi. Yönetim Dergisi, Sayı 59,1-10. Topaloğlu, F. (2007). Veri madenciliği ile meteorolojik parametrelerin analizi ve ziraî meteoroloji haritasının çıkarılması. Yüksek lisans Tezi, Bilgisayar Mühendisliği Anabilim Dalı, Elazığ. Yıldırım, P., Uludağ, M. ve Görür, A. (2007). Hastane bilgi sistemlerinde veri madenciliği. Çanakkale: Akademik Bilişim Bildiri,Çanakkale On Sekiz Mart Üniversitesi. İnternet: Bülent Ecevit Üniversitesi 8. FEFKON Fen, Edebiyat, Fen-Edebiyat, Dil ve Tarih-Coğrafya, İnsan ve Toplum Bilimi Fakülteleri Dekanlar Toplantısı “ 2013 Fen Edebiyat Fakülteleri Kapasitelerinin Etkin kullanımı” http://fefkon.beun.edu.tr/Sonuc_raporlari/Paneller.pdf (Son Erişim Tarihi:05.08.2014). 68 ÖZGEÇMİŞ Kişisel Bilgiler Soyadı, Adı : AKÇA, Ferda Uyruğu : T.C Doğum Tarihi ve yer : 07.02.1988 Erzurum Medeni Hal : Bekar Telefon : 0 (505) 509 46 46 Faks :- e-mail : ferda_akca@hotmail.com Eğitim Derece Eğitim Birimi Mezuniyet Tarihi Yüksek Lisans Gazi Üniversitesi/İstatistik Devam ediyor Lisans Gazi Üniversitesi/İstatistik 2010 Lise Başkent Lisesi 2005 Yıl Yer Görev 2012 2013 Gazi Üniversitesi Sosyal Güvenlik Kurumu Veri Denetciliği Denetmenlik İş Deneyimi Yabancı Dil İngilizce Hobiler Yüzmek, dans etmek, bulmaca çözmek