T.C. Ġstanbul Üniversitesi Sosyal Bilimler Enstitüsü ĠĢletme Anabilim Dalı Sayısal Yöntemler Bilim Dalı Doktora Tezi HĠBRĠT RADYAL TABANLI FONKSĠYON AĞLARI ĠLE DEĞĠġKEN SEÇĠMĠ VE TAHMĠNLEME: MENKUL KIYMET YATIRIM KARARLARINA ĠLĠġKĠN BĠR UYGULAMA Oğuz Akbilgiç 2502050244 DanıĢman: Prof.Dr. Mehmet Erdal Balaban Ġkinci DanıĢman: Prof.Dr. Hamparsum Bozdoğan Ġstanbul, 2011 I II ÖZ Radyal Tabanlı Fonksiyon Ağları, kullandıkları özel bir tür aktivasyon fonksiyonu nedeniyle yapay sinir ağlarının özel bir biçimi olarak değerlendirilmektedir. Radyal tabanlı fonksiyonlar olarak adlandırılan bu özel fonksiyonlar, modelin girdi uzayının farklı bölgelerinde saklı olan farklı yapıların modellenmesine imkan vermektedir. Diğer taraftan radyal tabanlı fonksiyon ağları modelinde, gizli katman nöron sayısının deneme yanılma yolu ile belirlenmesi, merkez ve yayılım parametrelerinin uzun zaman alabilen iteratif yöntemlerle belirlenmesi ve tasarım matrisinin tekilliği gibi sorunlar ortaya çıkmaktadır. Bağımsız değişkenlerinin hangilerinin bağımlı değişken ile ilişkili olduğunun belirlenememesi ise radyal tabanlı fonksiyon ağlarının eksikliklerinden biridir. Bu çalışmada radyal tabanlı fonksiyon ağları sözü edilen sorun ve eksikliklere çözüm getirecek şekilde uygun istatistik yöntemlerle entegre edilerek, Hibrit Radyal Tabanlı Fonksiyon Ağları modeli oluşturulmuştur. Oluşturulan Hibrit Radyal Tabanlı Fonksiyon Ağının performansı ve geçerliliği, İMKB Ulusal 100 endeksinin yönünün belirlenmesi üzerine bir çalışma ile test edilmiştir. III ABSTRACT Radial Basis Function Networks are one of the sub division of artificial neural networks with their special activation functions called radial basis functions. These functions allow us to model the patterns hidden in the different locations of input space. On the other hand, defining the number of neuron in hidden layer by method of trial and error, finding the center and radius parameters using iterative learning methods, and the singularity of design matrix are are common problems in radial basis function networks modeling. However, not to being able to define which variables are correlated with dependent variable is another problem with radial basis function networks. In this study, we constructed a Hybrid Radial Basis Function Network model to handle the problems mentioned. The performance of Hybrid Radial Basis Function Network model is tested by a case study on forecasting the direction of movement of Istanbul Stock Exchange National 100 index. IV ÖNSÖZ Yapay Zeka, bilim dünyasında son 60 yılın en popüler konularından birisidir. Yapay zekanın bir çok alt çalışma kolu olmakla beraber Yapay Sinir Ağları, yapay zekanın lokomotifi olmuş bir sahadır. Klasik istatistik yöntemlere alternatif çözümler üretebilen yapay sinir ağlarının da kendi içinde birçok türü vardır. Bu türlerden birisi olan Radyal Tabanlı Fonksiyon Ağları, özellikle sınıflandırma ve tahminleme problemlerine başarı ile uyarlanmaktadır. Klasik istatistik yöntemlere göre daha az varsayıma sahip olmaları nedeniyle gerçek hayat problemlerinin çözümüne oldukça uygun olmakla beraber bu ağlar, bazı dezavantajlara da sahiptir. Bu dezavantajların başında eldeki veriye en iyi uyum gösterecek ağ mimarisinin deneme yanılma yolu ile belirlenmesi yer almaktadır. Dolayısıyla her zaman elde edilen çözümden daha iyi bir çözüm olabileceği varsayılmaktadır. Diğer taraftan en uygun ağ parametrelerinin belirlenmesi aşaması olan öğrenme, genellikle çok zaman alan, işlem yüküne neden olan ve yerel en iyi çözüme takılması olası iteratif algoritmalar ile gerçekleştirilir. Ağ parametrelerinin başlangıç değerlerinin rastgele olarak belirlenmesi de, en iyi ağın bulunuşunun rastlantısallık içermesine neden olur. Ayrıca oluşturulan ağın parametre değerleri, bağımsız değişkenler arasından hangilerinin en iyi olduğu ile ilgili bilgi içermemektedir. Bu çalışmada radyal tabanlı fonksiyon ağları modeli ile ilgili ifade edilen problemler ve eksiklikler ele alınarak, bu sorunlara çözümler geliştirilmesi amaçlanmıştır. Bu bağlamda, ağ mimarisini ve aktivasyon fonksiyonlarına ait parametreleri belirlemek için Regresyon Ağaçları, ağırlık parametrelerini belirlemek için Ridge Regresyon, bağımlı değişken üzeride etkili olan girdi değişkenlerini belirlemek içinse Bilgi Kriterleri ve Genetik Algoritma yöntemleri, Radyal Tabanlı Fonksiyon Ağları ile entegre edilerek sözü edilen sorunların üstesinden gelecek hibrit bir model oluşturulmuştur. Hibrit Radyal Tabanlı Fonksiyon Ağları olarak adlandırdığımız modelin geçerliliği öncelikle benzetim verisi üzerinde test edilmiştir. Ayrıca modelin gerçek veriler üzerindeki geçerliliği, İMKB Ulusal 100 Endeks yönünün tahmini üzerine yapılan bir uygulama ile sınanmıştır. V Bu çalışmanın her aşamasında bilgi ve tecrübelerini benimle paylaşan danışman hocam Prof.Dr. Mehmet Erdal Balaban‟a teşekkür ederim. Ayrıca beni University of Tennessee‟de bir yıl süreyle misafir eden ve bu süreçte gerek verdiği fikirlerle tezimi şekillendiren gerekse sağladığı kaynaklarla tez çalışmalarımı hızlandıran ve kolaylaştıran eş danışman hocam Prof.Dr. Hamparsum Bozdoğan‟a teşekkürü bir borç bilirim. Tezimin finans uygulamasında her zaman fikirlerini benimle paylaşan Dr. Ebru Demirci‟ye, tezimin yazım kısımlarının gözden geçirilmesinde desteklerini esirgemeyen arkadaşlarım Dr. Eylem Deniz Howe, Dr. Seda Tolun ve Dr. Elif Ünal Çoker‟e Matlab programı ile ilgili verdiği destekler için Dr. John Andrew Howe‟a teşekkür ederim. Verdikleri burslar ile tez çalışmamın bir yılını ABD‟de sürdürebilmemi sağlayan başta TÜBİTAK olmak üzere YÖK ve İstanbul Üniversitesi‟ne teşekkürlerimi sunarım. Son olarak çok severek yaptığım akademisyenlik mesleğini bana kazandıran hocam Prof.Dr. Nalan Cinemre‟ye ve geldiğim her noktada benden çok emekleri olan ailem Nurten, Ahmet ve Fatih Akbilgiç‟e sonsuz teşekkürlerimi sunarım. Oğuz Akbilgiç Haziran 2011 VI ĠÇĠNDEKĠLER ÖZ ......................................................................................................... III ABSTRACT ..........................................................................................IV ÖNSÖZ ................................................................................................... V ĠÇĠNDEKĠLER .................................................................................. VII KISALTMALAR LĠSTESĠ ............................................................... XII ġEKĠLLER LĠSTESĠ ....................................................................... XIII TABLOLAR LĠSTESĠ ....................................................................... XV GĠRĠġ ....................................................................................................... 1 BÖLÜM 1 YAPAY ZEKA ................................................................. 4 1.1 Yapay ZekaYaklaşımları .............................................................................. 4 1.1.1 İnsan Gibi Davranmak: Turing Testi Yaklaşımı ................................... 5 1.1.2 İnsan Gibi Düşünmek: Bilimsel Modelleme Yaklaşımı ....................... 5 1.1.3 Rasyonel Düşünme: Düşünce Kanunları Yaklaşımı ............................. 6 1.1.4 Rasyonel Davranmak: Rasyonel Ajan Yaklaşımı ................................. 6 1.2 Yapay Zeka Çalışmalarının Tarihçesi .......................................................... 8 1.3 Yapay Zekanın Alt Çalışma Alanları ......................................................... 10 1.3.1 Uzman Sistemler ................................................................................. 10 1.3.2 Bulanık Mantık ................................................................................... 11 1.3.3 Yapay Sinir Ağları .............................................................................. 12 1.3.4 Genetik Algoritma ............................................................................... 13 BÖLÜM 2 YAPAY SĠNĠR AĞLARI .............................................. 14 2.1 Yapay Sinir Ağlarının Kullanım Alanları .................................................. 17 2.2 Biyolojik Sinir Sistemi ve İşleyişi .............................................................. 18 VII 2.3 Yapay Sinir Ağlarının Genel Yapısı .......................................................... 19 2.4 Yapay Sinir Ağlarının Bileşenleri .............................................................. 20 2.4.1 Katmanlar ............................................................................................ 20 2.4.2 Bağlantılar ........................................................................................... 22 2.4.3 Aktivasyon Fonksiyonları ................................................................... 22 2.5 Yapay Sinir Ağı Modelleri ve Öğrenme Algoritmaları .............................. 23 2.5.1 Hebb Kuralı ......................................................................................... 23 2.5.2 Perseptron ............................................................................................ 24 2.5.3 Delta Kuralı ......................................................................................... 30 2.5.4 Sezgisel Optimizasyon Algoritmaları ile Öğrenme ............................ 34 2.6 Yapay Sinir Ağlarının Avantajları ve Dezavantajları ................................ 34 2.7 Radyal Tabanlı Fonksiyon Ağları .............................................................. 36 BÖLÜM 3 HĠBRĠT RADYAL TABANLI FONKSĠYON AĞLARI ........................................................................................... 37 3.1 Radyal Tabanlı Fonksiyon Ağları .............................................................. 37 3.2 Radyal Tabanlı Fonksiyon Ağlarının Yapısı .............................................. 39 3.3 Radyal Tabanlı Fonksiyonlar ..................................................................... 42 3.4 Radyal Tabanlı Fonksiyon Ağlarında Öğrenme .......................................... 46 3.4.1 Radyal Tabanlı Fonksiyonların c ve r Parametrelerinin Belirlenmesi 46 3.4.2 Radyal Tabanlı Fonksiyonların w Bağlantı Ağırlıklarının Belirlenmesi 50 3.5 RTFA ile Diğer Çok Katmanlı Yapay Sinir Ağlarının Karşılaştırılması ... 52 3.6 Radyal Tabanlı Fonksiyon Ağlarında Mevcut Sorunlar ve Eksiklikler ..... 52 3.7 Hibrit Radyal Tabanlı Fonksiyon Ağları .................................................... 53 BÖLÜM 4 REGRESYON AĞAÇLARI ......................................... 57 4.1 Regresyon Ağaçlarının Yapısı .................................................................... 58 VIII 4.2 Regresyon Ağaçlarının Oluşturulması ....................................................... 59 4.3 Ayırma Kuralları ........................................................................................ 61 4.3.1 En Küçük Kareler Kuralı .................................................................... 61 4.3.2 En Küçük Mutlak Sapma Kuralı ......................................................... 62 4.4 Regresyon Ağaçlarının Budanması ............................................................ 62 4.5 Regresyon Ağaçlarında Maliyetler ............................................................. 63 4.5.1 Açıklayıcı Değişken Sayısı ve Yanlış Sınıflandırmaya Bağlı Maliyetler 63 4.5.2 Ağaç Karmaşıklığı Maliyeti ................................................................ 63 4.6 Regresyon Ağaçlarının Hibrit Radyal Tabanlı Fonksiyon Ağlarına Entegre Edilmesi ................................................................................................................ 64 BÖLÜM 5 RĠDGE REGRESYON .................................................. 66 5.1 Çoklu Doğrusal Regresyon ........................................................................ 66 5.1.1 En Küçük Kareler Kestirimi ................................................................ 69 5.1.2 Çoklu Doğrusal Regresyon Modelinin Varsayımları .......................... 70 5.2 Ridge Regresyon ........................................................................................ 73 5.2.1 Varlık Teoremi .................................................................................... 75 5.2.2 Ridge Kestiricisinin Özellikleri .......................................................... 76 5.2.3 Genellestirilmiş Ridge Regresyon ....................................................... 77 5.3 En İyi Ridge Sabitinin Belirlenmesi ........................................................... 77 5.3.1 Ridge İzi Diyagramı ............................................................................ 77 5.3.2 Ridge Sabitinin Belirlenmesinde Kullanılan Diğer Yöntemler .......... 78 5.4 Hibrit RTFA Modelinde Ridge Regresyonun Kullanımı ........................... 80 BÖLÜM 6 DEĞĠġKEN SEÇĠMĠ ..................................................... 82 6.1 Uyum İyiliği ve Bilgi Ölçümü.................................................................... 84 6.1.1 Entropi ................................................................................................. 84 IX 6.1.2 Kullback-Leibler Uzaklığı .................................................................. 84 6.1.3 Fisher Bilgi Matrisi ............................................................................. 86 6.2 Akaike-Tipi Değişken Seçim Kriterleri ...................................................... 87 6.2.1 Akaike Bilgi Kriteri ............................................................................. 88 6.2.2 Schwartz Bilgi Kriteri ......................................................................... 89 6.2.3 Tutarlı Akaike Bilgi Kriteri (CAIC) ................................................... 90 6.2.4 Fisher Bilgi Matrisine Dayalı Tutarlı Akaike Bilgi Kriteri ( CAICF) 90 6.3 ICOMP Tipi Değişken Seçim Kriterleri ..................................................... 91 6.4 AIC-Tipi Kriterler ile ICOMP-Tipi Kriterlerin Karşılaştırılması .............. 94 6.5 En İyi Model Değişkenlerinin Genetik Algoritma ile Belirlenmesi ........... 95 6.5.1 Genetik Algoritma ............................................................................... 95 6.5.2 Genetik Algoritmanın Yapısı 96 6.5.3 Genetik Algoritmanın Parametreleri ................................................... 97 6.5.4 Hibrit RTFA Modelinde Değişken Seçimi Problemi için Genetik Algoritma ........................................................................................................ 102 BÖLÜM 7 UYGULAMA ................................................................ 103 7.1 Hibrit RTFA Modeli için MATLAB Kullanıcı Arayüzü .......................... 103 7.2 Benzetim Verisi için Uygulama ............................................................... 107 7.2.1 Benzetim Verisi için Uygun Radyal Tabanlı Fonksiyonun Seçimi .. 109 7.2.2 Değişken Seçimi ................................................................................ 111 7.2.3 Benzetim Verisi için Tahminleme .................................................... 112 7.2.4 Benzetim Çalışmasının Sonuçları ..................................................... 115 7.3 Hibrit RTFA Modeli ile İMKB Ulusal 100 Endeks Yönünün Tahmini ... 115 7.3.1 Değişkenlerin Belirlenmesi ............................................................... 116 7.3.2 Verilerin Analiz için Hazırlanması ................................................... 119 7.3.3 İMKB Ulusal 100 Endeksi İçin Değişken Seçimi ............................ 120 X 7.3.4 İMKB Ulusal 100 Endeksinin Yönünün Tahmini ............................ 122 7.3.5 Çapraz Doğrulama ile Model Tutarlılığının Kontrolü ...................... 131 7.3.6 İMKB Ulusal 100 Endeks Yönü Tahmini Uygulama Sonuçların Yorumlanması ................................................................................................. 133 SONUÇ VE ÖNERĠLER ................................................................... 135 KAYNAKÇA ...................................................................................... 137 ÖZGEÇMĠġ ........................................................................................ 150 XI KISALTMALAR LĠSTESĠ AIC : Akaike Bilgi Kriteri BIC : Schwartz Bilgi Kriteri BM : Bulanık Mantık CAIC : Tutarlı Akaike Bilgi Kriteri CAICF : Fisher Bilgisine Dayalı Tutarlı Akaike Bilgi Kriteri ÇDB : Çoklu Doğrusal Bağlantı ÇDR : Çoklu Doğrusal Regresyon EKK : En Küçük Kareler GA : Genetik Algoritma GÇD : Genelleştirilmiş Çapraz Doğrulama ICOMP : Bilgi Karmaşıklığı IFIM : Ters Fisher Bilgi Matrisi RA : Regresyon Ağaçları RR : Ridge Regresyon RTF : Radyal Tabanlı Fonksiyon RTFA : Radyal Tabanlı Fonksiyon Ağları SBC : Schwartz Bilgi Kriteri US : Uzman Sistemler VIF : Varyans Artış Faktörü YSA : Yapay Sinir Ağları YZ : Yapay Zeka XII ġEKĠLLER LĠSTESĠ Şekil 2-1 Nöron Genel Görünümü ve Nöronu Oluşturan Birimler (Fraser, 1998, s. 1) .................................................................................................................................... 18 Şekil 2-2Bir yapay sinir ağının genel görünümü ....................................................... 20 Şekil 2-3 Tek katmanlı perseptron örneği .................................................................. 25 Şekil 2-4 İki girdi ve bir çıktılı perseptron ................................................................. 25 Şekil 2-5 AND, OR ve XOR problemleri için karar düzlemleri (Nascimento, 1994) 28 Şekil 2-6 m girdi ve n çıktılı tek katmanlı bir yapay sinir ağı (Fuller 2000, 174) ..... 32 Şekil 3-1 İki kategorili sınıflandırma problemi .......................................................... 38 Şekil 3-2 Boyut yükseltme yolu ile doğrusal ayrıştırılabilirlik .................................. 39 Şekil 3-3 RTFA Mimarisi .......................................................................................... 40 Şekil 3-4 Radyal Tabanlı Fonksiyonlar (c=0.5 ve r=0.2) .......................................... 43 Şekil 3-5 İki girdili bir RTFA mimarisinde RTF'lerin görünümü ............................. 44 Şekil 3-6 Aşırı Uyum ve Yetersiz Öğrenme Örneği .................................................. 45 Şekil 3-7 Karar Ağaçları ............................................................................................ 49 Şekil 3-8 Aşırı belirli model örneği (Bozdogan H. , 2007, s. 17) .............................. 51 Şekil 3-9 Hibrit Radyal Tabanlı Fonksiyon Ağı ........................................................ 56 Şekil 4-1 Örnek Regresyon Ağacı Gösterimi ............................................................ 58 Şekil 4-2 Regresyon Ağacının Dikdörtgenler Yardımı ile Gösterimi ........................ 59 Şekil 5-1 Ridge İzi Diyagramı (Bjorksrtrom, 2001, s. 8)........................................... 78 Şekil 6-1 Tek nokta çaprazlaması ............................................................................ 100 Şekil 6-2 İki nokta çaprazlaması .............................................................................. 100 Şekil 7-1 Hibrit RTFA kullanıcı arayüzü karşılama ekranı ..................................... 104 Şekil 7-2 Hibrit RTFA modeli ile değişken seçimi arayüzü .................................... 105 Şekil 7-3 Hibrit RTFA modeli ile tahminleme için kullanıcı arayüzü ..................... 106 Şekil 7-4 Benzetim verisi uygulaması için akış diyagramı ...................................... 108 Şekil 7-5 Bağımlı değişken ve doğru bağımsız değişkenler arasındaki ilişki .......... 109 Şekil 7-6 Eğitim veri kümeleri için tahminlenen ve gözlenen değerler ................... 114 Şekil 7-7 Test veri kümeleri için tahminlenen ve gözlenen değerler ....................... 114 XIII Şekil 7-8 Endeks yönü tahmini uygulaması için akış diyagramı ............................. 118 Şekil 7-9Tahmin dönemi boyunca Hibrit RFTA modeli ile verilen al-sat kararları ve IMKB100 endeksinin seyri ...................................................................................... 128 XIV TABLOLAR LĠSTESĠ Tablo 2-1 Örnek Aktivasyon Fonksiyonları .............................................................. 23 Tablo 2-2 AND, OR ve XOR problemlerinin girdi ve çıktı değerleri ....................... 28 Tablo 3-1 Hibrit RTFA modeli bileşenlerinin işlevleri.............................................. 55 Tablo 6-1 Genetik Algoritma Parametreleri .............................................................. 97 Tablo 6-2 Göze Genişlikleri ....................................................................................... 99 Tablo 6-3 Bireylerin Alt ve Üst Seçim Aralıkları ...................................................... 99 Tablo 7-1 Farklı örneklem büyüklüğü ve radyal tabanlı fonksiyonlar için doğru değişken seçim yüzdeleri ......................................................................................... 110 Tablo 7-2 Farklı Örneklem Büyüklüğü ve Radyal Tabanlı Fonksiyonlar için Doğru Model Seçim Yüzdeleri............................................................................................ 111 Tablo 7-3 Çapraz doğrulama sonuçları .................................................................... 113 Tablo 7-4 Modelde kullanılan endeksler.................................................................. 118 Tablo 7-5 Değişken seçimi için model parametreleri .............................................. 120 Tablo 7-6 Değişken Seçimi Sonuçları...................................................................... 121 Tablo 7-7 Değişken Seçimi Sonucu Oluşan Modeller ............................................. 122 Tablo 7-8 Yapılan Tahminlerin ele alınan 7 model üzerinden ortalamaları ............ 124 Tablo 7-9 Tüm Modeller ve Eğitim veri kümesi büyüklükleri üzerinden ortalamalar .................................................................................................................................. 125 Tablo 7-10 Tüm eğitim veri kümesi büyüklükleri ve RTF‟lar üzerinden ortalamalar .................................................................................................................................. 126 Tablo 7-11 Model 2 için 200 işlem günlük tahmin .................................................. 127 Tablo 7-12 20 işlem günlük tahminler için yatırımın seyri...................................... 129 Tablo 7-13 En iyi model için çapraz doğrulama sonuçları ...................................... 132 XV GĠRĠġ Yapay Sinir Ağları, insana özgü düşünce ve öğrenme sisteminin taklit edilerek, mevcut verilerden öğrenen ve daha önce karşılaşılmamış durumlarda uygun çıktılar üretecek şekilde yapılandırılan modellerdir. Bu özelliği ile bir yapay zeka türü olan yapay sinir ağları, insan sinir sisteminin bilgisayar ortamındaki benzetimi olarak değerlendirilebilir. Yapay sinir ağları, özellikle bağımlı ve bağımsız değişkenler arasındaki doğrusal olmayan matematiksel ilişkilerin modellenmesinde kullanılmaktadır. Bu bağlamda yapay sinir ağları, tahminleme, sınıflandırma, kümeleme, sinyal işleme, görüntü ve ses tanıma v.b. birçok alanda başarıyla uygulanabilmektedir. İleri beslemeli yapıda bir tür yapay sinir ağı olan Radyal Tabanlı Fonksiyon Ağları ise özellikle sınıflandırma ve tahminleme problemlerinde kullanılmaktadır. Radyal tabanlı fonksiyon ağları, klasik istatistik yöntemlere göre daha az varsayıma sahip olmaları nedeniyle gerçek hayat problemlerine daha kolay uyum sağlamaktadır. Diğer taraftan her yöntemde olduğu gibi radyal tabanlı fonksiyon ağlarında da karşılaşılan sorunlar ve eksiklikler vardır. Bu sorunların en önemlilerinden biri, gizli katman nöron sayısının deneme yanılma yolu ile belirlenmesidir. Ayrıca gizli katman nöronlarında kullanılan radyal tabanlı aktivasyon fonksiyonlarının merkez ve yarıçap parametrelerinin öğrenilmesi, oldukça zaman ve işlem yükü getiren iteratif algoritmalarla gerçekleştirilmektedir. Bu zaman ve işlem yükünün göze alındığı durumlarda bile daha iyi bir parametre kombinasyonunun var olmadığı garanti değildir. Diğer taraftan ağırlık değerlerinin doğrusal regresyon ile öğrenilmesi aşamasında sıklıkla tekillik sorunu ortaya çıkmaktadır. Radyal tabanlı fonksiyon ağlarının yukarıda ifade edilen sorunlarının yanında diğer bir önemli eksikliği, model parametrelerinin, bağımsız değişkenlerden hangilerinin bağımlı değişken üzerinde daha etkili olduğu konusunda bilgi 1 içermemesidir. Bu bağlamda model karmaşıklığını azaltacak bir bileşenin eksikliği söz konusudur. Bu çalışmada radyal tabanlı fonksiyon ağları, sözü edilen sorunları ve eksiklikleri açısından ele alınarak daha sağlam bir hibrit model ortaya konulması amaçlanmıştır. Buradan hareketle Bölüm 1 ve Bölüm 2‟de sırasıyla yapay zeka ve ileri beslemeli yapay sinir ağları üzerinde durularak radyal tabanlı fonksiyon ağları için bir altyapı oluşturulmuştur. Sözü edilen sorunlara çözüm olacak şekilde öne sürülen Hibrit Radyal Tabanlı Fonksiyon Ağları Bölüm 3‟te tanıtılmıştır. Ayrıca modelde kullanılan diğer yöntemlerin detaylı açıklamasına ise Bölüm 3‟ü takip eden bölümlerde yer verilmiştir. Radyal tabanlı fonksiyonlarda, gizli katman nöron sayısının ve aktivasyon fonksiyonlarının merkez ve yarıçap parametrelerinin belirlenmesi sorunlarını çözmek üzere modele Regresyon Ağaçları entegre edilmiştir. Bu bağlamda öncelikle girdi uzayı, hiper-dikdörtgenlerden oluşan alt uzaylara ayrılmaktadır. Daha sonra girdi uzayındaki her bir hiper-dikdörtgene gizli katmanda bir nöron karşılık getirilerek gizli katman nöron sayısı belirlenmektedir. Ayrıca her bir hiper-dikdörtgenin merkez koordinatları ve bu merkeze kenarların uzaklık bilgileri, karşılık getirilen gizli katman nöronundaki aktivasyon fonksiyonunun merkez ve yarıçap parametrelerinin belirlenmesinde kullanılmaktadır. Bu bağlamda Bölüm 4, Regresyon Ağaçlarının detaylı açıklanmasına ayrılmıştır. Ağırlık parametrelerinin doğrusal regresyon ile öğrenilmesinde karşılaşılan tekillik sorunu ise bu aşamada Ridge Regresyon kullanılarak aşılmıştır. Ridge Regresyon yönteminin detaylarına Bölüm 5‟te yer verilmiştir. Radyal tabanlı fonksiyon ağlarının bağımsız değişkenlerden hangilerinin bağımlı değişken üzerinde etkili olduğunu belirleyememesi noktasındaki eksiklik, bilgi kriterleri temelli değişken seçim kriterleri modelle entegre edilerek giderilmiştir. Böylece radyal tabanlı fonksiyon ağlarının doğrusal olmayan modelleme gücü ile bilgi kriterlerine dayalı kriterlerin değişken seçim yöntemlerinin etkinliği birleştirilmiştir. Model karmaşıklığının indirgenmesinde oldukça etkin olması beklenen bu birleşimin uygulamasında karşılaşılan eniyileme problemi ise 2 Genetik Algoritmalar ile gerçekleştirilmektedir. Bu bağlamda Bölüm 6‟da yer alan Değişken Seçimi bölümünün içinde Genetik Algoritmalar konusuna da yer verilmiştir. Son olarak Bölüm 7, geliştirilen Hibrit Radyal Tabanlı Fonksiyon Ağının değişken seçimi ve tahminleme açısından performansının test edilmesine ayrılmıştır. Bu bağlamda öncelikle model performansı çok yüksek dereceden doğrusal olmayan yapıda matematiksel ilişki barındıracak şekilde oluşturulmuş benzetim verisinde test edilmiştir. Daha sonra modelin gerçek veri üzerindeki performansını test etmek amacıyla İMKB Ulusal 100 endeksinin yönünün uluslararası endeks değerleri kullanılarak tahmini üzerine bir uygulama gerçekleştirilmiştir. Çalışmada ortaya konulan bulgular Sonuçlar ve Öneriler kısmında yer almakla beraber tüm çalışmanın akışı aşağıdaki diyagram ile özetlenmektedir. YAPAY ZEKA ĠLERĠ BESLEMELĠ YAPAY SĠNĠR AĞLARI HĠBRĠT RADYAL TABANLI FONKSĠYON AĞLARI RADYAL REGRESYON RĠDGE DEĞĠġKEN TABANLI AĞAÇLARI REGRESYON SEÇĠMĠ VE FONKSĠYON GENETĠK AĞLARI ALGORTĠMA ĠMKB ULUSAL 100 ENDEKS YÖNÜ TAHMĠNĠ 3 BÖLÜM 1 YAPAY ZEKA İnsanoğlu tarih boyunca hayatını kolaylaştıracak icatlar peşinde koşmuştur. İnsanlık ilerledikçe icatlar gelişmiş, icatlar geliştikçe insanlık ilerlemiştir. Buluşların ve icatların temel çıkış noktasını ise insanın ihtiyaçları oluşturmaktadır. Bu bağlamda insan, bedeninin fiziksel veya zihinsel yönden sınırlarını alet, araç, makine vb. teçhizatları geliştirerek sürekli genişletmiştir. İnsan karar verme, muhakeme ve idrak etme gibi çok karmaşık işlemleri çok kısa sürede yapabiliyorken, sayısal işlemlerde aynı başarıyı gösterememektedir. Örneğin sabah camdan dışarıya bakarak, hava koşullarından bedeninin olumsuz etkilenmesini engelleyecek kıyafetleri birkaç saniyede seçebilen insan beyni, dört basamaklı iki sayının çarpılması işlemini aynı hızla yapamamaktadır. Bu bağlamda hesap makineleri, insanın eksik olan bu özelliğine destek olmak üzere geliştirilmiş ilk bilgisayarlar olarak kabul edilmektedir. Günümüz bilgisayarları çok karmaşık matematiksel işlemleri bile saliselerle ölçülebilecek kadar kısa sürelerde yapabilmektedir. Ancak bilgisayarların bu işlem kapasitesi, kullanıcı tarafından verilen talimatları gerçekleştirmekle sınırlıdır. İnsana ait olan, içinde bulunulan durumu idrak etme ve buna göre karar verme işlemlerini bilgisayarlar ancak daha önceden tanımlanmış sınırlı sayıda durum içinden seçim yapmak suretiyle gerçekleştirebilmektedir. Bu yönü ile bilgisayarlar insan beyninin çok gerisindedir. Yapay Zeka (Artificial Intelligence) kavramı, bilgisayarların bu eksikliğini gidermek üzere ortaya atılmıştır. Temelinde, insan gibi düşünebilen, yorum yapabilen ve karar verebilen sistem ve algoritmaların geliştirilmesi vardır. 1.1 Yapay ZekaYaklaĢımları Yapay Zeka (YZ), son 60 senedir bilim adamlarının dikkatini yoğunlaştırdığı başlıca konulardan birisi haline gelmiştir. Genel olarak amacı, insan düşünce yapısını anlayarak bunun benzerini ortaya koyacak bilgisayar işlemlerini gerçekleştirmek, diğer bir ifade ile insan gibi düşünebilen bilgisayar teknolojisini yaratmaktır. Literatürde Yapay Zeka ile ilgili birçok tanım yer almaktadır. Heugeland 4 (1985, s. 2) yapay zekayı “Makineleri düşünebilir hale getirmek için heyecan verici bir çaba… Yani tam anlamıyla, akıllı makineler.” şeklinde tanımlamaktadır. Luger (2009, s. 1) ise yapay zeka için “Bilgisayar biliminin, zeki davranışların otomasyonunu konu edinen alt kolu” tanımını vermektedir. Bu tanımların temelinde insan gibi düşünme, insan gibi davranma, rasyonel düşünme ve rasyonel davranma kavramları yatmaktadır. İfade edilen bu kavramların her biri aynı zamanda yapay zeka çalışmalarının amaçlarına göre alt kollarını da ifade etmektedir. Bu alt çalışma kolları takip eden kısımda daha ayrıntılı incelenmiştir. 1.1.1 Ġnsan Gibi Davranmak: Turing Testi YaklaĢımı Alan Turing (1950) tarafından önerilen Turing Testi, zekanın tatmin edici işlemsel tanımını vermektedir. Turing, bir makinenin zeki olup olmadığının anlaşılabilmesi için bir deney önermektedir. Turing Testi olarak adlandırılan bu deneye göre bir makine kendisine soru soran bir insana verdiği cevaplarla kendisinin bir insan sanılmasını başarabiliyorsa, zeki bir makine olarak adlandırılır (Turing, 1950). Günümüzde bile böyle bir testi geçebilecek bir program yazmak, üzerinde çalışılmaya değer bir konudur. Böyle bir bilgisayar aşağıda belirtilen özelliklere sahip olmalıdır. Doğal Dil ĠĢleme: İletişim kuracağı insanın dilini düzgün şekilde konuşabilmek. Bilgi Gösterimi: Sorgu öncesinde veya sorgu sırasında üretilen bilgiyi saklayabilmek. Muhakeme: Sorulan soruyu cevaplayabilmek ve yeni görüşler öne sürebilmek üzere depolanan bilgiyi kullanabilmek. Makine Öğrenmesi: Yeni durumlara adapte olabilmek ve daha önce görmüş olduğu bir örnekle karşılaştığında bunu belirleyebilmek ve tahmin yürütebilmek. 1.1.2 Ġnsan Gibi DüĢünmek: Bilimsel Modelleme YaklaĢımı Verilen bir programın insan gibi düşündüğünün söylenebilmesi için insan düşünce sisteminin bazı yönlerinin bilinmesi ve insan beyninin çalışma prensibinin incelenmesi gerekmektedir. Bunu gerçekleştirmenin iki yolu vardır. Bunlardan 5 birincisi, kendi düşünce ve duygularımızın izlenmesi, ikincisi ise psikolojik deneylere başvurulmasıdır. Öncelikle, teoriyi bilgisayar programına dönüştürebilecek insan aklına sahip olunması gereklidir. Örneğin, bir yapay zeka programı olan Genel Problem Çözücüyü geliştiren Newell ve Simon (1961), programlarının problemi doğru bir şekilde çözme başarısından çok programlarının problem çözmede izlediği yol ile benzer bir problemi çözen insanın izlediği yol arasındaki benzerliklere odaklanmışlardır. 1.1.3 Rasyonel DüĢünme: DüĢünce Kanunları YaklaĢımı “Rasyonel düşünme” ilk defa Aristo tarafından aksi iddia edilemeyecek şekilde bir sisteme bağlanmıştır. Aristo‟nun doğru düşünce sistemi, verilen doğru önermelerden her zaman doğru çıkarımlar yapacak şekilde tasarlanmıştır. Bunun bir örneği, “Sokrates bir erkektir ve tüm erkekler bir ölümlüdür. O zaman, Sokrates‟de ölümlüdür.” önermesi ile verilebilir (Kodratof, 1988, p. 11). Aristo‟nun rasyonel düşünce için tanımladığı bu kurallar, insan beyninin düşünce sistemi olarak kabul edilir ve mantık biliminin temellerini oluşturur. On dokuzuncu yüzyılın sonları ve yirminci yüzyılın başlarında modern mantık, bilimin hemen her dalı için bir notasyon ortaya koymuştur. 1965‟li yıllarda, yeterli zaman ve bellek sağlandığında, mantık operatörleri ile ifade edilebilmiş problemlerin varsa çözümünü bulabilen programlar geliştirilmiştir. Yapay zekanın düşünce kanunları yaklaşımı, bu tip zeki sistemler yaratmakla ilgilenir. Yapay zekanın düşünce kanunları yaklaşımında iki temel zorluk vardır. Bunlardan birincisi, formal olmayan bilgiyi mantık operatörlerinin kullanılabileceği formal hale getirebilmektir. İkincisi ise bir problemi teorik olarak çözmek ile bunu gerçek hayata uygulanması önündeki büyük zorluktur. 1.1.4 Rasyonel Davranmak: Rasyonel Ajan YaklaĢımı Rasyonel davranmak, kişinin kendisini mevcut hedefine ulaştıracak davranışları seçmesi olarak tanımlanmaktadır. Burada ajan, durumu algılayan ve ona göre hareket belirleyen birimdir. Bu yaklaşımda yapay zeka, rasyonel bir ajan elde etmenin bir aracı olarak görülür. 6 Yapay zekanın düşünce kanunları yaklaşımında sadece doğru çıkarsama yapma üzerine odaklanılmaktadır. Doğru çıkarsama yapabilmek bazen rasyonel bir ajan yaratmanın bir parçası olarak görülmektedir. Çünkü doğru çıkarsama yapabilmek, bir kişinin hedefine ulaşması sürecinde uygulaması gerekenlerden sadece birisidir. Diğer taraftan, doğru çıkarsama yapmak rasyonel olmak anlamına gelmez. Çünkü bazen öyle durumlar vardır ki, bu durumda uygulanacak kanıtlanmış doğru bir davranış şekli bulunmaz. Bununla birlikte, çıkarsama içermeyen rasyonel davranış biçimleri de vardır. Örneğin, birinin elini sıcak sobadan refleks olarak aniden kaldırması, mevcut durumu değerlendirip uygun çözüm yolları arasından elini kaldırmak yönünde çıkarımda bulunması ve uygulamasından daha iyidir. Refleks de çıkarsama da aynı sonucu üretmiştir, ancak çıkarsamaya başvuran kişinin eli artık yanmıştır. Turing Testinin gerektirdiği tüm muhakeme yetenekleri rasyonel davranışı bulmak içindir. Bu nedenle, hangi durumda ne yapılacağı bilgisini ifade edebilme yeteneğine ihtiyaç duyulmaktadır. Çünkü bu yetenek, mevcut farklı durumlar arasında doğru olanı seçme becerisini sağlamaktadır. Yapay zekanın rasyonel ajan dizayn etme çalışmalarının iki önemli avantajı bulunmaktadır. Bu avantajlardan ilki, düşünce kanunları yaklaşımından daha genel olmasıdır. Çünkü doğru çıkarım sadece rasyonelliğe ulaşmanın mekanizmalarından birisi olarak görülebilir ve gerekli değildir. İkincisi ise bilimsel gelişmelere katkı açısından, insan gibi davranma ve insan gibi düşünme yaklaşımlarından daha önemli olmasıdır. Çünkü rasyonelliğin standartları kesin çizgilerle belirlidir ve bilgisayara anlatılması çok daha kolaydır. Ayrıca insan düşüncesi yaklaşımı, daha belirgin durumlara uyarlanabilir niteliktedir ve genel sorunların çözümünde yetersiz kalmaktadır (Russell & Norvig, 2009, s. 5). Bu kısma kadar yapılan açıklamalardan anlaşılacağı gibi yapay zekanın temel amacı, görüntü tanıma, dil ve konuşma işleme, planlama ve tahminleme gibi genellikle akıllı insanlar tarafından yürütülen işleri makinelerin yapmasını sağlayacak yöntem ve sistemler geliştirmek suretiyle, yaşayan organizmaları simüle edebilecek bilgisayar bilgi sistemlerini geliştirmek ve insan beyninin işleyişi ile ilgili bilgilerimizi arttırmaktır (Kasabov, 1998, s. 1). 7 1.2 Yapay Zeka ÇalıĢmalarının Tarihçesi Yapay Zeka fikrinin izleri eski Mısır‟a kadar dayanıyor olsa da, makine zekası kavramı, elektronik bilgisayarın geliştirilmesi ile ortaya çıkmıştır. 1941 yılında Amerika ve Almanya‟da eş zamanlı olarak icat edilen bilgisayar, hafıza ve bilgi işleme konusunda bilinenleri tamamıyla değiştirmiştir. İlk bilgisayarlar geniş ve soğutmalı yerlere ihtiyaç duymakta ve bir programın çalışmasında bile ayrı ayrı binlerce kablonun yeniden düzenlenmesini gerektirmekteyken, 1949 yılındaki gelişmeler sayesinde bilgisayara program girilmesi daha kolay hale gelmiştir. 1955 yılının sonlarında Newel ve Simon, birçok bilim adamı tarafından ilk yapay zeka programı olarak kabul edilen Mantık Teorisyeni1 adlı programı geliştirmiştir. Her bir problemi bir ağaç diyagramı olarak ele alan program, problemi doğru çözümü vermesi en olası dalları seçerek çözme esasına dayanmaktadır. Mantık Teorisyeni, YZ alanındaki en önemli kilometre taşlarından birisi olarak tarihe geçmiştir. Modern Yapay Zeka biliminin temelleri ise, 1956 yazında Dartmooth College‟da düzenlenen bir konferansta atılmıştır. Başta John McCarthy, Marvin Minsky, Allen Newell ile MIT, CMU ve Stanford Üniversitesi‟ndeki yapay zeka laboratuarlarının kurucusu olan Herbert Simon olmak üzere, bu konferansa katılan kişiler on yıllarca yapay zeka çalışmalarının liderliğini yürütmüşlerdir. Bu konferansı takip eden yedi yıl içerisinde yapay zeka çalışmaları büyük bir hız kazanmıştır. Bu konferansta yapay zeka bir bilim dalı olarak henüz tanımlanmamış olmasına rağmen, konferansta şekillenen fikirler üzerine çalışılarak büyük bir bilgi birikimi sağlanmıştır. Konferansı takiben Carnegie Mellon ve MIT‟ de yapay zeka araştırmaları merkezleri kurulmuş ve yeni fikirler ortaya çıkmaya başlamıştır. Konferansa katılan kişiler ve onların öğrencileri, cebirdeki bazı problemleri çözen, mantık teoremlerini ispatlayan ve İngilizce konuşan birçok program yazmışlardır. Bu çalışmalar, 1960‟lı yılların ortalarında Amerika Savunma Departmanı tarafından da desteklenmeye başlanmıştır. 1 Mantık Teorisyeni (Logic Theorist): Birçok mantık teoreminin ispatını, insana ait problem çözme yöntemlerini taklit edecek şekilde yazılmış olan ilk yapay zeka programıdır. 8 O zaman için yeni bir program olan Genel Problem Çözücü1 (Newell, Shaw, & Simon, 1959)‟nün ilk versiyonu 1957 yılında test edilmiştir. Genel problem çözücüden birkaç yıl sonra IBM, yapay zeka çalışmaları yapmak üzere bir araştırma grubu kurmuştur ve Herbert Gelerneter bu grupta, geometri teoremlerini çözecek bir program üzerinde üç yıl boyunca çalışmıştır. Farklı çalışma grupları tarafından birçok programın üretildiği sıralarda McCharty, yapay zeka tarihinde devrim sayılacak bir çalışma ile meşgul olmuş ve 1958 yılında, günümüzde hala kullanılmakta olan LISP programlama dilini tanıtmıştır. 1960‟lı yıllarda yapay zeka alanına olan yoğun ilgi ve ortaya koyulan çalışmalar, bu alanda çalışan birçok bilim adamının yapay zeka çalışmalarında karşılaşacakları zorlukları tahmin edememelerini de beraberinde getirmiştir. Bu nedenledir ki, Simon (1965) ve Minsky (1967) gibi birçok bilim adamı yapay zekanın geleceği ile hayale varan iyimserliğe kapılmış, 1980‟li yıllara gelindiğinde yapay zeka yaratma probleminin tamamen çözülmüş olacağını ve makinelerin insanın yapabildiği her işi yapabileceğini öngörmüşlerdir. Yapay Zeka çalışmalarında diğer bir önemli gelişme, 1970‟lerde Uzman Sistemlerin ortaya çıkması ile gerçekleşmiştir. Uzman Sistemler, belirli koşullar altında alternatif bir çözümün seçilmesi olasılığını tahmin etmekte ve daha sonra alternatif çözümlerden en yüksek olasılık değerini alan alternatifin problemin çözümü olarak belirlenmesi esasına dayanmaktadır. Olasılıkların belirlenmesinde ise, bu problemle karşılaşan bir uzman kişinin değerlendirme süreci ve değerlendirme sürecinde tanımladığı kurallar uzman sisteme eğer-ise yapısı ile kodlanarak, benzer problemde uzman sistemin, uzman kişi ile benzer çözüm bulması amaçlanmaktadır. 1980‟ler yapay zeka çalışmalarının artık özel sektör tarafından da yürütüldüğü ve dolayısıyla çok büyük bir ivme kazandığı yıllar olmuştur. 1986 yılında ABD‟nin 1 Genel Problem Çözücü (General Problem Solver): Herbert Simon (1965) tarafından geliştirişmiş olan ve matematiksel sembollerle ifade edilebilen cebir teoremlerini ve geometri problemlerini çözebilecek şekilde yazılmış olan bir yapay zeka programıdır. 9 yapay zeka ile ilgili yazılım satışından kazancı $425 milyona ulaşmıştır. Aynı dönemde Uzman Sistemlere ise etkin kullanımı nedeni ile özel bir talep olmuştur. Digital Electronics, DuPont, General Motors ve Boing firmaları, uzman sistemleri aktif olarak kullanmaya ve uzman sistemlere dayalı ürünler satmaya başlamışlardır. Yapay zekanın alt çalışma alanlarından birisi olarak görülen ve belirsizlik altında karar verme konusunda tek alternatif olarak görülen Bulanık Mantık ise ilk olarak Lotfi Zadeh (1965) tarafından ortaya atılmıştır. Bulanık mantık esasına dayanan teknolojilerin geliştirilmesi 1980‟lerin sonlarından itibaren Japonya‟da başlamıştır. Bu tarihlerde yapay sinir ağları da yapay zekanın bir alt çalıma alanı olarak yeniden ele alınmaya başlanmıştır. 1980‟li yıllar yirmi birinci yüzyılın anahtar bilimi olan yapay zekanın ve yapay zeka ürünlerinin gerçek hayatla bütünleştiği ve günümüze kadar devam eden sürecin başlangıcı sayılabilir. 1.3 Yapay Zekanın Alt ÇalıĢma Alanları Yapay zeka çalışmaları, insanın taklit edilen özelliğine göre Uzman Sistemler, Bulanık Mantık, Yapay Sinir Ağları ve Genetik Algoritmalar olmak üzere dört ana başlıkta toplanabilir. Uzman Sistemler, bir konu üzerinde uzman olan insanların o konu ile ilgili bilgi ve tecrübelerinin “eğer-ise” kuralları ile bilgisayara aktarılarak, mevcut işin makine tarafından yapılmasını sağlamaktan ibarettir. Bulanık Mantık ile bilgisayarın, matematikteki klasik mantık sistemi ile çalışan ve sınırları çok keskin olan kararlar yerine, insan beyninin yaklaşımına daha yakın olan ve kararlar arasında yumuşak geçiş esasına dayanan bir sistem ile çalışması sağlanır. İnsanın öğrenme, tecrübe edinme ve karşılaştığı yeni durumlar karşısında karar verebilme özelliğinin bilgisayarda modellenmesi de yapay sinir ağları çalışmaları kapsamındadır. Genetik algoritmalar ise genellikle, insanı bugünkü varlığına ulaştıran evrim sürecinin unsurlarından “doğal seçilimi” taklit eden eniyileme algoritmaları olarak tanımlanabilir. Buradan hareketle sözü edilen yapay zeka alt çalışma alanları aşağıda özetlenmiştir. 1.3.1 Uzman Sistemler Edward Feigenbaum (1983) tarafından ortaya atılan Uzman Sistemler (US) sınırlı bir alanda geniş bir veri tabanına sahip ve sadece o işin uzmanı tarafından 10 yapılabilecek bir işi, karmaşık dolaylı muhakeme yeteneği ile yapabilen bilgisayar programlarıdır. Bu tanıma göre bir uzman sistem, yapay bir uzman olarak da adlandırılabilir. Karar verme gibi çok geniş bir yelpazeye hitap etmesi nedeniyle tıp, hukuk, eczacılık, mühendislik, işletmecilik gibi çok farklı disiplinlerde uygulama alanı bulmuştur. İnsan nasıl yaşamı boyunca sürekli yeni bilgiler edinmekte, zaman içerisinde görüşlerini derinleştirmekte, değiştirmekte ve olgunlaştırmakta ise US‟de benzer şekilde bilgi tabanını genişletebilmeli ve her yeni bilgi eklemesinde yeniden program yazılmasını gerektirmemelidir. Bir sistemin uzman sistem olarak adlandırılabilmesi için bu sistemin, kullanıcı hatalarını algılama ve bu hataların kaynağını tespit ederek kullanıcıyı hata ile ilgili bilgilendirme yapma becerisinin de olması gerekmektedir (Nabiyev, 2005, s. 445). 1.3.2 Bulanık Mantık İlk defa Azeri matematikçi Lotfi A. Zadeh (1965) tarafından ortaya atılan Bulanık Mantık (BM), daha sonraları hızlı bir gelişme göstermiştir. Tam ve kesin bilginin bulunmadığı, belirsizliğin hakim olduğu durumlarda karar verme esasına dayanan BM, karar verme gibi çok geniş bir alanda kullanıldığı için bilim ve teknolojinin hemen her alanında uygulanmaktadır. BM‟de amaç, belirsizlik ifade eden, tanımlanması güç veya anlamı zor kavramlara üyelik derecesi atayarak onlara belirlilik getirmektir (Türkşen, 1985). Bulanık Mantığın tanımı iki anlamda yapılabilir. Dar anlamda düşünüldüğünde BM, 1865 yılında Alman matematikçi Cantor tarafından ortaya koyulan klasik ikili mantık sistemine dayanan Kümeler Teorisinin genelleştirilmişidir. Daha geniş anlama bakıldığında ise BM kesin mantığı da içine alan Bulanık Kümeler Teorisi ile eş anlamdadır (Pop, 2004, s. 111). Klasik mantıkta bir önerme doğru ise 1, yanlış ise 0 değeri olmak üzere, yalnızca iki değer alabilir. BM‟da ise bir önerme, doğruluk derecesine göre kapalı aralığında sonsuz farklı değer alabilmektedir. Bu da gerçek hayata uygulandığında çok keskin kararlar yerine daha esnek kararlar verilmesini sağlamaktadır. 11 Bulanık mantığın en geçerli olduğu iki durumdan biri, incelenen olayın çok karmaşık olması ve bu olayla ilgili yeterli bilginin bulunmaması durumunda kişilerin görüş ve değer yargılarına yer verilmesi, ikincisi ise insan kavrayış ve yargısına gerek duyulan hallerdir. İnsan düşüncesinde sayısal olmasa bile belirsizlik, yararlı bir bilgi kaynağıdır. İşte bu tür bilgi kaynaklarının, olayların incelenmesinde kullanılmasında bulanık mantık ilkelerinden faydalanılır (Baykal & Timur, 2004). 1.3.3 Yapay Sinir Ağları Yapay Sinir Ağları (YSA), insan beyninin özelliklerinden olan öğrenme yolu ile yeni bilgiler türetebilme ve keşfedebilme gibi yetenekleri herhangi bir yardım almadan, otomatik olarak gerçekleştirebilmek amacı ile geliştirilen bilgisayar sistemleridir. YSA insan beyninden esinlenerek, öğrenme sürecinin matematiksel olarak modellenmesi uğraşısı sonucu ortaya çıkmıştır. Bu nedenle YSA üzerindeki çalışmalar, ilk olarak beyni oluşturan biyolojik birimler olan nöronların modellenmesi ve bilgisayar sistemlerinde uygulanması ile başlamış, daha sonraları bilgisayar sistemlerinin gelişimine paralel olarak birçok alanda kullanılır hale gelmiştir. İnsan beyninin çalışma prensibini taklit ederek çalışan bu sistemler, her ne kadar bilgisayar teknolojisi hızlı bir gelişim göstermiş, işlem hızları nano saniyeler düzeyine inmiş olsa da, değil insan beyni, ilkel bir canlıya ait sinir sisteminin yanında bile çok ilkel kalmaktadır. Nano saniyeler bazındaki işlem hızları ile yapay sinir ağları, mili saniyeler mertebesindeki işlen hızları ile işlem yapan insan beyninin işlevselliğinin henüz çok uzağındadır. İnsan beyninde yaklaşık 10¹¹ sinir hücresinin var olduğu düşünülünce, bu sayının bilgisayar ortamında modellenmesi şu an için mümkün görünmemektedir. Fakat karar hızı açısından insan beyni ile henüz yarışamasalar bile, YSA yapısallıkları ve hassas eşleştirmeleri başarı ile gerçekleştirebilmeleri nedeni ile gün geçtikçe daha fazla uygulama alanı bulmaktadır. Yapay sinir ağları başlı başına bir çalışma alanı olmakla birlikte, diğer birçok alanda bir araç olarak da kullanılmaktadır. Bu bağlamda YSA, bilimin hemen her alanında uygulanmaktadır. Bu uygulamalarda başlıcaları, uzay araştırmaları, 12 bankacılık, sigortacılık, kalite kontrol, elektronik, savunma sanayi, yönetim bilimleri, insan kaynakları ve robotik olarak sayılabilir. 1.3.4 Genetik Algoritma Milyonlarca yıldan beri organizmalar, değişen dünya koşullarına ayak uydurabilmek ve varlıklarını sürdürebilmek için biyolojik evrimden geçmektedir. Yaşayan her organizma genlerden oluşan ve kromozom adı verilen genetik materyallere sahiptir. Bu kromozomların dizilişleri ve düzenlenmesi, türlerin varlığını sürdürebilmesinde anahtar rol oynamaktadır. Doğal seçilim süreci ve en güçlü olanın yaşamını sürdürme ilkesi, evrimin önemli dayanaklarındandır. Genetik Algoritma (GA), evrimin bu ilkeleri üzerine kurulmuştur. Bu bağlamda GA, problemin alternatif çözümlerini birer birey, mevcut çözümden daha iyi bir çözüme geçme aşamasını ise doğal seçilim olarak kabul eden sezgisel bir eniyileme algoritmasıdır. Çalışmamızda özel bir ileri beslemeli YSA türü olan Radyal Tabanlı Fonksiyon Ağları, sorunları ve eksiklikleri bakımından ele alınmış ve bu sorun ve eksiklikler karşısında çözüm olarak önerilen Hibrit Radyal Tabanlı Fonksiyon Ağları modeli oluşturulmuştur. Oluşturulan modelin daha iyi anlaşılabilmesi amacıyla Bölüm 2„de ileri beslemeli ağlara odaklanılarak YSA‟a yer verilmiştir. 13 BÖLÜM 2 YAPAY SĠNĠR AĞLARI İnsan beyni üzerine yapılan çalışmalar binlerce yıl öncesine kadar uzanır. Ancak insan beyninin ve düşünce sisteminin taklit edilmesi çalışmaları modern elektroniğin ortaya çıkışı ile gerçekleşebilmiştir. YSA çalışmalarına olan ilginin ilk dalgaları, Warren McCulloch ve Walter Pitts (1943) isimli nöro-psikologların gerçekleştirdikleri çalışmalarında basitleştirilmiş nöron yapılarını tanıtmaları ile başlamıştır. Yaşamlarının yirmi yılını düşünme ve hissetme gibi sinirsel olayları araştırmaya harcayan McCulloch ve Pitts‟in çalışması, insan beyninin nasıl düşündüğünü ortaya çıkarmak için basit elektrik devrelerini kullanan ilkel bir YSA dizaynı üzerinedir. Onların bu çalışması, McCulloch ve Pitts‟in Formal Sinir Ağı Teorisi olarak anılmaktadır (Haykin, 1994, p. 38). Yapay Sinir Ağları teknolojilerindeki diğer bir büyük gelişme, Donald Hebb (1949) tarafından yayınlanan “The Organization of Behavior” adlı kitapla sağlanmıştır. Bu kitap, McCulloch ve Pitts‟in nöronlar ve bunların nasıl işlediklerine ilişkin teorisini destekler niteliktedir. Hebb‟in kitabı ile ortaya koyulan en önemli bilgi, nöral bağlantıların her kullanılışlarında daha da güçlendiklerinin gösterilmesidir. Bu bilginin doğruluğu, YSA‟nın öğrenme algoritmalarının geliştirilmesi ile pekiştirilmiştir (Haykin, 1994, p. 39). 1950‟li yıllarda YSA çalışmaları yavaşlama olmuştur. Bununla birlikte bazı araştırmacılar bireysel olarak bu alandaki çalışmalarına devam etmiştir. Marvin Minsky (1954) yazdığı "Theory of Neural-Analog Reinforcement Systems and its Application to the Brain-Model Problem" isimli doktora tezinde YSA‟nı kullanmıştır. Ayrıca Minsky, ilk defa YZ konusunu detaylı olarak ele alan “Steps Towards Artificial Intelligence" isimli bir de bilimsel makale yayınlamıştır (Minsky, 1963). Bu makale, YSA‟nı anlatan geniş bir bölüm içermektedir. 1956 yılında Dartmouth‟ta yapılan Yapay Zeka Yaz 14 Araştırma Projesi kapsamındaki çalışmalar, çok basit düzeyde olsalar da YSA çalışmalarının ilk örnekleri sayılır. 1950‟li yıllarda John Von Neuman‟ın, telgraf aleti ve vakum tüpleri kullanılarak basitleştirilmiş nöron fonksiyonlarının taklit edilebileceği üzerine ortaya attığı fikir, Von Neumann Makinesi1 keşfine de zemin hazırlamıştır. McCulloch and Pitts‟in çalışmalarından 15 yıl sonra YSA‟da yeni bir yaklaşım tanıtılmıştır. 1958 yılında Cornell Üniversitesinde nöro-biyolog olarak görev yapan Frank Rosenblatt, Perseptron üzerinde çalışmaya başlamıştır. Perseptron, uygulamaya elverişli ilk YSA modeli olarak kabul edilmektedir. Perseptronun oluşturulmasında o zamanların bile en ilkel donanım malzemeleri kullanılmıştır. Perseptronun ilham kaynağı ise sineklerin gözleri olmuştur. Yaklaşan bir tehlikeyi gören bir sineğin kaçma kararını alma süreci, perseptron ile modellenmiştir (Masters, 1993). 1959 ve 1960 yıllarında ABD‟nin Stanford Üniversitesi‟nden Bernard Wildrow ve Marcian Hoff, ADALINE2 ve MADALINE3 modellerini geliştirmişlerdir. Bu modeller, sinyal işleme gibi gerçek hayat problemlerine uygulanabilen ilk yapay sinir ağları olarak ortaya çıkmaktadır. (Rojas, 1996, s. 476). Yayınlanmasını takiben oldukça popüler hale gelen perseptrondaki büyük çöküş, Marvin Minsky ve Seymour Papert (1969) tarafından yayınlanan “Perceptrons” isimli kitapta perseptronların sınırlı problem çözme kapasitelerinin ispatlanması ile gerçekleşmiştir (Masters, 1993). Minsky ve Papert‟in YSA‟nın eksikliklerini ortaya koymaları ile beraber, birçok bilim adamı yapay sinir ağı çalışmalarını bırakmaya 1 Von Neumann Makinesi: Matematikçi John Von Neumann tarafından geliştirilen, komutlar ve verinin aynı depolama biriminde saklandığı bir çeşit bilgisayar tasarımıdır. 2 ADALINE (ADAptive LINear Elements): 1960 yılında Bernard Widrow ve doktora öğrencisi Tedd Hoff tarafından geliştirilen tek katmanlı bir yapay sinir ağı örneğidir. 3 MADALINE (Çokluple ADALINE): ADALINE ağında girdi ve çıktı arasına paralel olarak yerleştirilen bir katmanla elde edilen bir çeşit iki katmanlı yapay sinir ağıdır. 15 başlamıştır. Başlıcaları Teuvo Kohonen, Stephen Grosberg, James Anderson ve Kunihiko Fukushima olmak üzere az sayıda bilim adamı ise YSA çalışmalarına devam ettirmişlerdir (Kröse & Smagt, 1996). 1969‟dan 1981 yılına kadar geçen süreçte YZ ve YSA‟na bilim adamlarının ilgisi azalmış olsa da yapay zeka ve robotlar konusunu işleyen birçok roman, film ve televizyon programı ile konu gündemde kal mıştır. Yapay Sinir Ağlarına olan ilginin yeniden artmaya başlaması, özellikle bilgisayarların işlem kapasitelerinin artması ve hatanın geri yayılımı algoritmasının keşfini takiben 1980‟li yılların başlarına kadar beklemiştir (Kröse & Smagt, 1996, s. 13). Bu tarihlerde YSA‟da önemli bir yenilik sayılan Özdüzenleyici Haritalar1 öne çıkmaya başlamıştır. 1982 yılında California Teknoloji Enstitüsünden John Hopfield, YSA‟ya yeni bir yaklaşım getiren çalışmasını bilim dünyasına sunmuştur. Hopfield çalışmasında, YZ yaklaşımlarının insan beynini tam olarak taklit etmesinin mümkün olmamasına rağmen, dinamik problemleri çözebilecek makinelerin yapımının sağlanabileceğini ifade etmiştir. Hopfield‟in fikirleri YSA‟da yeni bir alanın doğmasını sağlamıştır. Hopfield‟in fikrine dayanan YSA modelleri ise Hopfield Modeli olarak anılmaktadır (Haykin, Neural Networks, 1994, s. 41). Yaklaşık aynı zamanlarda Japonya‟da gerçekleştirilen YSA konulu bir konferansta Japonlar, YSA‟nın kabiliyetlerinin yeniden araştırılmaya başlanacağını duyurmuşlardır. Bu duyuru, Amerika Birleşik Devletleri‟ni YZ ve YSA çalışmalarında geride kalmak korkusuna sevk etmiş ve bu alandaki çalışmalara büyük fonlar ayırmalarına neden olmuştur. Yapay sinir ağları konulu yıllık konferansların ilki 1986 yılında 1800 bilim insanının katılımı ile gerçekleştirilmiştir. Aynı yıl Rumelhart, Hinton ve Williams (1986), geri yayılım algoritmasındaki gelişmeleri konu alan bir rapor hazırlamışlardır. 1 Özdüzenleyici Haritalar (Self-Organizing Maps-SOM): Danışmansız öğrenme algoritmalarını kullanan bir çeşit yapay sinir ağıdır. Genellikle çok boyutlu girdi uzayının, harita olarak adlandırılan düşük boyutlarla ifade edilmesinde kullanılır (Kohonen, 2001, s. 106). 16 Bu çalışmalarında, geri yayılım algoritmasının çok katmanlı perseptronların eğitiminde neden en önemli yöntem olarak ortaya çıktığı üzerinde durmuşlardır. 1990‟lı yıllar teknolojide ve dolayısıyla da YSA konusunda birçok ileri düzeyde araştırma ve ilerlemenin gerçekleştiği yıllar olmuştur. Günümüzde ise YSA ilkelerinin elektronik uygulamaları oldukça popülerdir. 2.1 Yapay Sinir Ağlarının Kullanım Alanları Yapay sinir ağları, birimleri sınıflara ayırmada oldukça başarılı bir yöntemdir. Walzack ve Sincich (1999) çalışmalarında, üniversite adaylarını, kabul edildikleri takdirde kayıt yaptırıp yaptırmayacak adaylar olmak üzere YSA ile iki kategoriye ayırmışlardır. Calderon ve Cheh (2002) ise yapay sinir ağlarını, iş başarısızlığı riskinin ölçülmesinde kullanmıştır. Huang v.d. (2008) iş başarısızlığı tahmininde YSA ve finansal analiz metotlarını bir araya getirerek hibrit bir model kurmuştur. Angelini v.d. (2008) ise kredi başvurularını değerlendirmede YSA modeli kullanmışlardır. Yapay sinir ağlarının çok başarılı olduğu diğer bir alan ise tahminlemedir. Palaez (2006) çalışmasında, işsizliğin tahmini için ekonomik modeller ile YSA modelini karşılaştırmış ve YSA‟nı başarılı bir tahminleyici olarak bulmuştur. Dawson v.d. (2002), Çinin Yangtze nehri için yağış miktarı-akış sürecinin ölçülmesinde iki farklı YSA modeli kullanılmıştır. Yangtze nehrine ait 1991-1993 arası 6 saatlik yağış miktarı-akış verileri kullanılmış ve her iki YSA modelinin de nehrin akışını başarı ile tahmin ettiğini görmüşlerdir. Yapay sinir ağları çalışmalarının geleneksel istatistik tekniklerin kullanıldığı her alanda kendilerini göstermesi ile YSA ve istatistik tekniklerin karşılaştırıldığı çalışmalar literatürde sıkça yer almaya başlamıştır. Akbilgiç ve Keskintürk (2008), çoklu regresyon analizi ve YSA‟nı bir benzetim örneği için karşılaştırmış ve hata kareler ortalaması ve bilgi karmaşıklığı (ICOMP) kriterleri açısından YSA‟nın daha iyi bir tahminleyici olduğunu göstermiştir. Eastaugh v.d. (1997), erken doğuma bağlı riskli gebeliklerin belirlenmesinde YSA ve lojistik regresyon modellerini karşılaştırmıştır. Bu çalışmada, 17 kullanılan açıklayıcı değişkenlerin her iki modelde de başarılı tahmin yapmaya yeterli olmadıkları görülmüştür. 2.2 Biyolojik Sinir Sistemi ve ĠĢleyiĢi İnsan sinir sistemi bütün olarak düşünüldüğünde oldukça karmaşık bir yapıda olmasına rağmen, kendisini oluşturan birimler oldukça basittir. Sinir sistemini oluşturan bu basit hücrelere nöron adı verilir. Şekil 2-1‟de bir nöronun genel görünümü ve nöronu oluşturan birimler yer almaktadır. Akson Tümseği Gövde Akson Dentrit Çekirdek Akson Çıkışı ġekil 2-1 Nöron Genel Görünümü ve Nöronu OluĢturan Birimler (Fraser, 1998, s. 1) Şekil 2-1‟de genel görünümü verilen, sinir sistemini oluşturan unsurların sistem içindeki görevleri ise özetle aşağıdaki gibidir. Gövde: Nöronun orta kısmını oluşturur. Alınan sinyaller gövdede toplanır ve yine gövdede yer alan çekirdekte işlenir. 18 Dentrit: Dış çevreden nörona sinyallerin alındığı birimdir. Her bir nöronda çok sayıda dentrit bulunur. Akson: İşlenen sinyalleri dış çevreye ileten birimdir. Sinaps: Sinyal ileten aksonlarla sinyal alan dentritler arasındaki bağlantıyı sağlayan birimlerdir. Yukarıda temel elemanları ifade edilen bir nöronun işleyişi, sinapslardan geçen sinyallerin dentritlere ulaşması ile başlar. Nörona bağlı tüm dentritlerden gelen sinyaller hücre gövdesinde toplanır. Bu toplam değer bir eşik değerini aştığı zaman nöron ısınmaya başlar ve aksonlar aracılığı ile diğer nöronlara sinyal gönderir (Halıcı, 2001, s. 2-3). Biyolojik sinir sistemindeki işleyiş YSA ile modellenerek, insan gibi karar verebilen ve muhakeme yeteneği olan zeki sistemler yaratılmaya çalışılmıştır. Bu bağlamda YSA, YZ‟nin önemli kilometre taşlarından birisi olmuştur. 2.3 Yapay Sinir Ağlarının Genel Yapısı İnsan sinir sistemini taklit edecek şekilde oluşturulan bir yapay sinir ağı modeli, Şekil 2-2‟de gösterildiği gibi girdi katmanı, gizli katman (veya ara katman) ve sonuç katmanı olmak üzere üç kısımdan oluşmaktadır. Bu katmanlardan gizli katman, birden fazla katmandan oluşabilir. Her bir katman nöronlardan oluşmaktadır. Girdi ve çıktı katmanındaki nöron sayısı, bağımsız ve bağımlı değişkenlerinin sayısı ile belirlenmekte iken, gizli katmandaki katman sayısı ve her bir gizli katmanda bulunacak nöron sayıları, en iyi performansı verecek şekilde kullanıcı tarafından belirlenmektedir. 19 ġekil 2-2Bir yapay sinir ağının genel görünümü Nöronlar arasındaki bilgi akışı YSA‟nın türünü belirlemektedir. YSA‟da bilgi akışı genellikle ileriye doğrudur ve bu tür YSA “İleri Beslemeli Ağlar” olarak adlandırılır. Bu çalışmada, sadece ileri beslemeli ağlar üzerinde durulmaktadır. Bu bağlamda ileri beslemeli ağlarda yer alan her bir nöron, alıp işlediği bilgiyi kendinden sonraki katmandaki nöronlara iletir. Bu bilgi iletimi sırasında nöronlar arasındaki bağlantıların ağırlıkları oldukça önemlidir. Diğer bir ifade ile bilgiler, ileten ve iletilen nöron arasındaki ağırlık değeri ile çarpılarak iletilmektedir. 2.4 Yapay Sinir Ağlarının BileĢenleri Genel görünümü Şekil 2-2 ile verilen bir yapay sinir ağı modeli, nöron adı verilen basit birimlerin bir araya getirilmesi ile oluşturulmaktadır. Bu nöronlar her birinde farklı görevleri yerine getirmek üzere girdi katmanı, gizli katman ve çıktı katmanında gruplandırılır. Bu bağlamda bir YSA modeli, nöronlar ve bilgi akışını ve işleyişini sağlayacak şekilde o nöronları bir arada tutan bağlantılardan oluşur. 2.4.1 Katmanlar Genel bir YSA modeli, girdi katmanı, gizli katman ve çıktı katmanından oluşmaktadır. Bu katmanların her biri, bilgi işleyişini sağlayacak şekilde farklı görevlere sahip nöronlar içermektedir. Bilginin ağa ilk gösterildiği kısım olan girdi katmanı, yapay sinir ağı modelinin dış dünya ile bağlantısını sağlamaktadır. Girdi katmanında bulunacak 20 nöron sayısı, bağımsız değişken sayısı kadardır. Bununla birlikte bazı YSA modellerinde, regresyon analizindeki sabit terim görevini gören ve yan olarak adlandırılan bir nöron daha eklenmektedir. Yan nöronuna girilen bilginin sabit olarak 1 değerini aldığı varsayılmaktadır. Bununla birlikte ne yan değeri ne de bağımsız değişken değerleri, girdi katmanı nöronlarında herhangi bir işleme tabi tutulmazlar. Gizli katman, YSA‟da kara kutu olarak bilinen kısımdır. Girdi katmanından kendisine iletilen bilgi bu katmanda işlenmektedir. Gizli katman birden fazla alt katmandan oluşabilir. Gizli katmanın kaç alt katmandan oluşacağı ve her bir alt katmanda kaç nöron bulunacağı kullanıcı tarafından belirlenir. Literatürde bu sayılarla ilgili bazı öneriler bulunmakla beraber, genellikle deneme yanılma yolu ile en iyi sonucu veren sayılar bulunur. Gizli katman nöronları bilgiyi, her bir nöronda bulunan aktivasyon fonksiyonları aracılığı ile işlerler. Bu bağlamda aktivasyon fonksiyonunun seçimi, kullanıcı inisiyatifinde olan ve ağın başarısını önemli ölçüde etkileyen parametrelerden birisidir. Bazı basit YSA modellerinde girdi katmanı direk çıktı katmanına bağlanır. Ancak bu tip ağlar bağımlı ve bağımsız değişkenler arasındaki doğrusal olmayan ilişkiyi modelleyememektedir. Buradan hareketle gizli katman, YSA‟na doğrusal olmayan ilişkileri modelleme gücünü kazandıran katmandır. Biyolojik nöron yapısında aksona karşılık gelen çıktı katmanı, modelde işlenen verinin dış dünyaya iletildiği katmandır. Gizli katmandan bağlantılar ile kendisine gelen bilgi, genellikle aynen ağın çıktısı olarak dış dünyaya iletilmektedir. Özellikle gizli katman bulunmayan basit YSA modellerinde ise çıktı katmanı nöronları, gelen bilgiyi bir eşik değer fonksiyonundan geçirerek dış dünyaya iletirler. Diğer taraftan, çıktı katmanında bulunacak olan nöron sayısı verideki açıklanan değişken sayısı kadardır. 21 2.4.2 Bağlantılar Yapay sinir ağlarında katmanlar arasındaki bilgi akışı bağlantılar aracılığı ile gerçekleştirilmektedir. Her bir katman kendisine gelen bilgiyi (işleyerek ya da doğrudan) kendisinden sonraki katmana aktarır. Bu aktarma işleminin gerçekleşebilmesi için, katmanlardaki her bir nöron, bir sonraki katmanda bulunan her bir nörona bağlanır. Bu bağlantıların her birisi bir ağırlık değerine sahiptir. Böylece herhangi iki nöron arasında iletilen bilgi, bu ağırlık değeri ile çarpılarak iletilmiş olur. Bu bağlamda herhangi bir nörona gelen net bilgi, kendisine bağlı olan bir önceki katmandaki nöronların çıktılarının doğrusal bir kombinasyonudur. Yapay sinir ağlarında bağlantı sayısı, katmanlarda yer alan nöronların belirlenmesi ile kendiliğinden ortaya çıkar. Ancak her bir bağlantıya ait bağlantı ağırlık değerleri genellikle başlangıçta keyfi olarak kullanıcı tarafından belirlenmektedir. Daha sonra bu ağırlık değerleri, ağın çıktısı ile hedeflenen çıktı değerleri arasındaki farkı eniyileyecek şekilde iteratif olarak değiştirilir. YSA‟da bu ağırlık değerlerinin iteratif olarak değiştirilmesi süreci öğrenme olarak adlandırılmaktadır. 2.4.3 Aktivasyon Fonksiyonları Aktivasyon fonksiyonları YSA‟da bilginin işlenmesini sağlayan elemanlardır. Bazı basit YSA modelleri dışında sadece gizli katman nöronları için geçerlidir. Gizli katmanda yer alan her bir nörona bir aktivasyon fonksiyonu (genellikle aynı fonksiyon) karşılık getirilmektedir. Gizli katman nöronuna gelen net bilgi, aktivasyon fonksiyonlarının girdisi olarak nöron içerisinde işlenir. Aktivasyon fonksiyonun bu net girdiye karşılık ürettiği değer ise ilgili nöronun çıktısını oluşturmaktadır. Yapay sinir ağı literatüründe kullanılmış birçok aktivasyon fonksiyonu türü olmakla beraber, bunlardan bazıları Tablo 2-1 ile özetlenmektedir. Bu tabloda yer alan radyal tabanlı fonksiyonları kullanan YSA modelleri, Radyal Tabanlı Fonksiyon Ağları olarak adlandırılan ayrı bir YSA türü belirlemektedir. Tablo 2-1 kapsamında radyal 22 tabanlı fonksiyonlar bir merkez ( ) ve yarıçap ( ) parametresinin fonksiyonu olacak şekilde tanımlanmış olmakla beraber Bölüm 3‟te daha detaylı olarak ele alınmıştır. Tablo 2-1 Örnek Aktivasyon Fonksiyonları Fonksiyon Adı Kısa Adı Eşik Değer - Logaritmik Sigmoid logsig Tanjant Hiperbolik tanh Sekant Hiperbolik sech Radyal Tabanlı Fonksiyonlar RBF Formülasyonu 2.5 Yapay Sinir Ağı Modelleri ve Öğrenme Algoritmaları Yapay sinir ağlarının bir araç olarak kullanılması, kullanılacak YSA modelinin ve daha da önemlisi seçilen model için kullanılacak öğrenme algoritmasının belirlenmesini gerektirmektedir. Burada öğrenme, iteratif işlemler ile hedeflenen ve ağın ürettiği çıktı değerleri arasındaki farkın bir fonksiyonu olan hata fonksiyonunu enküçükleyecek şekilde ağ parametrelerinin değiştirilmesi işlemidir. Literatürde önerilmiş birçok öğrenme algoritması olmakla beraber bunlardan göreceli olarak önemli olanları takip eden kısımda verilmiştir. 2.5.1 Hebb Kuralı Hebb‟in, kendi adı ile anılan öğrenme kuralı, en eski ve en ünlü öğrenme kuralıdır. Hebb (1949)‟in kitabında “Eğer bir A hücresinin aksonları B hücresine, onu etkileyecek kadar yakınsa ve sürekli olarak etkilemeye devam ederse, B hücresinde, A hücresinin uyarılarının etkisi ile metabolik değişmeler meydana gelir.” ifadesi yer almaktadır. Hebb hücre seviyesindeki bu değişmeyi, etkileşimli öğrenmenin temeli olarak kabul etmiştir. Hebb Kuralının Matematiksel Modeli: Hebb öğrenmesinin formülasyonunda nöronuna gelen ve nöronundan çıkan sinyaller sırasıyla ve olmak üzere nöronlar 23 arasındaki bağlantı ağırlığı ile gösterilmektedir. Sinaptik ağırlık ‟ye ‟inci adımda uygulanan düzeltmenin genel formu (2.1) ile verilmektedir. (2.1) Burada , nörona giren ve çıkan sinyallerin bir fonksiyonudur. ‟inci iterasyonda nörona giren ve çıkan sinyaller olan ve birer gerçel sayı olarak kabul edilmektedir. (2.1) ile verilen eşitlik, Hebb türü olan birçok öğrenme formunda aynıdır. Hebb öğrenmesinin en basit formu (2.2) ile ifade edilmektedir. (2.2) Burada , pozitif bir sabit olan öğrenme oranıdır. (2.2) eşitliğinden yararlanarak ‟inci adımda ilgili ağırlık değerinin hesabı (2.3) ile verilmektedir. (2.3) 2.5.2 Perseptron Perseptron, Rosenblatt (1958) tarafından örüntü sınıflandırıcı olarak ortaya atılmış basit bir YSA modelidir. Tek katmanlı perseptron, bir girdi ve bir çıktı katmanı içerir. Perseptronda hem girdi katmanı hem de çıktı katmanı ikili (0 ve 1) birimlerden oluşmaktadır. Bununla beraber perseptronun çıktı birimlerinde aktivasyon fonksiyonu olarak eşik değer fonksiyonu kullanılmaktadır. Girdi katmanında , çıktı katmanında nöron bulunan tek katmanlı bir perseptronun genel görünümü Şekil 2-3 ile verilmektedir. 24 Girdi Katmanı +1 Çıktı Katmanı Yan Değeri ġekil 2-3 Tek katmanlı perseptron örneği Şekil 2-3‟te görüldüğü gibi tek katmanlı bir perseptron, birden fazla nörondan oluşan girdi katmanındaki her bir nöronun ve bir yan değerinin, birden fazla nörondan oluşabilen çıktı katmanındaki her bir nörona bağlanması ile elde edilmektedir. En basit hali ile iki girdi ve tek çıktılı bir perseptron modeli ise Şekil 2-4 ile verilmektedir. Şekil 2-3 ve Şekil 2-4„te gösterildiği gibi perseptronda her zaman yan değeri “1” olarak alınmaktadır. +1 ġekil 2-4 Ġki girdi ve bir çıktılı perseptron 25 Perseptron modelinde girdi katmanındaki nöronların aldığı değerler, ilgili bağlantıları ile çarpılarak net sinyal değeri hesaplanır ve bu değer çıktı katmanı nöronlarının girdisini oluşturur. Herhangi bir çıktı katmanı nöronu için sözü edilen bu net sinyal, ilgili çıktı katman nöronunun kendisine bağlı her bir girdi katman nöronlarının ilettiği sinyal değerlerinin ağırlık değerleri ile çarpımlarının toplamına yan değerin ağırlığının eklenmesi ile elde edilir. Çıktı katmanı nöronlarının dış dünyaya ilettiği bilgi ise her bir çıktı nöronuna gelen net sinyale karşılık eşik değer fonksiyonunun verdiği sonuçtur. Buna göre ‟inci çıktı katmanı nöronunun girdisi ve bu girdiye karşılık gelen çıktısı sırasıyla (2.4) ve (2.5) ile verilmektedir. (2.4) (2.5) (2.4) ve (2.5)‟te yer alan , ‟inci girdi katmanı nöronunun değerini, çıktı katman nöronunun net girdisini, arasındaki bağlantı ağırlığını, ağırlığını ve , ‟inci , ‟inci girdi nöronu ile ‟inci çıktı nöronu , eşik değer ile ‟inci çıktı nöronu arasındaki bağlantı ise ‟inci çıktı nöronunun ürettiği çıktıyı ifade etmektedir. Çıktı katmanı nöronlarının kullandığı aktivasyon fonksiyonu ise ile gösterilmiştir ve (2.6) ile tanımlanmaktadır. (2.6) (2.6) ile verilen formülden anlaşılacağı gibi tek katmanlı perseptron, “-1” ya da “+1” sonuçlarını üretmektedir. Bu hali ile perseptron, verilen örüntüleri iki kümeye ayırma problemlerinde kullanılabilir. İki kümenin ayrılma sınırını ise (2.6) ile verilen eşik değer fonksiyonundan da anlaşılacağı gibi değeri belirler. Perseptronda çıktı nöronları doğrusal aktivasyon fonksiyonu kullandığı için girdi değerleri bir hiper-düzlem ile iki bölgeye ayrılır. Girdileri iki sınıfa ayıran bu hiper-düzleme “Karar Yüzeyi” adı verilir ve (2.7) ile formüle edilir. 26 (2.7) Perseptron Öğrenme Kuralı, bağlantı ağırlıklarının değiştirilerek ağın öğretilmesi esasına dayanan iteratif bir yöntemdir. Temel olarak, eğitim veri kümesinin ağa gösterilmesi ve hata miktarının daha önceden belirlenmiş olan bir tolerans değerini aşması durumunda her bir ağırlık değerinin bir düzeltme terimi eklenerek güncellenmesi işlemlerinden ibarettir. Herhangi bir ‟inci adımda, girdi ile çıktı katmanı nöronları arasındaki bağlantılar ve yan değeri ile çıktı katmanı nöronları arasındaki bağlantıların düzeltilmiş değerleri sırasıyla (2.8) ve (2.9) ile hesaplanmaktadır. (2.8) (2.9) (2.8) ve (2.9) formülleri ile öğrenme, örüntüleri daha doğru sınıflandıracak şekilde ve düzeltme değerlerinin hesaplanması problemine indirgenmektedir. Perseptron öğrenmesi ile en uygun çözümün diğer bir ifade ile en iyi karar düzleminin kesinlikle bulunabileceği, Rosenblatt (1958) tarafından ispatlanan Perseptron Yakınsaklık Teoremi ile gösterilmiştir. Perseptron Yakınsaklık Teoremi: Eğitim kümesini oluşturan girdi vektörlerinin kümesi ve hedeflenen çıktı vektörlerinin kümesi olmak üzere, eğer ve kümeleri sonlu ve doğrusal ayrıştırılabilirse Perseptron Öğrenme Algoritması ile başlangıç ağırlıkları ne olursa olsun, sonlu sayıda iterasyon ile ayıracak ve ‟yi iki kümeye ağırlıkları bulunabilir (Rojas, 1996, s. 85). Yukarıdaki teoremden de anlaşılacağı üzere perseptron, yalnızca doğrusal ayrıştırılabilir problemlerin çözümünü garanti etmektedir. Diğer bir ifade ile bir sınıflandırma probleminin perseptron ile çözülebilmesi, her bir çıktı birimi için girdileri iki ayrık bölgeye ayırabilecek bir hiper-düzlemin bulunmasını gerektirmektedir. Ancak gerçek hayatta karşılaşılan birçok problem doğrusal ayrıştırılabilir değildir. Şekil 2-5 iki girdi ve bir çıktı değerine sahip mantıksal fonksiyonlar olan AND, OR ve XOR 27 problemlerinin geometrik gösterimini vermektedir. Belirtilen mantık problemleri için girdi ve çıktı değerleri ise Tablo 2-2 ile verilmektedir. Tablo 2-2 AND, OR ve XOR problemlerinin girdi ve çıktı değerleri Girdi Değerleri X1 X2 Çıktı Değerleri AND OR XOR 0 0 0 0 1 1 0 0 1 0 0 1 0 1 0 1 1 1 1 1 Şekil 2-5‟ten anlaşılacağı gibi AND ve OR problemleri doğrusal ayrılabilirdir. Ancak XOR problemini doğrusal olarak ayırabilecek hiç bir hiper-düzlem yoktur. OR 1 0 XOR AND 1 1 1 0 0 1 =0 1 =1 ġekil 2-5 AND, OR ve XOR problemleri için karar düzlemleri (Nascimento, 1994) Perseptrondaki doğrusal ayrıştırılabilirlik kısıtının üstesinden gelebilmenin yolu, tek katmanlı perseptrondaki girdi ve çıktı katmanı arasına ayrı bir katman (gizli katman) eklenmesi ile elde edilen çok katmanlı perseptron kullanmaktır (Gibson, Siu, & Cowan, 1989, s. 1184). Böylece birçok hiper-düzlemin bir araya getirilmesi ile yeni bir karar yüzeyi tanımlanır. Perseptronlarla ilgili Minsky ve Papert (1969) tarafından yayımlanan kitapla beraber YSA üzerinde yoğunlaşmış olan ilgi, diğer YZ alanlarına doğru 28 yönelmiştir. Minsky ve Papert (1969) kitaplarında, perseptron ile ilgili ortaya koyulan bu eksikliğe rağmen perseptronun önemini vurgulamış ve ileride ortaya atılacak bazı yakınsaklık teoremleri ile perseptronun doğrusal olmayan ayrıştırıcı özelliğine kavuşacağını belirtmişlerdir (Minksy & Papert, 1969). Perseptron Öğrenme Algoritması: Girdi vektörü ve hedeflenen çıktı vektörü ‟den oluşan eğitim kümesi için perseptron öğrenme algoritması üç temel adımda özetlenebilir. Adım 1: Eğitim kümesinden daha önce gösterilmemiş bir örnek ağa gösterilir. Adım 2: Ağın çıktısı hesaplanır ve hedeflenen çıktı değeri ile karşılaştırılır. Adım 3: Kendi içinde üç aşamadan oluşan bu adıma göre; a) Eğer ise ve eğitim kümesinde ağa gösterilmemiş örnek varsa Adım 1‟e dönülür. b) Eğer ise ve eğitim kümesinden ağa gösterilmemiş örnek kalmadıysa ağın eğitimi bitirilir. c) Eğe ise ağın ağırlıkları düzeltme terimleri eklenerek güncellenir. Perseptron öğrenme sürecinin Hebb kuralından tek farkı, ağ doğru çıktı ürettiğinde bağlantılarda herhangi bir değişiklik yapılmamasıdır. Ayrıca yan değerin çıktı katmanına bağlayan bağlantının ağırlık değeri w0 ile gösterilir ve yukarıda tanımlanan perseptron öğrenme algoritmasına göre (2.10) formülü ile güncellenir. (2.10) 29 2.5.3 Delta Kuralı Hata düzelterek öğrenme süreçlerinden birisi olan Delta Kuralı, Widrow ve Hoff (1960) tarafından ADALINE1 nöronları için geliştirilmiş iteratif bir öğrenme algoritmasıdır. Hata düzelterek öğrenme süreci olarak değerlendirilir. Buna göre, öncelikle girdiler oluşturulan ağı takip ederek çıktı katmanına ulaşır. Sonra ağa gösterilen eğitim girdi verisi için ağın çıktısı hesaplanır. Daha sonra hesaplanan bu değer ile hedeflenen çıktı değeri (bağımlı değişken değeri) karşılaştırılır ve bu karşılaştırma değeri (hata fonksiyonu) hesaplanır. Eğer hesaplanan ve hedeflenen çıktı değeri arasında fark kabul edilebilir düzeyde ise veya fark yoksa ağda herhangi bir değişiklik yapılmaz. Bununla birlikte bu farkın önceden belirlenmiş tolerans değerini aşması halinde, ağın bazı bağlantılarında değişiklik yapılması gerekir. Bu değişikliklerin yapılmasında En Dik Azalış Yöntemi (Steepest Descent Method) kullanılır. Ağın ağırlıkları ve hata fonksiyonu değerleri ve hata fonksiyonu değeri sırasıyla olmak üzere t‟inci iterasyonda ağırlık ‟inci iterasyonda ağırlıkların yeni değeri ile ile gösterilir. Bu tanıma göre ve için hata fonksiyonun değeri arasında (2.13) ile verilen ilişki vardır. (2.13) Hata düzelterek öğrenme süreci, ağırlıklarının her bir iterasyonda en dik azalış doğrultusunda (türevin ters yönü) sıfırdan büyük bir sabit sayı olan öğrenme katsayısı ile orantılı olarak değiştirilmesi esasına dayanmaktadır. (2.14) 1 ADALINE (ADAptive LINear Element): Bernard Widrow ve Tedd Hoff tarafından 1960 yılında geliştirilen, bir yan ve bu yan değerine bağlı ağırlık fonksiyonu ile toplam işlemcisinden oluşan basit bir YSA modelidir. 30 (2.14) ile verilen eşitsizlikte yer alan değeri, olarak belirlenir. Öğrenme oranının yeterince küçük seçilmesi durumunda, en dik azalış yönteminde her iterasyon, bir öncekinden daha küçük hata değeri verecektir. Delta kuralına göre çıktı birimlerine ait aktivasyon fonksiyonunun, özdeşlik fonksiyonu1 olduğu varsayılır. Dolayısıyla ağın ürettiği çıktı değerleri ile hedef değerler arasındaki farkların kareleri toplamı enküçüklenir (Fausett, 1993). Şekil 2-6 ile gösterilen ve girdi katmanında , çıktı katmanında nöron bulunan tek katmanlı bir yapay sinir ağı ele alındığında, girdi vektörü ‟e karşılık ağın ürettiği çıktı vektörü olmak üzere ‟inci çıktı nöronuna karşılık gelen değer (2.15)‟deki gibi hesaplanır. (2.15) gözlemden oluşan eğitim kümesi, üzere, eğitim kümesinin herhangi bir ‟inci elemanı için olmak girdi ve çıktı değerleri vektörü sırasıyla (2.16) ve (2.17)‟deki gibi gösterilir. (2.16) (2.17) 1 Özdeşlik Fonksiyonu (Identity Function): şeklinde tanımlanan özel bir fonksiyon tipidir. 31 ġekil 2-6 m girdi ve n çıktılı tek katmanlı bir yapay sinir ağı (Fuller 2000, 174) Delta öğrenme algoritmasının temel prensibi, tüm ağın performansının ölçüsü olan bir hata fonksiyonu tanımlamak ve ağın performansını eniyilemektir. Tek katmanlı bir yapay sinir ağı için ağın performansı (2.18)‟deki fonksiyonu ile tanımlanır. (2.18) (2.18)‟de , ‟inci çıktı nöronu için hedeflenen değer, ile ağın çıktısı ifade edilmektedir. Delta öğrenme kuralında çıktı katmanı nöronlarındaki aktivasyon fonksiyonunun türevlenebilir olması durumunda, ağırlıklarda yapılacak olan türevin tersi yönünde belirli orandaki değişiklikler yardımıyla eniyileme sağlanır. eğitim veri kümesi için, ağırlıkların değiştirilme kuralı en dik azalış yöntemine göre (2.19)‟daki gibidir. (2.19) (2.19)‟da yer alan hata fonksiyonu ‟nin kısmi türevi zincir kuralının kullanılmasıyla, (2.20) şeklinde yazılabilir. (2.20)‟nin (2.19)‟da yerine yazılmasıyla, wij ağırlığının öğrenme algoritmasında her iterasyonda alacağı yeni değer (2.21) ile hesaplanır. 32 (2.21) Öğrenme algoritmasına adını veren ve delta olarak adlandırılan hata sinyali, ‟inci çıktı nöronu için (2.22)‟deki gibi hesaplanır. (2.22) Doğrusal çıktı birimleri için , ‟inci çıktı değeri ile hedeflenen değer arasındaki farka eşittir. Buradan hareketle, ‟inci çıktı nöronunun ağırlık matrisi , hedef vektörünün ‟inci koordinatı elemanı ve öğrenme oranı , sistemin girdisi , ağdan hesaplanan çıktı vektörünün ‟inci ile ifade edilmek üzere delta öğrenme kuralı (2.23) ve (2.24) ile ifade edilir. (2.23) (2.24) Bu tip ağların temel özelliği, benzer örüntüleri benzer çıktılara karşılık getirebilmeleridir. Bu özelliği sayesinde ağ, eğitim kümesi verilerinin kullanılmasıyla genellemeler yaparak daha önce görmediği örüntülere uygun sonuçlar üretebilir. Standart delta öğrenme kuralında doğrusal bir aktivasyon fonksiyonu kullanılır. Hata fonksiyonu, hata kareler toplamıdır ve bu fonksiyon en dik azalış yöntemi ile eniyilenir. Buraya kadar ifade edilenlere göre delta öğrenme algoritması aşağıdaki gibi 7 adımda özetlenebilir (Fuller, 2000, pp. 176-177): Adım 1: Öğrenme oranı ve en büyük hata tolerans değeri belirlenir. Adım 2: belirlenir, ağırlıklarının başlangıç değerleri rastgele küçük sayılar olarak ve olarak seçilir. 33 Adım 3: Öğrenme bu adımda başlar. karşılık girdisi ağa gösterilir ve bu girdiye çıktısı (2.25) yardımıyla hesaplanır. (2.25) Adım 4: Ağırlık değerleri (2.26)‟da verilen formüle göre güncellenir. (2.26) Adım 5: Hata fonksiyonunun değeri (2.27)‟deki formül ile hesaplanır. (2.27) Adım 6: Eğer olarak seçilir ve eğitime devam etmek üzere ise Adım 3‟e, değilse Adım 7‟ye gidilir. Adım 7: Eğitim döngüsü bu aşamada tamamlanır. verilir, ise ise eğitime son olarak seçilir ve yeni bir eğitim döngüsü için Adım 3‟e gidilir. 2.5.4 Sezgisel Optimizasyon Algoritmaları ile Öğrenme Buraya kadar değinilmiş olan öğrenme algoritmaları analitik çözümlere dayanmaktadır. Ancak bazı durumlarda bu yöntemler yerel çözümlere takılmakta veya en iyi çözüme yakınsamakta yetersiz kalabilmektedir. Bu sorunlar bazen veri yapısından, bazen de ağırlıkların başlangıç değerlerinin iyi belirlenmemiş olmasından kaynaklanabilir. Bu tip durumlarda sezgisel optimizasyon algoritmaları sıklıkla başvurulan yöntemlerdir. Genetik Algoritma, Parçacık Sürü Optimizasyonu, Karınca Kolonisi Algoritması, Tabu Araması v.b. sezgisel yöntemler kullanılarak öğrenmenin sağlandığı çalışma sayısı oldukça fazladır. 2.6 Yapay Sinir Ağlarının Avantajları ve Dezavantajları Yapay sinir ağları geleneksel istatistik tekniklerin kullanıldığı hemen her alanda alternatif bir yöntem olarak ortaya çıkmaktadır. Literatürde YSA‟nın istatistik 34 tekniklerle karşılaştırıldığı birçok çalışma bulunmaktadır. YSA‟nın parametrik istatistik yöntemlere göre en önemli avantajı, daha az varsayıma sahip olmasıdır. Diğer bir ifade ile YSA‟da bağımlı ve bağımsız değişkenler arasındaki ilişkinin yapısı ile ilgili herhangi bir varsayım bulunmamaktadır. Bununla birlikte birçok istatistik yöntemde yer alan, değişkenlerin belirli dağılımlara sahip olması ve süreklilik varsayımları YSA için geçerli değildir. Bu özellikleri ile YSA, gerçek hayat problemlerine uygulanabilirlik açısından istatistik yöntemlere göre daha elverişlidir. YSA, aktivasyon fonksiyonlarının seçimine bağlı olarak istatistik yöntemlerle analizi mümkün olmayan çok yüksek dereceden doğrusal olmayan ilişkileri bile yakalama gücüne sahiptir (Cganh, Liang, & Chen, 2001, s. 530). Yapay sinir ağları bir anlamda parametrik olmayan bir istatistik yöntem olarak düşünülebilir (Comrie, 1997, s. 655). YSA‟ya yöneltilen en büyük eleştiri bu noktada ortaya çıkmaktadır. YSA ile oldukça başarılı tahmin ve sınıflandırma yapılabilmekle birlikte, elde edilen nihai modele ait katsayı değerleri yorumlanamaz. Ayrıca hangi bağımsız değişkeninin bağımlı değişkenler üzerinde etkili olduğuna ilişkin bilgi de elde edilemez. Bu bağlamda YSA, politika belirlemede kullanılamaz. Buraya kadar ifade edilen dezavantajların yanı sıra, YSA‟da kullanıcıya bağlı olarak değiştirilebilir parametre çok fazladır. Ağırlıkların başlangıç değerlerinin, aktivasyon fonksiyonunun tipinin, gizli katmanda bulunacak alt katman sayısının ve bu alt katmanlarda bulunacak nöron sayılarının belirlenmesi keyfi olarak yapılmakta ve en iyi ağ yapısı deneme yanılma yolu ile belirlenmektedir. Ayrıca kullanılacak öğrenme algoritmasının belirlenmesi de ağın başarısı üzerinde oldukça etkilidir ve literatürde her zaman diğerlerinden daha iyi olduğu ispat edilmiş bir öğrenme algoritması bulunmamaktadır. Yukarıda ifade edilen dezavantajların dolaylı olarak ortaya çıkardığı bir başka olumsuz yön ise YSA‟da işlem yükünün çok fazla olmasıdır. Öğrenme algoritmalarının genellikle iterasyona dayalı olması, uzayan işlem sürelerinin kısaltılabilmesi için 35 belirlenen durdurma kriterlerinin fazla esnek olmamasına, bu da elde edilebilecek daha iyi çözümlerin göz ardı edilmesine neden olabilmektedir. 2.7 Radyal Tabanlı Fonksiyon Ağları Radyal Tabanlı Fonksiyon Ağları (RTFA), çok katmanlı ileri beslemeli YSA‟nın özel bir halidir ve iki karakteristik özelliği vardır. Bunlardan birincisi, tek gizli katman bulundurması, ikincisi ise gizli katman nöronlarında aktivasyon fonksiyonu olarak radyal tabanlı fonksiyonların kullanılmasıdır. Radyal tabanlı fonksiyon ağlarının diğer bir önemli özelliği ise girdi nöronlarından gizli katman nöronlarına bilginin değiştirilmeden aktarılmasıdır. Diğer bir ifade ile girdi katmanı ile gizli katman arasındaki tüm bağlantı ağırlıklarının “1” olduğu söylenebilir. Bu çalışmada Radyal Tabanlı Fonksiyon Ağları ele alınmıştır. Daha önce ifade edilen YSA‟nın dezavantajlarından bazılarının üstesinden gelecek şekilde yeni bir hibrit model geliştirilmiştir. Bu bağlamda, radyal tabanlı fonksiyon ağları için mevcut olan merkez ve yarıçap parametrelerinin belirlenmesi sorunu ve gizli katman ile çıktı katmanı arasındaki ağırlık parametrelerinin öğrenilmesi sırasında ortaya çıkan tasarım matrisinin tekilliği sorunu uygun istatistik yöntemlerin ağa entegre edilmesi ile çözülmektedir. RTFA‟nın dezavantajlarının bazılarının giderilmesine yönelik bu eklentilerin yanında, oluşturulan model değişken seçimi yapacak şekilde tasarlanmıştır. Bu sayede RTFA‟nın avantajları da bir ölçüde arttırılmış olmaktadır. Yukarıda bahsedilen ve Hibrit RTFA olarak adlandırılan model, daha ayrıntılı olarak Bölüm 3‟te açıklanmıştır. 36 BÖLÜM 3 HĠBRĠT RADYAL TABANLI FONKSĠYON AĞLARI Çalışmanın bu kısmında YSA‟nın özel bir türü olan Radyal Tabanlı Fonksiyon Ağları (RTFA) ele alınmaktadır. RTFA‟nın genel yapısı, işleyişi ve öğrenme kuralları incelendikten sonra RTFA ile ilgili mevcut problemler ortaya konularak bu problemlere önerilen çözümler irdelenmektedir. Bu bağlamda RTFA çerçeve kabul edilerek uygun istatistik teknikler bu çerçeveye yerleştirilmiş ve oluşturulan Hibrit RTFA modeli hem değişken seçimi hem de tahminleme problemlerine çözüm getirecek şekilde oluşturulmuştur. 3.1 Radyal Tabanlı Fonksiyon Ağları Moody ve Darken (1989) tarafından popüler hale getirilen RTFA, danışmanlı öğrenme kapsamında değerlendirilen ileri beslemeli bir YSA modelidir. Ağ mimarisinin basitliği nedeniyle çok katmanlı YSA modellerine göre birçok avantajı vardır. Bu avantajlardan başlıcası, diğer geri yayılım algoritmalarına göre daha hızlı eğitilebilmeleri olarak ifade edilebilir. RTFA‟yı diğer YSA‟ndan ayıran en önemli özellik, gizli katman aktivasyon fonksiyonlarının sigmoid ve S-türü fonksiyonlar yerine, çekirdek fonksiyon olarak da adlandırılan Radyal Tabanlı Fonksiyonlar (RTF) kullanılmasıdır. Bu özelliği ile RTFA, farklı bölgelerinde farklı davranışlar gösteren girdi uzayları üzerinde çalışılırken etkin bir araç olarak öne çıkmaktadır. 37 ġekil 3-1 Ġki kategorili sınıflandırma problemi Şekil 3-1‟de iki kategorili çıktısı olan tipik bir sınıflandırma problemi görülmektedir. RTFA yerel bilgi işleme kapasitesi sayesinde, sözü edilen probleme kolayca çözüm getirecek şekilde uyarlanabilmektedir. Şekil 3-1 ile tanımlanan problemin çözümü için, merkezi kesikli çemberin ortasında yer alacak şekilde belirlenmiş tek bir radyal tabanlı fonksiyon kullanmak yeterli olacaktır. Şekil 3-1 ile basit bir örneği verilmiş olmakla beraber, RTFA çok karmaşık yapıdaki, diğer bir ifade ile yüksek dereceden doğrusal olmayan yapıdaki örüntüleri bile sınıflandırabilecek şekilde yapılandırılabilir. RTFA‟nın bu özelliğinin temeli Cover‟ın örüntülerin ayrılabirliği üzerine ortaya attığı teoreme dayanmaktadır (Haykin, 1999, s. 257). Cover Teoremi: Karmaşık yapıdaki örüntü sınıflandırma problemleri, doğrusal olmayan dönüşümlerle yüksek boyutlu uzaya taşındıklarında, düşük boyutlu uzaylarda yapılan çözümlere göre daha yüksek doğrusal ayrıştırılabirliğe sahiptir (Cover, 1965, s. 15). Cover Teoremine uygun olarak RTFA, doğrusal olmayan dönüşümler yardımı ile girdi uzayının içerdiği karmaşık yapıdaki örüntülerin doğrusal ayrıştırılabilir hale 38 getirilmesi ve daha sonra doğrusal modeller yardımı ile problemin çözülmesi esasına dayanmaktadır. Bu yapı içerisinde RTF‟nin görevi, girdi uzayını doğrusal olmayan dönüşümlerle yüksek boyutlu uzaya dönüştürülmesidir. Ağırlık parametreleri ise doğrusal ayırma yüzeyine karşılık gelmektedir. Cover teoreminin iddiası, Şekil 3-2 ile örneklenmiştir. A Doğrusal Olmayan Dönüşüm B D E C ġekil 3-2 Boyut yükseltme yolu ile doğrusal ayrıĢtırılabilirlik Şekil 3-2‟de yer alan soldaki grafik, iki boyutta doğrusal ayrıştırılabilir olmayan iki kategorili bir sınıflandırma probleme aittir. Uygulanan doğrusal olmayan dönüşüm ile problem, sağdaki grafikte görüldüğü gibi boyutu arttırılarak üç boyutlu uzaya taşınmıştır. E düzleminin, siyah ve gri renkle gösterilmiş olan iki kategorili sınıflandırma problemini doğrusal olarak ayrıştırabildiği görülmektedir. Sonuç olarak iki boyutta çözümü doğrusal ayrıştırılabilirlik açısından imkansız olan problem, üç boyuta taşınarak daha yüksek boyutta çözülebilir hale gelmiştir. 3.2 Radyal Tabanlı Fonksiyon Ağlarının Yapısı Radyal tabanlı fonksiyon ağları ileri beslemeli çok katmanlı YSA‟nın özel bir halidir. RTFA tek gizli katmandan oluşan ve bu gizli katman nöronlarında RTF kullanılan bir yapıdadır. Buna göre bir RTFA‟nın genel görünümü Şekil 3-3 ile verilmektedir. 39 Girdiler Nöronlar Çıktılar ġekil 3-3 RTFA Mimarisi Radyal tabanlı fonksiyon ağlarında girdi katmanı sadece modele dış dünyadan veri alınmasını sağlar. Bu bağlamda girdi, hiç bir şekilde işlenmeden doğrudan girdi katmanı aracılığı ile gizli katman nöronlarına iletilir. Diğer bir ifade ile girdi katmanını gizli katmana bağlayan tüm ağırlık değerlerinin “1” olduğu ve çözüm süresince değişmediği varsayılır. Bu özelliği ile öğrenme aşamasında değeri değiştirilecek parametre sayısında önemli bir azalma gerçekleşir ve dolayısıyla öğrenme hızlanır. Herhangi bir tahmin modeli için, kullanıcı tarafından keyfi denemelerle belirlenen, deneme yanılma yolu ile iyileştirilebilen parametrelerinin az oluşu, ilgili modelin kullanışlılığı açısından olumlu bir işarettir. Bu bakımdan RTFA‟nın çok katmanlı YSA‟ya göre daha kullanışlı olduğu söylenebilir. Bunun nedeni, eldeki problemin çözümüne uygun RTFA‟nın oluşturulması aşamasında ağ mimarisine ilişkin verilecek tek kararın, gizli katmanda bulunacak nöron sayısının belirlenmesi olmasıdır. En iyi modelde bulunması gereken gizli katman nöron sayısı, problemden probleme ve hatta aynı problem için elde edilmiş farklı veri kümelerine göre bile değişebilmektedir. Bu 40 nedenle en iyi model için gizli katman nöron sayısı genellikle farklı alternatiflerin denenmesi yoluyla bulunur. Girdi katmanından gelen bilgi gizli katmanda RTF‟ler aracılığıyla işlendikten sonra ilgili ağırlık değerleri ile çarpılarak çıktı katmanına iletilir. RTFA‟da bilgi akışına ilişkin ifade edilenlere göre, gizli katmanda bulunan nöron sayısı ‟inci nörona atanmış RTF fonksiyon ağının ve herhangi bir ile gösterilmek üzere, tek çıktılı bir radyal tabanlı girdisine karşılık ürettiği değer, doğrusal bir model oluşturacak şekilde (3.1) ile ifade edilmektedir. (3.1) ağın çıktısını, nöronlarının çıktılarını ve ağın girdisini, gizli katman parametreleri ise gizli katmanı çıktı katmanına bağlayan ağırlık parametrelerini göstermektedir. (3.1) eşitliğinde matris notasyonunun kullanılmasıyla tek çıktılı RTFA modelinin çıktısı, (3.2) ile verilen tipik bir doğrusal modele dönüşür. (3.2) (3.2)‟de eğitim veri kümesi için gözlem sayısı olmak üzere ( , ( ve gizli katman nöron sayısı boyutlu bağımlı değişkenin tahmin değerleri vektörünü; boyutlu ağırlıklar vektörünü ve , açık hali (3.3) ile verilen ( , boyutlu tasarım matrisini göstermektedir. (3.3) (3.2)‟den anlaşılacağı gibi, RTFA‟nın başarısındaki en önemli etken, aktivasyon fonksiyonu olarak uygun radyal tabanlı fonksiyonun seçilmesidir. Sözü edilen RTF‟nin başlıcaları devam eden kısımda ayrıca incelenmiştir. 41 Uygun radyal tabanlı fonksiyonun seçimi kadar, sayısının belirlenmesi de ağ mimarisinin oluşturulmasında önemli rol oynamaktadır. En iyi radyal tabanlı fonksiyon sayısının seçilmesine ilişkin en basit yol, bu sayının rastgele olarak belirlenmesidir. Bu şekilde yapılan seçimde birçok farklı sayı için denemeler yapılarak içlerinden en iyi performansı gösteren belirlenir. Ancak bu yöntem hiç bir zaman en iyi alternatifin bulunmasını garanti etmemektedir. İlerleyen kısımlarda değinilecek bazı öğrenme yöntemlerinde ise kullanılacak radyal tabanlı fonksiyon sayısı kendiliğinden ortaya çıkmaktadır. 3.3 Radyal Tabanlı Fonksiyonlar Radyal tabanlı fonksiyon ağlarına adını vererek yeni bir YSA sınıfının oluşmasına yol açan RTF, girdi veri kümesinin özel olarak belirli bir bölgesine düşen değerler için en büyük (ya da en küçük) değerini alan ve bu noktadan uzaklaştıkça daha küçük (ya da daha büyük) değerler üreten fonksiyonlardır. Bu özelliği ile RTF bölgesel işlemciler olarak kabul edilmektedir. Herhangi bir radyal tabanlı fonksiyon, merkez ( ) ve yarıçap ( ) olmak üzere iki parametre ile belirlenir. Bu parametrelerden , fonksiyonun en büyük ya da en küçük değerini aldığı noktayı gösterirken , bu noktaya olan uzaklıkları ölçeklendiren parametredir. Buradan hareketle, belirli bir değerinden uzaklığın değerine oranının fonksiyonu olacak şekilde RTF (3.4)‟teki gibi ifade edilir. (3.4) Literatürde yer almış birçok radyal tabanlı fonksiyon olmakla beraber bunlardan başlıcaları Gauss, Cauchy, Çoklu-Kuadratik ve Ters Çoklu-Kuadratik fonksiyonlardır. Bu radyal tabanlı fonksiyonların formülasyonları sırasıyla (3.5)-(3.8) ile verilmektedir. Gauss RTF (3.5) 42 Cauchy RTF (3.6) Çoklu Kuadratik RTF (3.7) Ters Çoklu Kuadratik RTF (3.8) Formülasyonları verilen radyal tabanlı fonksiyonların iki boyutta görünümleri Şekil 3-4 ile verilmektedir. Şekil 3-4‟ten anlaşılacağı gibi Gauss ve Çoklu-Kuadratik fonksiyonlar merkez değere yaklaştıkça en büyük değerlerine yaklaşırken, Cauchy ve Ters Çoklu-Kuadratik türü fonksiyonlarda en küçük değer, merkez noktasında alınır ve merkezden uzaklaştıkça fonksiyon daha büyük değerler alır. ġekil 3-4 Radyal Tabanlı Fonksiyonlar (c=0.5 ve r=0.2) 43 Radyal tabanlı fonksiyonlar merkez parametresi ile belirlenen belirli noktalarda en büyük ya da en küçük değerlerini aldıkları için girdi uzayının farklı bölgelerindeki farklı davranışları modelleyebilirler. Gizli katmanda bulunan nöron sayısı, girdi-çıktı arasındaki ilişkinin o sayı kadar farklı modellerle sonuca yansıtılmasını sağlar. h1 h2 hp ġekil 3-5 Ġki girdili bir RTFA mimarisinde RTF'lerin görünümü Şekil 3-5‟te iki girdili bir RTFA için, radyal tabanlı fonksiyonların girdi uzayındaki dağılımları gösterilmektedir. İç içe geçmiş her bir halkalar grubu bir radyal tabanlı fonksiyona karşılık gelirken, bu iç içe geçmiş halkalar ilgili radyal tabanlı fonksiyonun merkezden gittikçe uzaklaşan girdilere karşılık aldıkları değerdeki değişimi ifade etmektedir. Radyal tabanlı fonksiyon ağı mimarisinde kaç gizli katman nöronu bulunacağı dolayısıyla, kaç tane radyal tabanlı fonksiyon kullanılması gerektiğinin belirlenmesi önemli bir sorundur. Gizli katman sayısı yeterince arttırılarak eğitim veri kümesindeki tüm noktalardan geçen bir model oluşturmak mümkündür. Ancak radyal tabanlı fonksiyonların sayısının, diğer bir ifade ile matrisinin boyutunun arttırılması, birçok 44 hazır paket programın bile altından kalkamayacağı matris tersi alma işlemlerini gerektirecektir. Bununla beraber iyi öğrenmiş bir ağdan beklenen eğitim girdisini sıfır hata verecek şekilde tahminlemesi değil, girdi ile çıktı arasında yatan gerçek ilişkiyi modellemesidir. Eğitim veri kümesini sıfır hata ile öğrenmiş bir model, çıktı değerlerinin doğasında bulunan tesadüfi veya sistematik hatayı da modele katmış demektir. Bu şekildeki model, eğitim kümesinde yer almayan daha önce görmediği girdilerle karşılaştığında hedeflenen çıktı değerinden uzak sonuçlar üretir. Diğer taraftan gereğinden az sayıda radyal tabanlı fonksiyon kullanılması, girdi ile çıktı arasındaki ilişkiyi yakalamakta yetersiz bir model oluşturulmasına yol açacaktır. Bu bağlamda gizli katman nöron sayısı, RTF ağlarının mimarisinde karar verilmesi gereken en önemli parametrelerden birisidir. E1 E2 E3 E1: Aşırı Uyum (Ezberleme) E2: Gerçek Gözlem Değerleri E3: Yetersiz Öğrenme ġekil 3-6 AĢırı Uyum ve Yetersiz Öğrenme Örneği Şekil 3-6 aşırı ve yetersiz öğrenmiş bir RTFA modeli için eğitim veri kümesi için ağ çıktılarının seyrini göstermektedir. Buna göre aşırı uyum durumunda (E1) siyah noktalarla gösterilmiş olan eğitim veri kümesi noktaları tam olarak yakalanmış olmakla beraber, serinin gerçek seyri modellenememiştir. Diğer taraftan yetersiz öğrenme 45 durumunda (E3) ise ne eğitim kümesindeki noktalar ne de serinin gerçek seyri yakalanabilmiştir. 3.4 Radyal Tabanlı Fonksiyon Ağlarında Öğrenme Radyal tabanlı fonksiyon ağlarında öğrenme, danışmanlı1 ve danışmansız2 öğrenmenin karışımı olacak şekilde iki aşamada gerçekleştirilmektedir. Danışmansız öğrenme kapsamındaki ilk aşama, gizli katman nöronlarında yer alan radyal tabanlı fonksiyonların merkez ve yarıçap parametrelerinin belirlenmesi aşamasıdır. Bir doğrusal regresyon problemi gibi çözülebilen ve danışmanlı öğrenme kapsamında değerlendirilen ikinci aşama ise gizli katmanı çıktı katmanına bağlayan bağlantı ağırlıklarının belirlenmesi sürecidir. Her iki öğrenme aşaması için de önerilmiş birçok yöntem olmakla beraber bunlardan önce çıkanlar takip eden kısımda özetlenmektedir. 3.4.1 Radyal Tabanlı Fonksiyonların c ve r Parametrelerinin Belirlenmesi Radyal tabanlı fonksiyonların merkez ve yarıçap parametrelerinin belirlendiği bu aşamanın genellikle danışmansız öğrenme kapsamında değerlendirilmesinin nedeni, bu aşamada önerilen yöntemlerde genellikle gözlenen çıktı değerlerinin kullanılmamasıdır. Bu aşamada girdi uzayı, çıktı değerlerinden bağımsız olarak birbirine benzeyen girdi değerlerinin kümelendiği bölgelerin ve bu bölgelerin genişliklerinin belirlenmesi sürecidir. Bu aşamada kullanılan matematiksel, istatistik ve sezgisel yöntemlerden bazıları çalışma kapsamında açıklanmıştır. 1 Danışmanlı Öğrenme (Supervised Learning): Gözlenen bağımlı değişken değerlerinin var olduğu durumda kullanılan öğrenme türüdür. Tahminleme ve sınıflandırma problemleri danışmanlı öğrenme kapsamında çözülür. 2 Danışmansız Öğrenme (Unsupervised Learning): Bağımlı değişken değerlerinin olmadığı veya bilinmediği durumlarda kullanılan öğrenme türüdür. Kümeleme ve eniyileme problemleri danışmansız öğrenme kapsamında değerlendirilir. 46 Rastgele Olarak SeçilmiĢ Sabit Merkezler: Bu yönteme göre girdi uzayından rastgele noktalar belirlenir ve bu noktaların her biri, bir radyal tabanlı fonksiyona karşılık gelen merkez parametreleri olarak sabitlenir. Bu sabit merkez parametrelerinin değeri öğrenme süresince değiştirilmez. Bu yöntemde yarıçap parametreleri de sezgisel olarak belirlenebileceği gibi (3.9)‟da verilen formülasyona göre de belirlenebilir. (3.9) Yukarıdaki formülasyonda herhangi iki merkez arasındaki en büyük uzaklığı, ise gizli katman nöron sayısını göstermektedir. Tek başına kullanıldığında probleme etkin çözümler getiremeyen bu yöntem, diğer birçok teknik için başlangıç çözümü olarak kullanılmaktadır. Kümeleme Analizi: Girdi uzayının benzer girdi değerlerinin bulundukları bölgelerin merkezlerinin belirlenmesi amacıyla kullanılan istatistik yöntemlere Kümeleme Analizi adı verilir. Bu bağlamda, herhangi bir kümeleme analizi yöntemi ile ağ mimarisinde kullanılan radyal tabanlı fonksiyon sayısı ve bu fonksiyonların merkezleri belirlenebilir (Mehrotra, Mohan, & Ranka, 2000). Yarıçap parametreleri ise genellikle küme merkezlerinin birbirlerine olan ortalama uzaklıkları veya ilgili küme merkezine en yakın diğer küme merkezi arasındaki uzaklık dikkate alınarak hesaplanır. Gradyen AzalıĢ Yöntemi: Radyal tabanlı fonksiyon ağlarına uyarlanışı Poggio ve Girossi (1989) tarafından önerilen gradyen azalış yöntemini kullanan RTFA, Genelleştirilmiş Radyal Tabanlı Fonksiyon Ağları (GRTFA) olarak adlandırılmaktadır (Wettschereck & Dietterich, 1992). Bu yöntem, başlangıçta rastgele olarak belirlenmiş olan ve parametrelerinin, modelin çıktıları ile hedeflenen çıktılar arasındaki farka ilişkin tanımlanan bir hata fonksiyonunun, ve parametrelerine göre kısmi türevlerinin tersi yönünde, değerlerinin güncellenmesi esasına dayanır. Buna göre ve parametreleri öğrenmenin her aşamasında (3.10) ve (3.11) ile formülleri verilen değişim miktarları ile toplanarak güncellenir. 47 (3.10) (3.11) Yukarıda verilen formülasyonlarda yer alan ve değerleri sırasıyla merkez ve yarıçap parametrelerinde yapılacak olan değişiklik miktarını, toplamını ve , hata kareler ise öğrenme oranını göstermektedir. Yukarıda her iki formülasyonda da aynı öğrenme oranı kullanılmış olmakla beraber merkez ve yarıçap parametrelerinin öğrenmesinde farklı öğrenme oranları da kullanılabilir. Öğrenme oranlarının büyüklüğünün seçimi, öğrenmenin başarısı üzerinde doğrudan etkilidir. Gereğinden küçük belirlenmiş öğrenme oranı işlem süresinin çok uzamasına neden olurken, gereğinden büyük belirlenmesi en iyi çözümün atlanmasına neden olabilir. Gradyen azalış yöntemine göre öğrenme işlemi sırasında hata fonksiyonu aracılığıyla hedeflenen çıktı değerleri de kullanıldığı için, diğer yöntemlerden farklı olarak bu yöntem, danışmanlı öğrenme kapsamında değerlendirilir. Bu yöntemin olumsuz yanı, öğrenmenin yerel çözümlere takılabilmesidir. Ayrıca iteratif olarak yürütülen bu yöntem, gözlem sayısı ve radyal tabanlı fonksiyon sayısının fazlalığına bağlı olarak oldukça yüksek işlem yükü getirebilmektedir. Karar Ağaçları: Genel görünümü Şekil 3-7 verilen Karar Ağaçları, girdi uzayının sorgulama yolu ile art arda iki bölgeye ayrılması esasına dayanmaktadır. Sürekli sorgulamalar yolu ile alt hiper-dikdörtgen uzaylara bölünen girdi uzayı, birbirinden farklı özellikler gösteren girdilerin gruplandığı bölgelere ayrılmış olur. Böylece karar ağaçları, hiper-dikdörtgenlerden oluşan bu alt uzayların her birisine bir radyal tabanlı fonksiyonun merkez ve yarıçapı atanarak radyal tabanlı fonksiyon parametrelerinin belirlenmesinde kullanılmaktadır. 48 y x<100 y<50 y<10 y>80 80 50 x<165 x>75 30 0 10 x<90 x<25 x<130 y>30 25 75 90 100 130 165 x ġekil 3-7 Karar Ağaçları Bir tür karar ağacı olan Sınıflandırma ve Regresyon Ağaçları yöntemleri, benzer şekilde radyal tabanlı fonksiyonların merkez ve yarıçap parametrelerinin belirlenmesinde etkin olarak kullanılmaktadır. Açıklayıcı değişkenin kesikli olması durumunda sınıflandırma ağaçları, sürekli olması durumunda ise regresyon ağaçları yöntemi kullanılır. Sınıflandırma ve regresyon ağaçları diğer öğrenme yöntemlerine göre birçok avantaja sahiptir. Bunlardan en önemlisi, oluşturulan her bir hiper-dikdörtgen bir radyal tabanlı fonksiyona karşılık geldiği için, ağ mimarisinde kullanılacak olan gizli katman sayısı kendiliğinden ortaya çıkmaktadır. Bu özelliği ile sınıflandırma ve regresyon ağaçları, RTFA‟yı kullanıcıya daha az bağımlı hale getirmektedir. Sınıflandırma ve regresyon ağaçlarının ikinci önemli avantajı, analize başlamadan önce bir defa çalıştırılarak analiz boyunca değiştirilmeden kullanılacak merkez ve yarıçap parametrelerinin belirlenmesini sağlamaları ve bu sayede ağır işlem yükü getiren iteratif öğrenme algoritmalarından daha az zaman almalarıdır. Yukarıda sözü edilen avantajlarından dolayı bu çalışmada, RTFA‟nın merkez ve yarıçap parametreleri Bölüm 4‟te detaylı olarak açıklanan regresyon ağaçları kullanılarak belirlenmiştir. Bu bağlamda bağımlı değişkenin sürekliliği, oluşturulan modelin varsayımlarından birisidir. 49 3.4.2 Radyal Tabanlı Fonksiyonların w Bağlantı Ağırlıklarının Belirlenmesi Radyal tabanlı fonksiyon ağları öğrenmesinin ikinci aşaması, danışmanlı öğrenme kapsamında değerlendirilen ve gizli katmanı çıktı katmanına bağlayan bağlantı ağırlıklarının ( ) belirlenmesi aşamasıdır. Bu aşamada öğrenme, gizli katmanda yer alan gizli katman çıktılarının ( ) bağımsız değişken değerlerini, hedef çıktı değerlerinin ( ) bağımlı değişken değerlerini ve vektörünün regresyon katsayılarını temsil ettiği bir regresyon modeli ile ifade edilebilir. Dolayısıyla ağırlık parametrelerinin öğrenilmesi, (3.12)‟de verilen doğrusal modelin ağırlıklarının belirlenmesi problemine indirgenmiş olur (Bozdogan H. , 2007, s. 2). (3.12) (3.12) ile verilen regresyon modeli için parametresinin belirlenmesinde ilk akla gelen yöntem En Küçük Kareler (EKK) yöntemidir. EKK yöntemine göre ağırlık parametrelerinin bulunmasına ilişkin formül (3.13)‟teki gibi verilmektedir. (3.13) RTFA öğrenmesinde ağırlık parametrelerinin (3.13)‟tekine benzer bir formülasyonla hesaplanması, modelin yeni veriler için genelleme yapabilme kapasitesi açısından bazı sorunları beraberinde getirmektedir. Bu sorunların ortaya çıkmasının temel iki nedeni; ağ mimarisinde kullanılan radyal tabanlı fonksiyon sayısının girdi çıktı arasındaki gerçek ilişkiye ait modelin serbestlik derecesinden yüksek olması ve çok fazla radyal tabanlı fonksiyon kullanarak ağın aşırı belirli olması olarak özetlenebilir (Haykin, 1999, s. 265). Eğitim veri kümesinde gerçekleşen bu aşırı belirlilik, modelin test aşamasındaki kötü performans olarak ortaya çıkmaktadır. 50 Gözlem Değerleri Gerçek İlişki Modellenen İlişki Tahminlenen İlişki ġekil 3-8 AĢırı belirli model örneği (Bozdogan H. , 2007, s. 17) Şekil 3-8 ile kötü konumlanmış1 matrisi ve bu durumda ortaya çıkan sorun gösterilmektedir. Buna göre, sinüs dalgası fonksiyonuna rastgele hatalar eklenerek gözlem değerleri oluşturulmuş ve ilişki RTFA ile modellenmiştir (Bozdogan H. , 2007). Grafiğin ilk yarısı eğitim veri kümesi için modelin çıktılarının gerçek değerlere oldukça yakın olduğunu göstermektedir. Bununla beraber test aşamasında kullanılan ikinci yarıda, modelin çıktıları ile gerçek çıktı değerleri arasında büyük farklar oluşmaktadır. Bu çalışmada ağırlık parametrelerinin belirlenmesinde, matrisinin tekilliği sorununun önüne geçmek üzere kötü konumlanmış matrisler için bir düzenleme yöntemi olan Ridge Regresyon yöntemi kullanılmıştır. Ridge Regresyon yöntemi Bölüm 5‟te ayrıntılı bir şekilde açıklanmaktadır. 1 Kötü Konumlanmış Matris (Ill Posed Matrix): Tekillik sorununa yol açan matris 51 3.5 RTFA ile Diğer Çok Katmanlı Yapay Sinir Ağlarının KarĢılaĢtırılması Radyal tabanlı fonksiyon ağları diğer çok katmanlı YSA gibi doğrusal olmayan ileri beslemeli ağ yapısındadır. Her iki model de evrensel fonksiyon yakınsayıcı1 özellikte olduğundan, her zaman çok katmanlı YSA kullanılarak çözülen bir probleme yakın sonuç verebilecek bir RTFA bulunmaktadır (Haykin, 1999, s. 208-209). Ayrıca RTFA ağları tek gizli katmanı bulunan ve gizli katmanında radyal tabanlı fonksiyonlar kullanan bir tür çok katmanlı yapay sinir ağı türü olarak değerlendirilebilir. Yukarıda sözü edilen benzerliklerinin yanında ilgili iki model arasında büyük farklar da vardır. Bu farklardan birisi, çok katmanlı ağlarda gizli katman ve çıktı katmanı nöronlarında yapılan hesaplamalar birbirine benzer iken RTF ağlarında gizli katman ve çıktı katman nöronlarının işlemlerinin birbirinden tamamen farklı olmasıdır. Çok katmanlı ağlarda genellikle hem gizli katman hem çıktı katman nöronları doğrusal olmayan işlemcilerdir. RTF ağlarında ise gizli katman doğrusal olmayan işlemci, çıktı katmanı ise gizli katman çıktılarının ağırlıklı toplamı olan doğrusal işlemcidir. RTFA ve çok katmanlı ağlar arasındaki belki de en önemli fark, problemlere çözüm üretme yöntemleridir. Çok katmanlı ağlar girdi-çıktı arasındaki doğrusal olmayan ilişkiyi bir bütün olarak ele alıp genel bir yaklaşım ortaya koymaktayken RTFA bu ilişkiyi, girdi kümesinin farklı alt uzaylarında tanımlanmış farklı ilişkiler olarak değerlendirerek daha yerel çözümler üretir. 3.6 Radyal Tabanlı Fonksiyon Ağlarında Mevcut Sorunlar ve Eksiklikler Radyal tabanlı fonksiyon ağları, özellikle parametrik istatistik yöntemlere göre daha az varsayıma sahip olmaları ve sınıflandırma ve tahminleme problemlerindeki başarılı performansları ile öne çıkmaktadır. Ancak her yöntemde olduğu gibi RTFA‟da 1 Evrensel Fonksiyon Yakınsayıcı (Universal Function Approximator): Herhangi bir fonksiyon için uygun bir doğruluk düzeyinde tahmin yapabilen modellerdir. En az bir gizli katmanı bulunan yapay sinir ağları genel fonksiyon uydurucu özelliktedir (Hornik, 1989). 52 da bazı sorunlar ve eksiklikler vardır. Bu sorun ve eksiklikler ana başlıklar halinde şu şekilde listelenmektedir. Ağ mimarisinin oluşumunda probleme en uygun gizli katman nöron sayısının belirlenmesinde herhangi bir kural olmayışı, bu sayının sezgisel olarak deneme yanılma yolu ile belirlenmesi sorunu. Öğrenmenin birinci aşamasında, merkez parametrelerinin rastgele ya da işlem yükü ağır iteratif yöntemlerle belirlenmesi sorunu. Ağırlık parametrelerinin belirlenmesi aşamasında karşılaşılan matrisinin tekilliği sorunu. Değiştirilebilir parametre sayısının çok fazla olması sorunu. Model parametrelerinin yorumlanamaması nedeniyle bağımsız değişkenlerden önemli olanların belirlenememesi sorunu ve buna bağlı olarak model karmaşıklığını azaltacak şekilde bağımsız değişkenleri arasından seçim yapacak bir mekanizma ile entegre edilmemiş olması. 3.7 Hibrit Radyal Tabanlı Fonksiyon Ağları Buraya kadar olan kısımda RTFA‟nın genel yapısı, işleyişi, öğrenme algoritmaları ve son olarak da mevcut sorun ve eksiklikler üzerinde durulmuştur. Bu aşamadan itibaren belirtilen sorun ve eksikliklerden yola çıkarak çalışma şekillendirilmektedir. Buna göre öncelikle her bir sorun ve bu sorunlara karşılık çalışma kapsamında ele alınan yardımcı çözüm yöntemleri belirtilmiş ve daha sonra bu yardımcı çözüm yöntemleri RTFA modeline entegre edilerek çalışmada önerilen model ortaya çıkarılmaktadır. Burada kısaca sözü edilecek olan yardımcı çözüm yöntemleri ve bu yöntemlerin RTFA modeline nasıl entegre edildikleri ise takip eden bölümlerde tek tek açıklanmıştır. Radyal tabanlı fonksiyon ağlarının merkez ve yarıçap parametrelerinin belirlenmesinde Breiman v.d. (1984) tarafından geliştirilmiş olan Regresyon Ağaçları kullanılmıştır. Regresyon ağaçları kullanılarak merkez ve yarıçap parametrelerinin belirlenmesi fikri Kubat (1998) tarafından ortaya atılmış ve Orr (2000) tarafından 53 geliştirilmiştir. Buna göre girdi uzayı, her seferinde eksenlerden birisine paralel olacak şekilde art arda iki parçaya bölünerek, hiper-dikdörtgenlerden oluşan alt uzaylara ayrılmakta ve her bir alt hiper dikdörtgenin koordinatları kullanılarak merkez ve yarıçap parametreleri belirlenmektedir. Merkez ve yarıçap parametrelerinin bu şekilde belirlenmesi ile hem işlem yükü getiren iteratif öğrenme algoritmalarına hem de öğrenme oranı gibi direk sonuca etki eden ve kullanıcı tarafından keyfi olarak belirlenen parametrelere gerek kalmamaktadır. Diğer taraftan regresyon ağaçlarının, girdi uzayının farklı girdi türlerinin kümelendiği bölgeleri farklı alt uzaylara ayırma özelliği, radyal tabanlı fonksiyonların çalışma ilkesi ile bağdaşmaktadır. Regresyon ağaçlarını RTFA ile entegre etmenin belki de en önemli faydası, gizli katman nöron sayısının, diğer bir ifade ile kullanılacak radyal tabanlı fonksiyon sayısının doğrudan ortaya çıkmasıdır. Regresyon ağaçları kullanımı ile RTF sayısının kendiliğinden ortaya çıkması ve öğrenme oranı parametresine gerek kalmaması, en iyi ağ yapısının kullanıcı tarafından yapılacak olan keyfi denemelerle bulunabilmesi gibi RTFA‟nın en çok eleştirilen yanına çözüm getirmektedir. Radyal tabanlı fonksiyon ağlarında karşılaşılan diğer önemli bir sorun ise ağırlık parametrelerinin belirlenmesi aşamasında ortaya çıkan matrisinin tekilliği sorunudur. Bu sorun özellikle en küçük kareler regresyon yönteminin kullanılmasıyla ortaya çıkmaktadır. Tekillik sorunun çözümü için modelde, Tickhonov (1963) tarafından önerilen ridge regresyon yöntemi kullanılmaktadır. Ağırlık katsayılarının kestiriminde matrisine bir yan değeri eklenerek tekillik sorununun engellenmesi esasına dayanan bu yöntem, yanlı sonuçlar üretmekle beraber doğru ridge parametresinin belirlenmesi durumunda en küçük kareler yöntemine göre daha düşük hata kareler toplamı vermektedir (Conniffe & Stone, 1973, s. 182). Model karmaşıklığını azaltmak üzere değişken seçiminin yapılmayışı, RTFA‟nın eksik olduğu yönlerinden biridir. Özellikle veri kümesinin boyutlarının büyük olduğu durumlarda değişken seçimi, modelin işlem yükünü azaltmak açısından oldukça 54 önemlidir. Diğer taraftan değişken seçimi yapılmadığı durumda bağımlı değişken üzerinde açıklayıcılığı daha yüksek olan bağımsız değişkenler belirlenememiş olur. Çalışmada oluşturulan modelde değişken seçimi işlemini yürütmek üzere hem Akaike (1973) hem de ICOMP (Bozdogan H. , 1988) türü değişken seçim kriterleri kullanılmaktadır. Her iki tür değişken seçim kriterleri için de en küçük değişken seçim kriteri değerini veren bağımsız değişken alt kümesinin, bağımlı değişken üzerinde en açıklayıcı olan değişkenler oluğu kabul edilir. Bu bağlamda bir en küçükleme problemi olarak ortaya çıkan, değişken seçim kriterine en küçük değerini aldıracak olan bağımsız değişken alt kümesinin belirlenmesi problemi, Genetik Algoritma kullanılarak çözülmektedir. Radyal tabanlı fonksiyon ağlarındaki sözü edilen sorunlara çözüm bulacak ve eksiklikleri giderecek şekilde seçilen yöntemler ve bu yöntemlerin Hibrit RTFA modelindeki işlevleri Tablo 3-1 ile özetlenmektedir. Tablo 3-1 Hibrit RTFA modeli bileĢenlerinin iĢlevleri Yöntem Adı Regresyon Ağaçları Ridge Regresyon AIC, ICOMP Genetik Algoritma Çözdüğü Sorun / Giderdiği Eksiklik Gizli katman nöron sayısının keyfi olarak belirlenmesi sorunu İteratif öğrenme algoritmaları ile artan işlem yükü sorunu RTF merkezlerinin rastgele belirlenmesi sorunu matrisinin tekilliği sorunu İteratif öğrenme algoritmaları ile artan işlem yükü sorunu Değişken seçimi konusundaki eksiklik Değişken seçim kriterlerinin optimizasyonunun uzun zaman alması Belirlediği Parametreler , , Bağımsız değişkenlerin alt kümesi Bağımsız değişkenlerin alt kümesi Buraya kadar anlatılanlara göre önerilen Hibrit RTFA modeli, tek çıktılı olarak Şekil 3-9 ile gösterilmektedir. Önerilen Hibrit RTFA modeli sadece tahminleme problemlerinde değil aynı zamanda değişken seçimi problemlerinde de kullanılacak 55 şekilde oluşturulmuştur. Önerilen model tek çıktı için kurgulanmış olup, sadece girdi değişkeninin sürekli olması varsayımına sahiptir. Değişken Seçimi: ICOMP Regresyon Ağaçları Radyal Tabanlı Fonksiyon Ridge Regresyon Ağı Genetik Algoritma ġekil 3-9 Hibrit Radyal Tabanlı Fonksiyon Ağı Çalışmanın takip eden kısımları, Hibrit RTFA modeline entegre edilmiş olan yöntemlerin açıklanması ve modelin uygulaması ile devam etmektedir. Buna göre regresyon ağaçları, ridge regresyon ve değişken seçimi konuları sırasıyla 4, 5 ve 6‟ncı bölümlerde ele alınmaktadır. Bu bölümlerde sadece bu yöntemler açıklanmakla kalınmamış aynı zamanda ilgili yöntemlerin Hibrit RTFA modeline nasıl entegre edildikleri üzerinde de durulmuştur. Çalışmamız kapsamında genetik algoritma, en iyi bağımsız değişken alt kümesinin bulunmasında kullanılan değişken seçim kriteri değerinin eniyilenmesi amacıyla modele eklenmiştir. Bu nedenle genetik algoritmaya ayrı bir bölümde değil, değişken seçimi bölümü içerisinde yer verilmiştir. Önerilen modelin performansının ölçüldüğü Freidman benzetim verisi ve IMKB Ulusal 100 Endeksi‟nin yönünün tahmini üzerindeki çalışmalar Bölüm 7‟de yer almaktadır. 56 BÖLÜM 4 REGRESYON AĞAÇLARI Regresyon Ağaçları (RA) yoğun sayısal işlemlere dayanan parametrik olmayan yöntemlerdir ve son 20-30 yıl içinde oldukça popüler hale gelmiştir. Çok fazla değişken ve çok fazla sınıfın olduğu problemlere kolayca uyarlanabilen RA, aykırı değerlere karşı oldukça sağlam bir yöntemdir (Steinberg & Colla, 1995). Regresyon ağaçları, hızlı ve doğru sonuçlar elde etmek isteyen ancak bunun için geleneksel istatistik yöntemleri kullanacak zaman ve becerisi olmayan araştırmacılar için iyi bir alternatif oluşturmaktadır. Geleneksel istatistik yöntemlerin kullanılabilmesi durumunda bile, eğer çok fazla değişken varsa, bu değişkenler arasındaki önem sırasının ve aralarındaki etkileşimin belirlenmesinde RA kullanılabilir. RA veri madenciliği alanında oldukça sıklıkla kullanılır hale gelmiş olmakla beraber, eksik gözlemlere yaklaşık değer bulunması gibi temel konularda da kullanılmaktadır (Harrel, 2001). Regresyon ağaçlarının ortaya çıkışı, 1960‟lı yıllarda Morgan ve Sonquist (1963) tarafından geliştirilen AID (Automatic Integraction Detection) isimli karar ağacı tekniğine dayanmaktadır. Daha sonra 1970‟li yıllarda yine Morgan ve Messenger (1973) THAID (Theta AID) tekniği adı altında sınıflandırma ağaçlarını ortaya tanıtmışlardır. AID ve THAID tekniklerinin her ikisi de Michigan Üniversitesi Sosyal Araştırmalar Enstitüsü‟nde geliştirilmiştir (Sutton, 2005, s. 304). 1980‟li yıllarda Breiman v.d. (1984) veriye uygun ağacı karşılık getiren başarılı bir program olan CART (Classification And Regression Trees) yöntemini geliştirmişlerdir. İlk sürümünden bu yana oldukça geliştirilmiş olan CART, halen Salford Systems tarafından üretilip satılan bir programdır. 1997 senesinde geliştirilen QUEST (Quick Unbiased Efficient Statistical Tree) yöntemi (Loh & Shih, 1997), CART yöntemini temel almakla beraber, yansız değişken seçimi, eksik veri ile çalışabilme ve 57 çok fazla kategori içeren tahminleyicilerle çalışabilmesi açısından CART yönteminden daha üstün özelliklerdedir (Sutton, 2005, s. 304). Günümüzde regresyon ağaçları birçok farklı paket program yardımıyla oluşturulabilmektedir. Bu çalışmada ise RA‟yı oluşturmak için MATLAB programı kullanılmaktadır. 4.1 Regresyon Ağaçlarının Yapısı Regresyon ağaçlarında amaç, sürekli bir bağımlı değişkenin değerlerinin, bir ya da birden çok sürekli veya kategorik bağımsız değişken tarafından tahminlenmesidir. Kategorik açıklayıcı değişkenlerle çalışabilmesi dikkate alındığında, RA‟nın çoklu regresyon analizine göre daha az varsayıma sahip olduğu söylenebilir. Regresyon ağaçları yöntemi, gözlem verileri kullanılarak karar ağacı oluşturmasında kullanılan iteratif yöntemlerden birisi olarak düşünülebilir. Oluşturulan karar ağacı, girdi uzayını daha küçük alt parçalara ayıran evet-hayır soruları kümesi şeklindedir. Karar ağacı oluşturma sürecinin her bir iterasyonunda, girdi uzayını en iyi şekilde iki parçaya ayıracak soruyu bulmak amacıyla tüm değişkenler ve bu değişkenlerin tüm olası değerleri üzerinden arama (eniyileme) yapılır. Yaş > 40 E H Kilo > 100 Kilo > 80 E E Yaş >60 Yaş < 70 E Kilo < 50 Yaş < 30 E Kilo< 100 E: Evet H: Hayır ġekil 4-1 Örnek Regresyon Ağacı Gösterimi 58 Örneği Şekil 4-1 ile verilen RA ile girdi uzayı, her bir aşamada tek bir değişkenin belirli bir değeri üzerinden iki parçaya ayrılmaktadır. Ayrıca bir değişken üzerinden, farklı iterasyonlarda olmak kaydıyla, birden fazla kez ayırma işlemi yapmak mümkündür. Şekil 4-1 ile ağaç yapısında verilen RA‟nın diğer bir gösterimi ise koordinat sistemi üzerinde hiper-dikdörtgenlerin sınırlarının belirtilmesi şeklindedir. Ancak bu gösterim en fazla üç bağımsız değişken olması durumunda kullanılabilmektedir. Şekil 4-2 ile Şekil 4-1‟de ağaç yapısında verilmiş olan RA‟nın iki boyut için hiper-dikdörtgenler yardımıyla gösterimi verilmektedir. ġekil 4-2 Regresyon Ağacının Dikdörtgenler Yardımı ile Gösterimi 4.2 Regresyon Ağaçlarının OluĢturulması Regresyon ağaçlarının temel mantığı, girdi uzayını art arda ikiye bölmek suretiyle alt uzaylara ayırmak ve çıktısı her bir alt uzayın içerdiği girdilere karşılık gelen çıktıların ortalaması olacak şekilde bir fonksiyona yaklaştırmaktır. Elde edilen her bir alt uzayın sınırları eksenlerden birine paraleldir ve bağımsız değişkenleri içeren eşitsizlik, ayrımın yapıldığı değişken ve ayrımın yapıldığı nokta olmak üzere, şeklinde ifade edilir (Breiman, Freidman, Olshen, & Stone, 1984). 59 Regresyon ağaçlarında esas düğüm, eğitim veri kümesi ‟nin tamamını içeren ve Şekil 4-2‟de gösterildiği gibi en dışta yer alacak olan mümkün en küçük hiper dikdörtgendir. Esas düğümün herhangi bir ‟inci boyut (ya da değişken) için uzunluk ( - yarı genişlik) ve merkez ( ) değerleri (4.1) ve (4.2)‟deki gibi belirlenir (Orr, et al., 1999, s. 456). (4.1) (4.2) (4.1) ve (4.2)‟de her kümesi ve açıklayıcı değişken indisleri için eğitim verisi indisler kümesini ifade olmak üzere etmektedir. Esas düğümün belirli bir ‟inci boyutunun noktasından ikiye bölünmesi ile girdi uzayı sol ve sağ olmak üzere sırasıyla (4.3) ve (4.4)‟te formülleri verilen ve alt kümelerine ayrılır. (4.3) (4.4) alt kümelerinde yer alan girdilere karşılık gelen çıktı değerlerinin ve ortalamaları ve sırası ile ve alt kümelerin içerdikleri örnek sayısı olmak üzere (4.5) ve (4.6)‟daki gibi hesaplanır. (4.5) (4.6) Tüm olası ve değerleri arasından hata fonksiyonuna en küçük değerini aldıran parçalanış, esas düğümün çocuklarını (esas düğümün ikiye ayrılması ile elde 60 edilecek olan girdi uzayının alt kümelerini) yaratmakta kullanılır ve bu -boyut ve - gözlem üzerinden yapılacak olan kesikli arama ile gerçekleştirilir. Esas düğümün çocukları da benzer mantıkla art arda iki alt kümeye ayrılmaya devam eder. Herhangi bir alt uzayda ayırma işleminin devam edip etmeyeceği kararı, daha önceden belirlenmiş olan parametresine göre belirlenir. Buna göre herhangi bir alt uzayda yapılacak ayırma sonucu elde edilen kümelerden birisinde parametresinden daha az gözlem kalması durumunda, son yapılan ayırma işlemi de iptal edilerek bu alt uzay için ayırma işlemi bitirilir. Girdi uzayı öncelikle çıktı hakkında daha çok bilgi içeren boyutlar (bağımsız değişkenler) üzerinden ikiye ayrılma eğilimi gösterir (Orr, et al., 1999, s. 456). Bu özelliği ile RA, hem modelin kestirilmesinde hem de hangi girdi değişkenlerinin modellenen girdi-çıktı ilişkisinde daha önemli olduğuna karar verilmesinde kullanılabilir. Diğer taraftan kurulan RA modelinde dallanmanın fazla olması kestirilen modelin karmaşıklığı ile ilgili bilgi içermemektedir. 4.3 Ayırma Kuralları Girdi uzayının art arda ikiye parçalanması işlemi, bir hata fonksiyonun eniyilenmesi ile gerçekleştirilmektedir. Ayrım kuralı olarak da adlandırılan hata fonksiyonu genellikle “En Küçük Kareler” ve “En Küçük Mutlak Sapma” olmak üzere iki farklı şekilde tanımlanmaktadır. 4.3.1 En Küçük Kareler Kuralı Bu yöntem doğrusal modeller için kullanılan en küçük kareler yöntemine benzemektedir. Ayrım, düğümlerden elde edilecek ortalama çıktı değerleri ile ilgili düğümlerde yer alan gözlem değerleri arasındaki farkın kareler toplamı ortalamasını eniyileyecek şekilde yapılır. Buna göre algoritmanın herhangi bir adımında, ayrımın yapılacağı yer kararının verilmesinde kullanılacak en küçük kareler fonksiyonu (4.7)‟deki gibi ifade edilir. 61 (4.7) (4.7) ile verilen formülasyonda k, ayrımın hangi değişken, b ise ilgili değişkenin hangi değeri üzerinden yapılacağını göstermektedir. 4.3.2 En Küçük Mutlak Sapma Kuralı Bu kritere göre her bir düğümdeki çıktıların, yine bu çıktı değerlerinin medyan değerinden olan ortalama mutlak sapmaları eniyilenir. Bu yöntemin en küçük kareler kuralına göre avantajı, aykırı değerlerden fazla etkilenmemesi, dolayısıyla daha sağlam tahminler elde edilmesidir. Dezavantajı ise veri kümesinin fazla miktarda 0 değerini içermesi durumuna duyarsız olmasıdır (Moisen, 2008, s. 584). Ayrımın sol ve sağ tarafında kalan düğümler için hesaplanan medyan değerleri sırasıyla ve olmak üzere en küçük mutlak sapma hata fonksiyonu (4.8)‟deki gibi hesaplanmaktadır. (4.8) 4.4 Regresyon Ağaçlarının Budanması Regresyon ağaçları yöntemi ile oluşturulan ağaç, bazen çok büyük ve kullanılan veriye aşırı uyum gösterecek şekilde konumlanabilir. Bu durum, genellikle her bir düğüm hemen tek bir gözlem içerene kadar ağacın büyütülmesi durumunda ortaya çıkar. Ezberlemeye işaret eden bu durum, test aşamasında yetersiz tahminler yapılması ile sonuçlanmaktadır. Diğer taraftan ağacın çok küçük olduğu ve dolayısıyla girdi-çıktı arasındaki ilişkiyi yakalayamadığı durumlar da olabilir. Bu bağlamda RA‟da uygun ağaç büyüklüğünün belirlenmesi oldukça önemlidir. Uygun ağaç büyüklüğünün belirlenmesinde kullanılan farklı yöntemler vardır. Bunlardan biri, düğümlerin heterojenliğinin ölçüsündeki azalma miktarı için bir eşik değer belirlenmesi ve bu eşik değerin aşılamaması durumunda dallanma (ayrım) yapılmamasıdır. Önerilen diğer bir yöntem ise önce ağacın belirli bir minimum düğüm 62 büyüklüğü sağlanana kadar geliştirilmesi ardından ağacın en iyi büyüklüğe gelene kadar budanmasıdır. En iyi ağaç büyüklüğü, test verilerinin kullanılması veya çaprazdoğrulama (Cross Validation) yoluyla belirlenebilir. Her iki durumda da belirli bir hata oranına göre en uygun büyüklükteki ağaç elde edilmiş olur (Moisen, 2008). 4.5 Regresyon Ağaçlarında Maliyetler Regresyon ağaçlarının bir istatistik modelleme aracı olarak kullanılması sırasında karşılaşılan maliyetler ana başlıklar halinde aşağıdaki gibi özetlenebilir. 4.5.1 Açıklayıcı DeğiĢken Sayısı ve YanlıĢ Sınıflandırmaya Bağlı Maliyetler Birçok uygulamada, bazı bağımsız değişkenlerle ilgili veri toplamak oldukça yüksek maliyetli ve diğerlerine göre daha zor olabilir. Ayırma sürecinde daha düşük maliyetli açıklayıcı değişkenlere öncelik verilmesi ile bu maliyet azaltılabilmektedir. Diğer taraftan uygulamada hatalı sınıflandırma maliyeti genellikle daha yüksektir. Bu nedenle maliyet fonksiyonu hesaplanırken problemin tipine göre sınıflandırma ya da tahminleme hatası formüle edilmektedir. 4.5.2 Ağaç KarmaĢıklığı Maliyeti Regresyon ağaçlarının budanması aşamasında açıklandığı gibi, kullanıcı tarafından belirlenen değerinin çok küçük belirlenmesi, oldukça büyük bir ağaç oluşmasına neden olabilir. Bununla beraber budama işlemi sonucu elde edilen ağaç genellikle ilk başta elde edilene göre önemli ölçüde daha küçüktür. Bu küçülme miktarı kullanılan veriye göre, budanmış ağacın büyüklüğünün başlangıçtaki ağaçtan 10 kere daha küçük olmasına kadar varabilir. Dolayısıyla budama ile hesaplama süresinde de önemli ölçüde azalma sağlanır. Sonuç olarak, yerine koyma maliyeti olarak da düşünülebilecek olan model karmaşıklığı, ceza terimi ile maliyet fonksiyonuna eklenir. Bunun yolu, ağaçtaki düğüm sayısının belirli bir oranda eğitim veri kümesinden hesaplanan maliyete eklenmesidir. Böylece çok büyük oluşturulmuş ağaç, küçük yanlış sınıflandırma hatası vermekle beraber yüksek ceza terimine neden olacaktır. Diğer taraftan küçük ağaç için ceza düşerken hatalı sınıflandırma maliyeti artacaktır. 63 Karmaşıklık maliyeti özellikle çapraz doğrulama kullanılan durumlarda, budanmak üzere oluşturulan ilk baştaki büyük ağaca uygulanarak büyük ölçüde hesaplama etkinliği sağlanabilir. 4.6 Regresyon Ağaçlarının Hibrit Radyal Tabanlı Fonksiyon Ağlarına Entegre Edilmesi Regresyon ağaçlarında esas düğüm, çocukları olan (tekrar dallanma yapan) terminal olmayan düğümler ve çocukları olmayan (tekrar dallanma yapmayan) terminal düğümler içermektedir. Oluşturulan ağaçta yer alan her bir düğüm, girdi uzayında merkezli ve genişliğinde bir hiper-dikdörtgene karşılık gelmektedir. En büyük hiper- dikdörtgen, esas düğüme karşılık gelendir ve ağacı oluşturacak şekilde sürekli daha küçük parçalara bölünür. Hiper-dikdörtgenleri radyal tabanlı fonksiyonlara çevirmek için ele alınan düğümün merkezi, karşılık getirilecek radyal tabanlı fonksiyonun merkezi ( ), genişliği ( ) ise bir sabiti ile çarpılarak radyal tabanlı fonksiyonunun yarıçapı olarak ( ) aşağıdaki gibi kullanılmaktadır. (4.9) Yukarıdaki formülde yer alan parametresidir. , gibi regresyon ağaçlarının diğer bir parametresinin belirlenmesine yönelik Kubat (1998, s. 815) tarafından önerilen formül (4.10)‟da verilmiştir. (4.10) Yukarıdaki formülde yer alan ilişkin uzunluğunu, , ‟inci hiper dikdörtgenin ‟inci boyutuna ise karşılık getirilecek olan Gauss tipi radyal tabanlı fonksiyonun ilgili boyuta (bağımsız değişkene) ait standart sapma değerini vermektedir. Buradaki sabitinin belirlenmesi tüm düğümler (hiper-dikdörtgenler) için aynı şekildedir. 64 sabitinin belirlenmesine ilişkin diğer bir formülasyon ise Orr v.d. (2000, s. 456) tarafından önerilmiştir. Buna göre ilgili formülasyon, (4.10)‟daki Kubat tarafından önerilmiş parametre değeri olmak üzere (4.11) ile verilmektedir. (4.11) Literatürde sabiti için farklı değerlerin kullanıldığı çalışmalar vardır. Bunlardan en sık karşılaşılanı ise sabitine faklı sabit değerler vererek en iyi performans gösteren ile model oluşturulmasıdır. Çalışmamızda, sabiti değerleri için yapılan denemeler ile belirlenmektedir. Regresyon ağaçlarının diğer bir parametresi olan ise 5 olarak sabitlenmiştir. Bu parametrenin 5‟ten küçük belirlenmemesinin nedeni, modelin aşırı öğrenme sorunu ile karşılaşmasına engel olmaktır. Buraya kadar ifade edilenlere göre Hibrit RTFA modelinde, öncelikle girdi uzayı regresyon ağaçları yöntemi ile her birinde en az 5 gözlem değeri bulunan ve hiper dikdörtgenlerden oluşan alt uzaylara bölünür. Daha sonra oluşturulan ağaç yapısında yer alan her bir hiper dikdörtgene, gizli katmanda bir nöron (dolayısıyla radyal tabanlı fonksiyon) karşılık getirilir. Böylece bu aşamada ağ mimarisinin temeli olan gizli katman nöron sayısı kendiliğinden belirlenmiş olur. Sözü edilen karşılık getirme işlemi, ele alınan hiper-dikdörtgenin merkezinin karşılık getirilen radyal tabanlı fonksiyonun merkezi ( ), yarıçapının ise sayılarından birisi ile çarpılarak radyal tabanlı fonksiyonun yarıçap parametresi ( ) olarak belirlenmesi ile gerçekleştirilir. 65 BÖLÜM 5 RĠDGE REGRESYON Regresyon Analizi, bağımlı ve bağımsız değişkenler arasındaki ilişkinin varlığının, varsa bu ilişkinin yönünün ve gücünün belirlenmesi ile belirlenmiş bu ilişkiyi kullanarak bağımlı değişkenlerin değerlerinin tahminlenmesinde kullanılan bir istatistik yöntemdir (Johnson & Bhattacharyya, 2006, s. 431). Regresyon analizi bağımlı değişken sayısının bir ya da birden çok olması, kurulan modelin doğrusal olup olmaması ve bağımsız değişken sayısına bağlı olarak farklı şekilde kurgulanır. Bununla beraber, her istatistik yöntemde olduğu gibi regresyon analizinin uygulanabilmesi için de bazı varsayımlar ve bu varsayım bozulumları için önerilmiş çözüm yöntemleri vardır. Bu bölümde Hibrit-RTFA modelinde ağ parametrelerinin belirlenmesi aşamasında karşılaşılan tasarım matrisinin tekilliği sorunu ele alınmakta ve bu sorunun çözümünde Ridge Regresyon (RR) yönteminin kullanılması üzerinde durulamaktadır. Bu bağlamda sırasıyla, çoklu doğrusal regresyon modelinin tanımlanması, bu modelde sağlanması gereken varsayımların belirtilmesi, bu varsayımlardan çoklu doğrusal bağlantı problemine çözüm olan RR yönteminin açıklanması ile RR yönteminin Hibrit RTFA modeli ile entegrasyonu üzerinde durulmaktadır. 5.1 Çoklu Doğrusal Regresyon Çoklu Doğrusal Regresyon (ÇDR), bir bağımlı değişken ile iki veya daha fazla bağımsız değişken arasındaki doğrusal ilişkiyi modellemekte kullanılan bir istatistik yöntemdir. ÇDR‟nin amacı, bağımlı değişkenin kendi içindeki değişimi, bağımsız değişkenlerin doğrusal bir kombinasyonu olan bir fonksiyon yardımıyla açıklayabilmektir. Bu bağlamda, bağımlı değişken için açıklanan değişken, bağımsız değişkenler içinse ise açıklayıcı değişken ifadeleri de kullanılmaktadır. Buna göre genel ÇDR modeli ve modelin bileşenleri, gözlem ve bağımsız değişken için (5.1)‟deki gibi ifade edilmektedir. 66 (5.1) , boyutlu bağımlı olmak üzere bağımsız değişkene ait Formülasyonu (5.1) ile verilen ÇDR modelinde değişkene ait gözlem vektörünü, , boyutlu gözlem vektörünü, regresyon sabiti vektörünü, , , boyutlu ve elemanları birbirine eşit olan değişkenine karşılık gelen regresyon katsayısını ve , dağılımlı hata terimi vektörünü göstermektedir. boyutlu ve (5.1) eşitliği ile açık hali verilen model, gösterim kolaylığı sağlamak amacıyla, ve olmak üzere (5.2) ile verilen matris formunda ifade edilebilir. (5.2) Regresyon katsayıları, ilgili bağımsız değişkenin bağımlı değişkene göre eğimini vermektedir. Diğer bir ifade ile tutularak , dışındaki tüm bağımsız değişkenlerin değeri sabit değişkeninin değerinin 1 birim artırılması halinde, değişkeninde meydana gelecek değişim miktarını göstermektedir. Bu bağlamda, herhangi bir değişkeni ile ‟nin saçılım grafiği, ilgili değişkenler arasındaki ilişkinin yapısı hakkında bilgi verebilir (Bluman, 1998, s. 484). Hata terimi , bağımsız değişkenlerce açıklanamayan ve örneklemeden kaynaklandığı varsayılan rastgele hatayı göstermektedir. Benzetim çalışmaları dışında genellikle gerçek model tam olarak bilinmediği için hata terimi de bilinmeyendir. (5.2) ile matris gösteriminde verilen ÇDR modelinde regresyon katsayılarının gözlem verileri yardımıyla gerçekleştirilen kestirimi kestirimi, ile gösterilmek üzere, ‟nin şeklinde hesaplanır. ‟nin gerçek ve kestirilen değerlerinin birbirine yakınlığı, gerekleştirilen kestirimin ne kadar iyi olduğunu gösterir. Buradan hareketle, regresyon artıkları olarak da bilinen hata teriminin kestirimi, formülü ile 67 yapılır. Regresyon artıkları, kestirilen modelin açıklama gücünün bir ölçüsü olan belirlilik katsayısının hesaplanmasında kullanılmaktadır. Belirlilik katsayısı , bağımlı değişken ‟nin kendi içindeki değişimin, modelde yer alan bağımsız değişkenler tarafından açıklanan kısmının oranını verir. Bu bağlamda belirlilik katsayısı (5.3) ile verildiği biçimde hesaplanır (Berk, 2004, s. 107). (5.3) Belirlilik katsayısı formülasyonunun, aralarında bulunan bileşenleri, ‟nin ortalaması ve eşitliği , elemanları 1‟lerden oluşan vektör olmak üzere (5.4), (5.5) ve (5.6) ile ifade edilmektedir. Hata Kareler Toplamı : (5.4) Toplam Kareler Toplamı : (5.5) Regresyon Kareler Toplamı : (5.6) aralığında değerler alabilen belirlilik katsayısının 1‟e yakın olması modelin uyum iyiliğinin güçlü, 0‟a yakın olması ise modelin uyum iyiliğinin zayıf olduğunu ifade etmektedir (Yamane, 1973, s. 414-415). Modele eklenecek her yeni bağımsız değişken, değişkeni ile ilişkisinin zayıf olması durumunda bile arttırmaktadır. Bu nedenle değerini ‟nin uyum iyiliğinin değerlendirilmesinde kullanılması eleştirilmektedir (Bonate, 2006, s. 17). Bu noktada modelin uyum iyiliğinin değerlendirilmesinde, bağımsız değişken sayısından düzeltilmiş belirlilik katsayısı ‟ye göre daha az etkilenen kullanılabilir (Munch & Branson, 2004, s. 4). (5.7) Daha önce (5.2) ile verilen modelin hata teriminin standart hatası ‟nın kestirimi ise, 68 (5.8) şeklinde elde edilir (Yamane, 1973, s. 915). (5.8) ile verilen model standart hatasının kestirim formülü, regresyon katsayılarının varyans-kovaryans matrisinin kestiriminde aşağıdaki biçimde kullanılır. (5.9) Buraya kadar formülü verilen istatistikler, örneklem ile çalışılan durumlar için geçerlidir. Anakütle ile çalışılması durumunda ve kestirimleri herhangi bir düzeltme terimi gerektirmeksizin sırasıyla aşağıdaki gibi hesaplanır. (5.10) (5.11) kestiriminin varyansı ise matrisinin köşegen elemanları olarak hesaplanmaktadır. 5.1.1 En Küçük Kareler Kestirimi En Küçük Kareler (EKK), hata kareler toplamını eniyileyecek şekilde bilinmeyen regresyon katsayılarının kestirilmesinde kullanılan bir yöntemdir. Bu bağlamda, EKK yöntemi kullanılarak regresyon katsayılarının kestiriminde eniyilenecek fonksiyon (5.12) ile ifade edilir. (5.12) (5.12) ile verilen fonksiyonun parametrelerine göre kısmi türevlerinin alınarak sıfıra eşitlenmesi ile elde edilen denklem sistemi, normal denklemler olarak adlandırılmaktadır. Normal denklemlerin çözümü ile elde edilen regresyon katsayılarının EKK kestirimleri; 69 (5.13) formülü ile elde edilir (Yamane, 1973, s. 945). Elde edilen regresyon katsayılarının EKK kestirimi kullanılarak, ‟nin EKK kestirimi ise (5.14) ile verilmektedir. (5.14) , ‟nın yansız ve minimum varyanslı kestiricisi olması nedeni ile regresyon varsayımlarının sağlanması durumunda en çok başvurulan kestirim yöntemidir. Bu kısımdan itibaren formülasyonlara sadelik getirmek amacıyla EKK kestiricisi için sembolü kullanılmıştır. 5.1.2 Çoklu Doğrusal Regresyon Modelinin Varsayımları Çoklu doğrusal regresyon modelinin uygulanabilirliği bazı varsayımın sağlanmasına bağlıdır. Bu varsayımların sağlanması durumunda EKK kestiricisi yansızlık, etkinlik ve tutarlılık bakımından en iyi kestiricidir (Engle, 1982, s. 995). Yansızlık, kestirimin beklenen değerinin parametrenin gerçek değerine eşit olması, etkinlik ise kestiricinin diğer tüm yansız kestiricilerden daha küçük varyanslı olması anlamına gelmektedir. Örnek büyüklüğünün sonsuza ıraksaması durumunda kestiricinin yan ve varyansının sıfıra yakınsaması ise tutarlılık olarak adlandırılmaktadır. Buradan hareketle ÇDR modeline ait varsayımlar başlıklar halinde aşağıdaki gibi özetlenebilir (Ostrom, 1990). Doğrusallık: Açıklanan ve açıklayıcı değişkenler arasındaki ilişki doğrusaldır. İlişkinin doğrusal olmaması durumunda mümkünse, veriye uygun dönüşüm uygulanarak ilişki doğrusal hale getirilir. Dönüşümle doğrusallığı sağlamanın mümkün olmadığı durumlarda diğer istatistik modellere başvurulabilir. Ayrı ayrı her bir açıklayıcı değişkenle açıklanan değişken arasındaki saçılım grafiğine bakılarak da bu varsayımın sağlanıp sağlanmadığı ile ilgili bilgi sahibi olunabilir. Normallik: Hata terimi olacak şekilde normal dağılıma sahiptir. Bu varsayım geleneksel istatistik yöntemlerle regresyon katsayılarının anlamlılığının test 70 edilebilmesi için sağlanmalıdır. Bu bağlamda normallik, ÇDR‟nin en önemli varsayımıdır. Hataların Rastlantısallığı: Hatalar rastlantısaldır ve birbirleri ile doğrusal ilişkisizdir. şeklinde ifade edilen bu varsayım zaman serilerinde sıklıkla bozulur. Hatalarla Açıklayıcı DeğiĢkenlerin Bağımsızlığı: Hatalar ile bağımsız değişkenler birbirinden doğrusal bağımsızdır. Bu varsayım şeklinde ifade edilir. Her bir açıklayıcı değişken ile artıkların saçılım grafiğine bakılarak varlığı tespit edilebilir. Sabit Varyanslılık: Hata varyansı sabittir. Bir başka ifadeyle tahminleyicilerin değerine göre sistematik olarak değişmez. olarak ifade edilen bu varsayım da özellikle zaman serilerinde sıklıkla bozulur. Çoklu Doğrusal Bağlantı: Çoklu doğrusal regresyon analizinde kullanılan tahminleyiciler genellikle bağımsız değişkenler olarak adlandırılır. Ancak bu, ilgili değişkenlerin birbirleri ile bağımsız oldukları anlamında değildir. Aslında doğal sistemlerde değişkenler genellikle birbirleri ile oldukça ilişkilidir. Çoklu Doğrusal Bağlantı (ÇDB), bağımsız değişkenlerin kendi içinde yüksek bağlantılı olmaları durumudur. (5.8) ve (5.10) ile verilen formüllerden de anlaşılabileceği üzere, kestirilen regresyon katsayılarının varyansı, tahminleyicilerin kendi aralarındaki korelasyona bağlıdır. Bu nedenle sözü edilen varsayım, kestirimlerin etkinliği açısından oldukça önemlidir. Çoklu doğrusal bağlantı varsayımının bozulması, oluşturulan regresyon modelinin geçersiz olduğu anlamına gelmez. ÇDB altında bile eldeki veriye çok iyi uyum gösteren kestirimler elde edilebilir. Ancak ÇDB‟nin birçok olumsuz etkisi vardır. Bunlardan birincisi, regresyon katsayılarının varyanslarının çok yüksek çıkmasıdır. Bu durumda bağımlı değişken üzerinde büyük ölçüde açıklayıcı olan bağımsız değişkenler 71 için bile regresyon katsayılarının testi anlamsız sonuç verebilir. İkinci olarak, regresyon katsayılarının büyüklüğü, hatta işaretleri bile yanlış kestirilebilir. ÇDB‟nin üçüncü olumsuz etkisi ise modele bir değişken eklenmesi veya çıkarılması durumunda regresyon katsayılarının çok yüksek değişime uğrayacağı ve işaretinin bile değişebileceğidir (Quinn & Keough, 2001, s. 133). Çoklu doğrusal regresyon modelinin ÇDB varsayımını sağlayıp sağlamadığının belirlenmesinde sıklıkla Varyans Artış Faktörü (Variance Inflation Factor - VIF) istatistiği kullanılır (Quinn & Keough, 2001, s. 133). VIF, ÇDB‟nin kestirilen regresyon katsayılarının varyansı üzerindeki etkisini göstermektedir. ÇDB, yalnızca bağımsız değişkenler arasındaki ikili ilişkiye bağlı değildir. Aynı zamanda herhangi bir bağımsız değişkenin birden fazla bağımsız değişkenin kombinasyonu olarak ifade edilebilmesi de ÇDB sorununa yol açar. Bu nedenle (5.15) ile formülü verilen VIF, çoklu doğrusal regresyonda yer alan her bir değişkenin, diğer değişkenler üzerindeki çoklu belirlilik katsayısına dayanır. (5.15) Burada , ‟inci bağımsız değişkenin diğer tüm bağımsız değişkenlerle olan belirlilik katsayısı, ise ilgili açıklayıcı değişkene ait VIF değerini ifade etmektedir (Haan, 2002). Bir bağımsız değişkenin diğerlerinden bağımsız olması durumunda ilgili değişken için hesaplanan VIF değeri “1” olur. Bununla beraber, tam bağımlılık durumunda VIF değeri sonsuza ıraksar. Böyle bir durumda kestirilen regresyon katsayılarının varyansı da sınırsız olur. Varyans artış faktörü değerlerinden en az bir tanesi büyük değer aldığında, ÇDB probleminden bahsedilebilir. Bu büyüklüğün ne kadar olduğu ise analizi yapan kişi tarafından belirlenir. Bazı araştırmacılar bu sınırı 5, bazıları ise 10 olarak kabul etmektedir. VIF için kabul görmüş olan bu 5 ve 10 değerleri sırasıyla 0.80 ve 0.90 değerlerine karşılık gelir. Bazı araştırmacılar ise herhangi bir VIF değerinin, tüm VIF 72 değerlerinin ortalamasından önemli ölçüde büyük olması durumunu ÇDB işareti olarak değerlendirmektedir (Haan, 2002). Hangi kriter olursa olsun, ÇDB çok güçlü bağımlılık durumunda ortaya çıkan bir sorundur. Bu bağlamda sıfır olmayan her korelasyon, ÇDB problemine yol açmamaktadır. ÇDB durumunda önerilmiş birçok yöntem olmasına rağmen, değişken seçimi ve Ridge Regresyon oldukça sıklıkla başvurulan yöntemler olarak öne çıkmaktadır. Fakat çoklu bağlantının çok güçlü olduğu ve değişkenlerin önem derecelerinin birbirine yakın olduğu durumlarda değişken seçimi için adımsal yöntemler uygun değildir. Son yıllarda değişkenler arasındaki çoklu doğrusal bağlantı durumunda kullanımı oldukça yaygın olan bir diğer yöntem ise bilgi kriterleri yardımı ile değişken seçim yöntemidir. Bu yöntemler daha detaylı olarak Bölüm 6‟da ele alınmıştır. 5.2 Ridge Regresyon En küçük kareler yöntemi, tüm varsayımlarının sağlanması durumunda ÇDR modelinin kestiriminde sağlam ve kullanışlı sonuçlar üretir. Bununla beraber gerçek hayat problemlerinde veriler, her zaman bu varsayımları sağlayacak türden değildir. Uygulamalarda genellikle ÇDB olarak adlandırılan açıklayıcı değişkenlerin doğrusal bağlantılı olduğu durumla karşılaşılır. Bu durumda EKK kestirimi en iyi yansız doğrusal kestirici olmasına rağmen, regresyon katsayılarının, hatta işaretlerinin yanlış belirlenmesine neden olabilir. Çoklu doğrusal regresyon analizinde amacın yalnızca tahmin yapmak olması ve ÇDB probleminin tahminleme süreci boyunca değişmeyeceği varsayımı altında, ÇDB‟nin problem yaratmayacağı düşünülebilir. Bunun nedeni, ÇDB‟nin modelin tahminini değil sadece regresyon katsayılarının kestirimini etkileyecek olmasıdır (Koutsoyiannis, 1977). ÇDB problemi altında, model kestiriminde oldukça sıklıkla kullanılan Ridge Regresyon (RR) ilk kez Arthur Hoerl ve Robert Kennard (1970) tarafından önerilmiştir. RR, parametre kestiricilerinin varyansını düşürmek amacıyla regresyon denklemlerine 73 yan terimi eklenmesi esasına dayanır. En iyi ridge sabitinin belirlenmesinde kullanılan yönteme bağlı olarak, parametre kestiriminde en büyük açıklanan varyansı verecek şekilde birçok farklı yazar tarafından farklı ridge kestiricileri ortaya atılmıştır. Daha önce (5.2) ile verilen matris notasyonundaki ÇDR modelinde özellikle tahminleyici değişkenler arasında ÇDB olması durumunda karşılaşılabilecek problem, tasarım matrisi ‟nin sütunları arasında tam ya da yaklaşık doğrusal bağımlılık olmasıdır. Bu durumda EKK kestirimine ilişkin tasarım matrisi formülünde yer alan ‟nin determinantının sıfıra çok yakın olacağı ve dolayısıyla tersinin hesaplanamayacağı için bu formül regresyon parametrelerinin kestiriminde kullanılamaz. RR yöntemi, tasarım matrisinin, tekilliğini ortadan kaldıracak şekilde yeniden yapılandırılması esasına dayanmaktadır. Hoerl ve Kennard (1970) kestirimin sağlamlığını ve varyansını kontrol altında tutabilmek için EKK kestiricisinin genişletilmiş hali olarak olmak üzere (5.16) ile verilen kestirimi önermişlerdir. (5.16) En küçük kareler kestiricisi , durumu için ridge kestiricisinin özel bir hali olarak düşünülebilir. Ridge kestiricisi yanlı olmasına rağmen, EKK kestiriminden daha küçük hata kareler ortalamasına (HKO) sahiptir. Ayrıca (5.16) formülünde yer alan , bağımsız değişkenler matrisi ‟in, matrisini korelasyon matrisi yapacak şekilde normalize edilmiş halidir. parametresinin herhangi bir yanlı bir kestiricisi için HKO, (5.17) şeklinde tanımlanır. Buna göre , ve vektörleri arasındaki ortalama karesel Öklid uzaklığı olarak yorumlanabilir. Bu nedenle düşük HKO değerine sahip olan bir kestirici gerçek parametreye daha yakın olacaktır (Koutsoyiannis, 1977). 74 En küçük kareler kestiricisinin RR literatüründe sıklıkla üzerinde durulan bir özelliği, , matrisinin en küçük özdeğeri olmak üzere, (5.18) eşitsizliğinin geçerli olmasıdır. Açıklayıcı değişkenlerin doğrusal bağlantılı olması ve dolayısıyla ‟nin küçük değerler alması, EKK katsayılar vektörünün karesel uzunluğunun beklenen değerinin, gerçek katsayılar vektörünün karesel uzunluğundan büyük olması anlamına gelmektedir. ‟nin değeri küçüldükçe bu fark daha da büyür. değeri, tasarım matrisi tekilliğe yaklaştıkça, diğer bir ifade ile ÇDB‟nin şiddetinin artmasıyla daha da küçük değerler almaktadır (Judge, Griffits, Hill, Lütkepohl, & Lee, 1985). 5.2.1 Varlık Teoremi RR analizinin temel dayanaklarından birisi varlık teoremidir. Varlık teoremi, her zaman, (5.19) koşulunu sağlayacak pozitif gerçel sayısının bulunabileceğini iddia eder (Hoerl & değerleri, tasarım matrisinin özdeğerlerini, Kennard, 1970, s. 62). Burada fonksiyonu (5.20) ile formülasyonu verildiği gibi ‟nın herhangi bir ve kestiricisi için arasındaki karesel Öklid uzaklığını ifade etmektedir. (5.20) (5.20) ifadesine göre , EKK kestiricisi ile , ise ridge kestiricisi ile arasındaki Öklid uzaklığını ifade etmektedir. Buradan hareketle varlık teoremi, “her zaman, ridge kestiricisinin teorik kestiricinin değerine olan karesel Öklid uzaklığını, EKK değerine olan karesel Öklid uzaklığından daha küçük yapacak pozitif gerçel sayısı mevcuttur” şeklinde yeniden ifade edilebilir. 75 Varlık teoremi ile ilgili sıkıntı, ridge sabiti parametreleri olan ve ‟nin, modelin bilinmeyen ‟ya bağlı olmasıdır. Bu nedenle sayısının varlığı bilinmesine rağmen, uygulama da EKK kestiriminden daha küçük bir HKO verecek bir sayısı belirlendiğinden emin olunmalıdır (Draper & Smith, 1981). 5.2.2 Ridge Kestiricisinin Özellikleri Ridge kestiricisi ‟nın bazı önemli özellikleri aşağıdaki gibi maddeler halinde yazılabilir. Özellik 1: Ridge kestiricisi için hesaplanan HKO, EKK kestiricisi için hesaplanan HKO değerinden daha küçüktür. (5.21) Özellik 2: için artık kareler toplamı (5.22) ile bulunur. (5.22) Özellik 3: Ridge kestiricisinin ortalaması; (5.23) şeklinde hesaplanır. (5.23) formülünden anlaşılacağı gibi durumunda , yanlı bir kestiricidir. Özellik 4: Ridge kestiricisinin yanı, (5.23) ile verilen ortalamasının kullanılması ile (5.24)‟deki gibi bulunur. (5.24) 76 Özellik 5: Ridge kestiricisinin varyans-kovaryans matrisinin, EKK kestiricisinin varyans kovaryans matrisi türünden ifadesi (5.25) ile verilir. (5.25) 5.2.3 GenellestirilmiĢ Ridge Regresyon Yukarıda ele alınan ridge kestiricisi, tasarım matrisinin her bir satırına aynı ridge sabitinin eklendiği varsayımına dayanır ve özel olarak Global Ridge Regresyon (GRR) olarak da adlandırılır. matrisinin her bir satırına farklı bir ridge sabiti eklenmesi ile elde edilen ve Genelleştirilmiş veya Yerel Ridge Regresyon olarak adlandırılan model için parametesinin kestirimi, olmak üzere aşağıdaki şekilde formüle edilir (Hoerl & Kennard, 1970, s. 63). (5.26) 5.3 En Ġyi Ridge Sabitinin Belirlenmesi Ridge sabiti, RR modelini ÇDB probleminden korur. Ridge sabitinin değeri arttıkça, kestiricinin yanlılığı artar ancak varyansı azalır. Bu nedenle, RR uygulamasında çözülmesi gereken en önemli problemlerden birisi, ridge sabitinin belirlenmesidir. Literatürde farklı yazarlar tarafından önerilmiş birçok yöntem bulunmaktadır. Bunlar genellikle HKO ve AKT benzeri hata fonksiyonlarının eniyilenmesi gibi objektif kriterlere dayanmakla beraber, grafik üzerinden karar vermeye dayanan objektif olmayan kriterler de mevcuttur. 5.3.1 Ridge Ġzi Diyagramı Doğru parametresinin belirlenebilmesi için ridge izi diyagramından yararlanılabilir (Hoerl & Kennard, 1970, s. 65). Ridge izi, ridge kestiricileri olan ‟lerin farklı Başlangıçta sabiti değerleri için aldığı değerleri gösteren 2-boyutlu bir grafiktir. değeri sıfırdan başlatılır. daha küçük değer alır ve değeri arttırıldıkça kestirimler mutlak değerce limit durumunda kestirimler sıfır değerine yakınsar. 77 Hoerl ve Kennard (1970, s. 65), ridge izi diyagramında parametre kestirimlerinin durağanlaştığı yerdeki değerinin ridge sabiti olarak belirlenmesini önermişlerdir. ġekil 5-1 Ridge Ġzi Diyagramı (Bjorksrtrom, 2001, s. 8) Ridge izi diyagramına bakılarak sabitinin değerini belirlemeye çalışmak, araştırmacının öznel yargısına dayandığından bu yöntem subjektif bir kriter olarak ele alınmaktadır. Ancak bu yöntem, ridge sabitinin yaklaşık değeri ile ilgili bir önsel bilgi elde edilmesinde kullanılabilir. Şekil 5-1‟e göre aralığında bir değerde tüm ridge parametrelerinin durağanlaştığı görülmektedir. Dolayısıyla ridge sabitinin aralığında bir değer olduğu söylenebilir. 5.3.2 Ridge Sabitinin Belirlenmesinde Kullanılan Diğer Yöntemler Ridge sabitinin belirlenmesine ilişkin bu kısımda tanıtılacak yöntemler için matrisi ve vektörünün standartlaştırılmış olduğu varsayılmaktadır. Dolayısıyla matrisi bağımsız değişkenler arasındaki korelasyon matrisini ve vektörü bağımsız değişkenler ile bağımlı değişken arasındaki korelasyon vektörünü göstermektedir. 78 Hoerl, Kennard ve Baldwin (1975) tarafından önerilen ridge parametresi seçimi, (5.27) formülü ile verilmektedir. Burada , kestirilen parametre sayısı, EKK kestiricisi ve sabit terim içermeyen ise EKK yönteminden elde edilen tahminlenen bağımlı değişken varyansıdır. Lindley ve Smith (1972), ve dağılımları varsayımı altında ridge sabitinin Bayes kestiriminin göstermiştir. Regresyon artıklarının varyansı önsel olasılık olduğunu ve regresyon katsayılarının varyansı genellikle bilinmeyen parametreler oldukları için formülde bu varsayımların kestirimleri kullanılmaktadır. (5.28) (5.28) ile verilen yöntemlere ek olarak önerilmiş bazı teknikler ise aralığının taranarak en iyi parametresinin bulunması esasına dayanır. Ayrıca Genelleştirilmiş Çapraz Doğrulama (GÇD) yöntemi de en iyi ridge parametresinin bulunmasında sıklıkla kullanılan bir yöntemdir. Hataların sıfır ortalamalı normal dağılımlı olmasına dayanan GÇD yöntemine göre en iyi ridge sabitinin bulunması amacıyla, olmak üzere (5.29) ile verilen fonksiyon enküçüklenir (Golub, Heath, & Wahba, 1979). (5.29) Son yıllarda Bozdoğan‟ın bilgi kompleksliği ölçümü yaklaşımı da ridge sabiti seçimine başarı ile uyarlanmaktadır (Urmanov, Bozdogan, Gribok, Hines, & Uhrig, 2002). 79 5.4 Hibrit RTFA Modelinde Ridge Regresyonun Kullanımı Hibrit RTFA modelinde gizli katmanda radyal tabanlı fonksiyonlar tarafından işlenen girdi değerlerinin oluşturduğu matrisi belirlenmesi gereken model parametresi, ile gösterilmektedir. Bu aşamada ağırlık değerleridir ve bu değerler (5.30) ile verilen doğrusal modelin çözümünden elde edilir. (5.30) Daha önce Bölüm 3‟te belirtildiği üzere Hibrit RTFA modelinde sorun, tasarım ‟nin tekil matris olmasıdır. Bu nedenle ağırlık parametreleri, EKK matrisi yöntemine dayalı, (5.31) formülü ile doğrudan hesaplanamaz. Bu aşamada Hibrit RTFA modelinin ağırlık parametrelerinin hesaplanmasında RR modeli kullanılmıştır. Buna göre Hibrit RTFA modelinin ağırlık parametreleri için kullanılan formül, (5.32) şeklindedir. (5.33) formülünde yer alan k sabiti ise daha önce açıklanan Hoerl Kennard (1970) tarafından ortaya atılan ridge kestiricisi olarak belirlenmiştir. Bu bağlamda herhangi bir girdisi için Hibrit RTFA modelinin çıktısı (5.33) formülü ile hesaplanır. (5.33) Çalışmanın bu kısmına kadar girdi katmanından modele girilen verinin çıktı katmanına kadar işlenme süreci açıklanarak Hibrit RTFA modelinin çıktısının nasıl elde edildiği üzerinde durulmuştur. Bir sonraki bölümünde ise Hibrit RTFA modelinin, bağımlı değişken üzerindeki açıklayıcılığı en yüksek bağımsız değişken alt kümesinin belirlenmesinde kullanılan değişken seçimi teknikleri ile nasıl birleştirildiği üzerinde durulmaktadır. Bu bağlamda Bölüm 6‟da öncelikle bilgi kriteri kavramı ve bu kavrama 80 dayanan değişken seçim kriterlerinden bahsedilmiştir. Daha sonra açıklanan bu kriterler ile Hibrit RTFA modelinin entegrasyonu üzerinde durulmaktadır. 81 BÖLÜM 6 DEĞĠġKEN SEÇĠMĠ Model Seçimi (Model Selection) olarak ta bilinen Değişken Seçimi (Variable Selection) ile bağımsız değişkenlerinden hangisinin ya da hangilerinin bağımlı değişken üzerinde etkili olduğu belirlenerek problemin boyutu indirgenir. Böylece hem hesaplama kolaylığı sağlanmakta hem de veri derlemesine ilişkin maliyetler azaltılmaktadır. Problem boyutunun indirgenmesinin diğer bir yararı ise, model parametrelerinin daha doğru bir şekilde kestirilmesi ve parametreler hakkında daha açık yorum yapılmasının sağlamasıdır. Bağımsız değişken sayısının çok olduğu ve ekonometrik modeller gibi model hakkında önsel bilginin bulunmadığı veya yetersiz olduğu durumlarda, en iyi bağımsız değişkenlerin belirlenmesi, tahminleme problemlerinin önündeki büyük bir sorundur. Bazı durumlarda açıklayıcı değişkenlere ilişkin alternatif seçim sayısı milyonları bulabilmektedir. Örneğin 20 açıklayıcı değişkenin bulunduğu bir problem için önsel bilginin bulunmaması durumunda farklı değişken kombinasyonu söz konusudur ve bu sayı açıklayıcı değişken sayısına bağlı olarak üstel olara artış gösterir. Dolayısıyla tüm olası açıklayıcı değişken kombinasyonlarının denenerek veriye en uygun değişkenlerin belirlenmesi oldukça maliyetli ve hatta değişken sayısına bağlı olarak imkansız olabilir. Bu bağlamda, hem alternatif değişken kombinasyonları arasından seçim yapılmasını sağlayacak değişken seçim kriterlerine hem de bu değişken seçim kriterlerine göre tüm alternatif modellerin tümünü denenmeden en iyi değişken kombinasyonunun belirlenmesini sağlayabilecek optimizasyon tekniklerine olan gereksinim ortaya çıkmaktadır (Bozdogan H. , 2004). İstatistik paket programlarının çoğu, değişken seçimi için adımsal teknikler yardımı ile Değişken Seçimi seçeneğini sunarlar. Bununla birlikte, adımsal teknikler her zaman en iyi değişken kombinasyonunun bulunmasını garanti etmezler (Bozdogan H. , 2004). Adımsal teknikler ile ilgili en önemli eleştiri, modele girecek ve modelden 82 çıkacak değişkenlerin sırasının belirlenmesinin teorik dayanaktan yoksun olması (Boyce, Farhi, & Weischedel, 1974) (Wilkinson, 1989) ve dolayısıyla doğru değişkenlerin seçilmesinin rastlantısallık içermesidir. Adımsal teknikler ile ilgili diğer bir eleştiri ise adımsal tekniklerin tamamıyla doğru değişkenleri nadiren belirleyebilmesidir (Mantel, 1970), (Hocking, 1983), (Moses, 1986). Son olarak adımsal tekniklerin belki de en zayıf yönü, sadece yerel aramaya dayalı bir algoritma olmaları nedeniyle tüm arama uzayının oldukça sınırlı bir bölgesinin taranabilmesidir. Adımsal teknikler kullanılarak en iyi ihtimalle, uygun bir model belirlenebilir (Sokal & Rohlf, 1981). Bilgi kriterlerine dayalı değişken seçimi, adımsal tekniklere alternatif oluşturmaktadır. Akaike (1973) tarafından ortaya atılan Akaike Bilgi Kriteri (Akaike‟s Information Criterion - AIC) bu konuda milat olarak sayılabilir. Akaike‟nin ilgili çalışmasını takiben AIC‟yi temel alan ve bu nedenle Akaike-tipi bilgi kriterleri olarak adlandırılan birçok kriter geliştirilmiştir. Schwartz (1978) tarafından geliştirilen Schwartz Bayesci Bilgi Kriteri (Schwartz‟s Bayesian Criterion - SBC ya da Bayesian Information Criterion - BIC), Hannan-Quinn (1979) tarafından geliştirilen HannanQuinn Bilgi Kriteri (Hannan & Quinn‟s Criterion - HQC) ve Bozdogan (1987) tarafından geliştirilen Tutarlı Akaike Bilgi Kriteri (Consistent Akaike Information Criteria - CAIC) bu kriterlerden sıklıkla kullanılanlarıdır. Değişken seçiminde ayrı bir sınıf olan ve Bozdogan (1988), (1994), (2000) tarafından geliştirilmiş olan bilgi karmaşıklığına dayalı değişken seçim kriterleri ise ICOMP (Information Complexity)tipi kriterler olarak bilinmektedir. ICOMP-tipi kriterler, sadece uyum iyiliği ve model yalınlığını değil, model karmaşıklığını da azaltmak üzere bilgi karmaşıklığını göz önüne alırlar. Burada önemli nokta, bilginin tutarlı bir şekilde ölçülebilmesidir. Bu bağlamda değişken seçim kriterlerine geçilmeden önce bilgi ölçümü ve bilgi karmaşıklığı kavramları üzerinde durulmuştur. 83 6.1 Uyum Ġyiliği ve Bilgi Ölçümü Uyum iyiliği ve bilgi ölçüsünde entropi, Kullback-Leibler uzaklığı ve Fisher Bilgi Matrisi kavramları önemli bir yer tutmaktadır. Çalışmanın devam eden kısımlarına temel oluşturacak bu kavramlar sırasıyla aşağıdaki gibi özetlenebilir. 6.1.1 Entropi Bilgi kuramında Cladue E. Shannon (1951) tarafından tanıtılan entropi kavramı, bir rastlantı değişkeni için belirsizlik ölçüsü olarak tanımlanmaktadır (Wang, 2008, s. 1). Dolayısıyla herhangi bir rastlantı değişkeni için hesaplanan ve ile gösterilen entropi, rastlantı değişkeni ile ilgili bilgi ölçüsü olarak yorumlanabilir. Diğer bir ifade ile dağılım fonksiyonuna sahip olduğu varsayılan bir formülü ile hesaplanan entropi, rastlantı değişkeni için rastlantı değişkeninin dağılımına ne kadar uyduğu bilgisini vermektedir. Buradan hareketle, normal dağılıma uyan bir rastlantı değişkeni için Shannon entropisi (6.1) formülü ile hesaplanır. (6.1) (6.1) ile normal dağılan bir rastlantı değişkeni için hesaplanmış olan entropi, bilinmeyen parametre değerlerine bağlıdır ve bu parametreler örneklem yardımı ile kestirilir (Deniz, 2007). 6.1.2 Kullback-Leibler Uzaklığı Kullback-Leibler (KL) uzaklığı tüm bilgi kriterlerinin temel çıkış noktasıdır. İlk defa Kullback ve Leibler (1951) tarafından tanıtılan KL uzaklığı, iki olasılık dağılımı 84 arasındaki uzaklığın ölçülmesinde kullanılır. Uygulamada ise genellikle tahminlenen ve gerçek model arasındaki uzaklığın ölçümünde kullanıldığı için ne kadar küçük değer alıyorsa gerçek modele o kadar çok yaklaşılmış demektir. parametre vektörü için raslantı değişkeninin bileşik olasılık yoğunluk fonksiyonu olmak üzere, gerçek model fonksiyonu ile verilmiş olsun. Ayrıca gerçek model ile herhangi bir model olan arasındaki KL fonksiyonu, verilen bir uzaklığı ile ifade edilsin. Bu durumda ) değişkenleri birbirinden ( bağımsız olmak üzere, KL uzaklığı (6.2) formülü ile hesaplanır. (6.2) Yukarıdaki formülde yer alan ( ), değişkeninin marjinal olasılık yoğunluk fonksiyonunu göstermektedir. Ayrıca (6.2)‟nin ilk terimi verilen bir içim sabit olan negatif entropi, olur. İkinci terim ise (6.3) ile ifade edilir ve (6.4) formülü uyarınca yansız olarak tahminlenir. (6.3) (6.4) Böylece, genellikle bilinmeyen doğru parametre vektörü çıkarılmış olur. (6.4)‟de yer alan , gözlemlerin , formülden parametresi için kestirilen log-olabilirlik fonksiyonudur. Uygulamada öncelikle, en çok olabilirlik kestirimi ile elde edilen için parametre vektörü kestirilir ve buradan, (6.5) ifadesine yakınsamak üzere en büyüklenmiş olan log-olabilirlik fonksiyonu kullanılır (Howe, 2009). 85 6.1.3 Fisher Bilgi Matrisi Fisher bilgisi, bir bilinmeyen rastlantı değişkenine ait rastlantısal gözlem değerlerinin, parametresi hakkında taşıdığı bilginin ölçüsüdür. Fisher bilgisi, değişkenine ait olabilirlik fonksiyonunun raslantı parametresine göre ikinci türevinin beklenen değerinin ters işaretlisi olarak tanımlanır. Fisher Bilgisine dayanan yarı pozitif tanımlı ve simetrik Fisher Bilgi Matrisi, (6.6)-(6.9) arası verilen hesaplama prosedürü yardımıyla elde edilir (Li, Asma, Qi, Bading, & Leahy, 2004). bağımsız bileşenden oluşan yoğunluk fonksiyonu olmak üzere, rastlantı değişkeninin olasılık rastlantı değişkenine ait olabilirlik fonksiyonu (6.6) şeklindedir. (6.6) Buradan log-olabilirlik fonksiyonu (6.7) formunda yazılabilir. (6.7) (6.7) ile çıkarımı verilen log-olabilirlik fonksiyonunun kullanılmasıyla Fisher bilgisinin beklenen değeri (6.8) formülü ile hesaplanır. (6.8) İstatistiksel kestirim kuramına önemli bir katkı sağlayan Fisher bilgisi, etkinlik ve yeterlilik kavramları ile yakından ilgilidir. Negatif olmayan bir değerler alan bu bilgi, parametresine ilişkin bilginin miktarını ölçer ve ‟nın yansız kestiricisinin doğruluğu ile orantılıdır. Fisher bilgisi ile Kullback-Leibler bilgisinin yeterlilik, etkinlik, toplanabilirlik ve gözlemlerin gruplanmasına ilişkin özellikleri benzerdir (Kotz & Johnson, 1982). Fisher bilgi matrisinin tersi ile model kovaryans matrisi yakından ilişkilidir. Bu özelliği ile Fisher bilgisi, bazı değişken seçim kriterlerinde önemli rol oynamaktadır. 86 Kestirilen Ters-Fisher Bilgi Matrisi (Inverse Fisher Information Matrix - IFIM), parametre kestirimi yardımı ile elde edilen kovaryans matrisi ‟nın kullanılmasıyla, (6.9) şeklinde hesaplanır. Yukarıdaki formülde matrisi, ise , boyutlu dublikasyon ‟nin Moore-Penrose tersi olacak şekilde ile hesaplanan boyutlu matristir. formülü işareti ise doğrudan (kronecker) çarpımı ifade etmektedir (Williams, Bozdogan, & Aiman-Smith, 1995). 6.2 Akaike-Tipi DeğiĢken Seçim Kriterleri Sonlu sayıdaki alternatif değişken kombinasyonları içinden eldeki veriye en iyi uyum gösteren değişkenlerin seçilmesinde iki tip hata dikkate alınır. Bunlardan birincisi modelleme hatası, ikincisi ise yan ve varyans kavramlarının oluşturduğu kestirim hatası denen ve parametre vektörünün kestiriminden kaynaklanan hatadır. modelleme riskini ve toplam riski, ise kestirim riskini göstermek üzere toplam risk aşağıdaki şeklide ifade edilir. Genellikle değişken seçim kriterleri kullanılırken modelin önceden belirlenen belirli bir parametrik dağılıma uyduğu varsayılarak model kestirilir. Ancak veri analizi süreci boyunca sıklıkla, eldeki veriler bilinen dağılımlara uyum göstermediği durumlarla karşılaşılır. Bu gibi durumlarda, modelin dağılımının doğru belirlenebilmesi anlamında hatalı modelleme riski ortaya çıkmaktadır. Dağılımın doğru belirlenmesi gereklidir ancak yeterli değildir. Kestirim riski ise gerçek parametre vektörünün, belirlenen model 87 üzerinden sınırlandırılmış bir parametre uzayı için kestirildiği durumlarda ortaya çıkar. Burada risk, kestirimde varyans bileşeni olarak adlandırılır. Gerçek parametre vektörünün, modelin sınırlandırılmış parametre uzayı tarafından içerilmediği durumda yan oluşur. Kestirimde yan ve varyansın diğer bir ifadesi ise şu şekildedir: Varyans, modelin kabul edilen parametre uzayının büyüklüğüne karşılık getirilen ceza olarak yorumlanabilirken yan, modelin gerçek parametre vektörü ile indirgenmiş parametre uzayı arasındaki uzaklıktır. Model değişkenlerinin seçiminde amaç, toplam risk ‟nin enküçüklenmesidir. Bu bağlamda değişken seçim kriterleri, en çok olabilirlik kestirimi altında modelin toplam riskinin kestiricileridir ve başarım ölçüsü olarak adlandırılır. Akaike (1973), (1974), (1981) bu alanda yayınladığı art arda önemli makaleleri ile istatistik modelleme ve model değerlendirmesi alanındaki gelişmelere ön ayak olmuştur (Bozdogan H. , 2000). AIC-tipi kriterler, AIC kriterini temel alan kriterlerin ortak adıdır. Bu kriterler için uyum eksikliği bileşeni aynı olmakla beraber, kestirilen parametre sayısının cezalandırıldığı ceza terimleri açısından farklılık gösterir. 6.2.1 Akaike Bilgi Kriteri Ortalama beklenen olabilirliğin logaritmasının katının yansız kestircisi olan AIC, kestirilen modelin uyum eksikliğinin ve kestirilen parametre sayısının cezalandırılmasına dayalı bir kriterdir. Parametre sayısının ceza terimi olarak kritere eklenmesi AIC‟yi farklı boyutlu modellerin karşılaştırmasında kullanılabilir hale getirmektedir (Deniz, 2007). Uyum eksikliğinin cezalandırılması ise KL uzaklığına dayanmaktadır. Buna göre , olabilirlik kestiricisi ve boyutlu bilinmeyen parametre vektörü, , ‟nın en çok , bilinmeyen parametreli olabilirlik fonksiyonu olmak üzere AIC, (6.10) 88 şeklinde formüle edilir. AIC formülünün birinci terimi uyum eksikliğini, ikinci terimi ise parametre sayısını cezalandırmaktadır. (6.10) ile verilen gösterimin yanında AIC, daha açık bir formülasyonla (6.11) ile verildiği gibi de ifade edilebilir. (6.11) (6.11)‟de gözlem sayısını, bağımsız değişken değerleri matrisini ve ise parametre kestirimi vektörünü göstermektedir. Alternatif modeller arasından en küçük AIC değerine sahip olan model, en iyi model olarak belirlenir. Karşılaştırılan modeller için AIC değerinin enküçüklenmesiyle bir anlamda kestirilen model ile gerçek model arasındaki KL uzaklığı enküçüklenmiş olur. AIC, en çok olabilirlik kestirimi yapılması ve gerçek modeli içeren parametrik dağılımlar ailesi üzerinde çalışılması koşulları altında uygulanabilir (Deniz, 2007). 6.2.2 Schwartz Bilgi Kriteri Bayesci Bilgi Kriteri olarak da bilinen SBC, AIC‟nin bir türevi olarak Schwartz (1978) tarafından ortaya atılmıştır. Bayes kuramını temel alan SBC kriterinin ceza terimi AIC‟nin ceza teriminden daha büyüktür. Dolayısıyla (6.12) ile formülasyonu verilen SBC ile seçilecek olan modelin, AIC ile seçilecek olan modelden daha küçük veya en azından eşit boyutlu olması beklenir. (6.12) AIC‟de olduğu gibi (6.12) verilen SBC formülasyonu da (6.13) ile verildiği gibi açık formda yazılabilir. (6.13) 89 6.2.3 Tutarlı Akaike Bilgi Kriteri (CAIC) AIC formülü, son terimi olan bilinmeyen parametrenin neden 2 ile çarpıldığının açık olmadığı noktasında eleştirilmektedir. Rissanen (1978) bu sayının rastgele seçildiğini belirtmiş, Bhansali ve Downham (1977) ise çalışmalarında 2 yerine, değeri 1 ile 4 arasında değerler alabilecek bir sabiti için genellemeler yapmıştır. CAIC, Bozdoğan (1987) tarafından AIC kriterinin bir türevi olarak ortaya atılmıştır. CAIC, AIC‟ye göre daha tutarlı bir kriterdir (Bozdogan H. , 1987). Kestirilen parametre sayısına ilişkin ceza terimi, AIC‟nin ceza terimine göre oldukça fazladır. Bu özelliği ile CAIC, daha az parametreli model seçilmesini sağlamaktadır. Formülasyonu, (6.14) şeklinde verilen CAIC‟ye göre en iyi model, en küçük CAIC değerini veren modeldir. CAIC formülü SBC‟ye benzemekle beraber, CAIC‟nin ceza terimi SBC'nin ceza teriminden bilinmeyen parametre sayısı kadar daha fazladır. Dolayısıyla CAIC ile seçilen model SBC‟ye oranla da daha basit model olacaktır. 6.2.4 Fisher Bilgi Matrisine Dayalı Tutarlı Akaike Bilgi Kriteri ( CAICF) Fisher bilgisine dayalı AIC olarak ta bilinen CAICF, ceza terimine Fisher bilgi matrisinin eklenmesiyle, CAIC‟ye farklı bir yaklaşım getirmektedir. Buna göre, kestirilen Fisher bilgi matrisi olmak üzere CAICF, aşağıda verildiği şekilde tanımlanır. (6.15) Bozdogan (1987)‟a göre AIC, CAIC ve CAICF, en iyi modelin, diğer bir ifade ile açıklayıcı değişkenlerin veriye uygun en iyi alt kümesinin belirlenmesinde etkili kriterlerdir. Ayrıca anlamlılık düzeyinin rastgele belirlenmemesi ve hesaplama kolaylığı açısından diğer yöntemlere göre üstündürler. CAIC ve CAICF kullanılması ile ezberleme olarak adlandırılan veriye aşırı bağımlılık ya da veriye aşırı uyum gösteren 90 model elde edilmesi olasılığı azaltılmış ve daha basit modeller elde edilmiş olur (Bozdogan H. , 1987). Tutarlı kriterler için gözlem sayısı arttıkça bir modelin uyum eksikliği ya da aşırı uyum göstermesi olasılığı azalacaktır. Sonuç olarak örneklem büyüklüğünün fazla olduğu durumlarda CAIC veya CAICF, aşırı uyumun sorun olarak kabul edilmediği durumlarda ise AIC kriterinin kullanılması uygundur (Deniz, 2007). 6.3 ICOMP Tipi DeğiĢken Seçim Kriterleri Van Endem (1971)‟e göre -değişkenli bir Gauss dağılımı için karmaşıklığın makul bir tanımı kovaryans matrisi, , aracılığı ile yapılabilir. ‟inci değişkene ait ile ve tüm değişkenler üzerinden bileşik entropi marjinal entropi ile gösterilmek üzere modelin karmaşıklığı (6.16) ile ifade edebilir. (6.16) Burada ile formülünde yer alan Eğer Eğer ‟inci değişkenin varyansı ifade edilmektedir. (6.16) ‟ın bazı karakteristik özellikleri aşağıdaki gibi sıralanabilir. köşegen matris ise ise eşitliği geçerlidir. olur. formülünün sağ tarafındaki ilk ifade ortonormal dönüşümler altında sabit değildir. 91 sistem koordinatları üzerinden yapılan en Sonuç olarak tüm büyükleme işlemi ile Bozdogan (1988)‟e göre karmaşıklığın birinci dereceden en büyük bilgi kuramsal ölçümü aşağıdaki şeklide elde edilir. (6.17) ile ölçülen kovaryans matrisi her zaman tam ranklı olmayacağı için formülde yer alan değeri genellikle olarak ile değiştirilir. ‟e ilişkin bazı özellikler ise aşağıdaki gibi verilebilir (Howe, 2007). , özdeğerlerin aritmetik ortalamasının geometrik ortalamasına oranının logaritmasıdır. , iz ve determinant gibi çok basit ölçümler yardımıyla hesaplanır. ilişkisi geçerlidir. için Değişkenler arasındaki iletişim arttıkça büyür. ICOMP genel olarak iki KL uzaklığının toplamı olacak şekilde ifade edilebilir (Bozdogan, 1988, 1994, 2000, 2004). Genel çok değişkenli doğrusal ya da doğrusal olmayan modeller için model değerinin, Ters Fisher Bilgi Matrisi (Inverse Fisher Information Matrix - IFIM) için hesaplanan karmaşık olacak şekilde, ile kestirildiği varsayımı altında ICOMP(IFIM) kriteri, Bozdogan (1988) tarafından (5.18) ile tanımlanmıştır. (5.18) Burada kestirilen parametrenin dağılımı ifade edilebilir. Ayrıca şeklinde , (5.19) eşitliğinde verilen çok değişkenli normal dağılıma ait IFIM‟in karmaşıklığının en büyük teorik bilgi ölçümü değerdir. 92 (5.19) Yukarıdaki eşitlikte yer alan parametrelerden , şeklinde hesaplanır. Hibrit RTF modeli için IFIM ise, (6.20) şeklinde tanımlanır. Bu tanımın kullanılması ile ICOMP(IFIM), aşağıdaki biçime dönüşür. (6.21) Burada entropik karmaşıklık değeri (6.22) ile hesaplanmaktadır. (6.22) (6.21) ile tanımlanan ICOMP(IFIM) kriterinden başka, yanlış tanımlanmış modeller için ICOMP temelli Değişken Seçim kriteri ise (6.22) şekilde tanımlanır. (6.23) (6.23) ile verilen eşitlikte yer alan değeri, 93 (6.24) şeklinde hesaplanmaktadır. (6.25) (6.25) ile verilen formül, kovaryans matrisinin kestirimidir. Varsayılan modelin doğru olup olmamasına bağlı olmaksızın doğru varyansı verdiği için sıklıkla “Sandviç Kovaryans” veya “Sağlam Kovaryans” kestiricisi olarak adlandırılır. Modelin doğru olduğu durumda alınır ve (6.25) kovaryans formülü Fisher bilgi matrisinin tersi formülüne indirgenir (White, 1982). İlgili kovaryans matrisi basıklık ve çarpıklık değerlerini de hesaba katarken bu durum, AIC ve SBC kriterlerinin kullanıldığı durumlarda mümkün değildir. 6.4 AIC-Tipi Kriterler ile ICOMP-Tipi Kriterlerin KarĢılaĢtırılması Akaike-tipi kriterlerle uyum eksikliği ve modelin kestirilen parametre sayısı cezalandırılmaktadır. Bu bağlamda Akaike-tipi kriterlere yöneltilen en önemli eleştiri, bağımsız değişkenler arasındaki korelasyonu hesaba katmamasıdır. Bu nedenle, Akaiketipi kriterler kullanılarak yapılan değişken seçimi işlemi ile birbirleriyle yüksek dereceden korelasyonlu bağımsız değişkenlerin seçilmesi olasıdır. Bu da, çoklu doğrusal bağlantı sorununa neden olabilecek bir model oluşturulması anlamına gelmektedir. Diğer bir ifade ile Akaike-tipi kriterlerle en az açıklayıcı değişken kullanılarak en iyi uyum iyiliği sağlayan model belirlenirken, seçilen değişkenler arasındaki çoklu doğrusal bağlantı ile ilgili bilgi içerilmemektedir. Yukarıda sözü edilen AIC-tipi kriterlere yöneltilen eleştiri noktasından hareketle ICOMP-tipi kriterler, uyum eksikliği ve kestirilen parametre sayısının yanında, bağımsız değişkenler arasındaki ilişkiyi de cezalandırır. Dolayısıyla ICOMP-tipi kriterler kullanılarak seçilen model, ÇDB problemi dikkate alınarak seçilmiş bir model olmaktadır. Diğer bir ifade ile ICOMP-tipi kriterler, en düşük seviyede çoklu doğrusal 94 bağlantılı ve mümkün en az sayıdaki değişken kullanılarak olabilecek en iyi uyum iyiliğini sağlayacak bağımsız değişkenlerin seçilmesini sağlarlar. Bu bağlamda ICOMPtipi kriterlerle belirlenen modelin, AIC-tipi kriterle belirlenen modele oranla, ÇDB problemine neden olma olasılığı daha düşük olmaktadır. Akaike-tipi kriterler karmaşıklığa sadece bilinmeyen parametre sayısı açısından duyarlıdır (Mark A. Pitt, 2002, s. 475). AIC tipi kriterler bu nedenle yetersiz kalabilir. (6.9)‟de bulunan IFIM‟nin izi ve determinantı, sırasıyla parametre duyarlılığının etkisi ve parametrelerin korelasyonunu dikkate alan karmaşık bir fonksiyonu temsil etmektedirler (Deniz, 2007). 6.5 En Ġyi Model DeğiĢkenlerinin Genetik Algoritma ile Belirlenmesi Değişken seçim kriterleri ile ilgili buraya kadar anlatılan kısımdan çıkan sonuç, hangi değişken seçim kriteri kullanılırsa kullanılsın, ilgili kriterin değerini en küçük yapacak model en iyi model olarak belirlenmesidir. Dolayısıyla en iyi açıklayıcı değişken alt kümesinin belirlenmesi işlemi, belirlenmiş olan değişken seçim kriterini amaç fonksiyonu, açıklayıcı değişkenlerin tüm olası kombinasyonlarının oluşturduğu kümeyi ise arama uzayı olarak kabul eden bir eniyileme problemi olarak düşünülebilir. Açıklayıcı değişken sayısının artışına bağlı olarak arama uzayının üstel olarak büyümesi nedeniyle tüm değişken kombinasyonlarına karşılık gelen değişken seçim kriteri değerinin hesaplanması zor hatta zaman ve maliyet açısından imkansız olabilir. Ayrıca üzerinden eniyileme eniyileme yapılacak olan değişken seçim kriterleri oldukça karmaşık fonksiyonlar oldukları için analitik yollardan enküçüklenmeleri çok zordur. Değişken sayısı arttıkça, klasik yöntemlerle değişken seçimi yapmak güç olacağı için son yıllarda oldukça popüler olan genetik algoritma yöntemi tercih edilmektedir. 6.5.1 Genetik Algoritma Evrimsel algoritmalar, gradyen temelli en iyileme algoritmalarına alternatif olarak ilk defa 1970‟li yılların başında ortaya atılmıştır. Newton gibi eniyileme yöntemleri, problemin tek bir çözüm noktasının geliştirilmesi esasına dayanmaktadır. 95 Diğer taraftan evrimsel yaklaşım, geniş bir olası çözümler kümesinin simüle edilmesi ile çözüme ulaşılması şeklindedir. Bu olası çözümler arasında rastlantısal mutasyonlar ve en iyi uygunluk temelli seçim ile birbirleri ile etkileşime izin verilerek iteratif bir şekilde en iyi çözüme ulaşılır. Evrimsel algoritmaların bir türü olan Genetik Algoritma (GA), Holland (1975) ve öğrencileri tarafından geliştirilmiştir. Scientific American dergisinde Holland (1992) tarafından yayınlanan “Genetic Algorithms” isimli makale, genetik algoritmaların popüler hale geldiği yayın olarak sayılabilir. Ayrıca Vose (1999) tarafından yayınlanan “The Simple Genetic Algorithm: Foundations and Theory” isimli kitap GA‟nın matematiksel altyapısının anlaşılması için iyi bir kaynak oluşturmaktadır. 6.5.2 Genetik Algoritmanın Yapısı Genetik algoritma, biyolojik evrimden esinlenen bir rastlantısal arama algoritmasıdır. Biyolojik organizmaları belirleyen kromozomlar genetik algoritmada genellikle ikili değerlerle temsil edilir. Bu ikili değerler optimizasyon problemi için olası bir çözümün bileşenleri olarak düşünülebilir. Aşağıda genel olarak adımları verilen GA, birbirini takip eden basit süreçlerden oluşmaktadır. 1. Başlangıç çözümünü üret, 2. Mevcut çözüm popülasyonunun elamanlarını sırala, 3. Mevcut popülasyonun bir sonraki nesli üretmek üzere nasıl etkileşime gireceğini belirle, 4. Bireyleri çiftleştir; kromozomlar arası çaprazlama ve genetik mutasyon uygula, 5. Elde edilen bireyleri yeni nesle aktar, 6. Bitirme kriteri sağlanıyorsa algoritmayı bitir, sağlanmıyorsa Adım 2 ye dön. 96 Tablo 6-1 Genetik Algoritma Parametreleri Parametre Adı Nesil Sayısı Erken Bitirme Eşiği Popülasyon Büyüklüğü Nesil Tohumlama Türü Çaprazlama Olasılığı Mutasyon Olasılığı Elitizm Amaç Fonksiyonu Örnek parametre Değeri 60 40 30 Rulet 0,75 0,10 Evet bilgi kriteri Genetik algoritma için, örnek değerleri Tablo 6-1‟de verilen 8 ana işlevsel parametre vardır. Tablo 6-1 ile verilen GA parametrelerinin ve işlemcilerinin tanımları takip eden kısımda açıklanmaktadır. GA parametre ve işlemcilerinin temel tanımlarının verilmesinden sonra özel olarak GA‟nın Değişken Seçimi üzerine uygulaması üzerinde durulacaktır. 6.5.3 Genetik Algoritmanın Parametreleri Nesil Sayısı: GA‟da iterasyonlar, biyolojik esin kaynağına atfen, nesil olarak adlandırılır. Dolayısıyla nesil sayısı parametresi kendi kendini açıklamaktadır. Burada nesil sayısının belirlenmesi, genetik algoritma ile çözüm sürecinde oldukça önemlidir. Nesil sayısının çok büyük belirlenmesi hesaplama süresinin artmasına yol açarken yeterinden az belirlenen nesil sayısı, en iyi olmayan bir çözüm bulunması ile sonuçlanabilir (Howe, 2007). Erken Bitirme Kriteri: Bu parametre GA‟nın yakınsama kriteridir. Algoritmanın amaç fonksiyonunda bir iyileşme kaydetmeksizin belirli bir sayıda nesil aktarımı yapması, algoritmanın en iyi ya da en iyiye yakın bir çözüme yakınsaması olarak yorumlanır. Burada amaç fonksiyonunda ilerleme olmaksızın algoritmanın devam ettirileceği maksimum iterasyon sayısının yüksek belirlenmesi hesaplama süresinin artmasına neden olur. Diğer taraftan bu parametrenin düşük belirlenmesi, mevcut çözümden optimal çözüme geçme olasılığını azaltabilir. 97 Popülasyon Büyüklüğü: Bu parametre ile her bir nesilde kaç tane birey (çözüm noktası) yer alacağı kontrol edilir. Genellikle popülasyon sayısının arttırılması ile algoritmanın yakınsama süresinin azaltılması beklenir. Ancak belirli bir noktadan sonra aşırı popülasyon büyüklüğünün yol açacağı yoğun hesaplama yükü, algoritmanın iyi çalışmamasına yol açar. Bu parametrenin belirlenmesi oldukça zordur ve bu konuda önerilmiş az sayıda sezgisel yaklaşım vardır. Örneğin belirleme probleminde popülasyon sayısı , değişkenli bir en iyi alt kümeyi koşulunu sağlamalıdır (Bozdogan H. , 2004, s. 37). Nesil Tohumlama Türü: Bu parametre ile gelecek neslin bireylerinin hangi tohumlama türü ile üretileceği kontrol edilir. Bu amaca yönelik sıklıkla kullanılan 3 yöntem vardır. Bunlardan en basiti, çözümlerin rastgele olarak parçalanması ve çiftleştirilmesidir. Turnuva Seçimi yönteminde, olmak üzere, sayıda çözümünden oluşan küme tek biçimli dağılıma göre rastgele olarak üretilir ve amaç fonksiyonu değerleri hesaplanır. En iyi amaç fonksiyonu değerine sahip olan iki çözüm çiftleştirilerek bir sonraki nesle aktarılır. Bu işlem, bir sonraki nesil tamamlanana kadar tekrarlanır. Turnuva seçimi yönteminin faydası, her bir iterasyonda popülasyonu oluşturan tüm bireyler için amaç fonksiyonunun hesaplanmamasıdır. Hesaplanması zor olan bir amaç fonksiyonu ile çalışılan problemlerde bu yöntem zaman kazanımı açısından oldukça etkilidir. Oldukça sıklıkla kullanılan diğer bir yöntem ise Rulet Seçimi olarak adlandırılır. Bu yöntem her bir gözesi farklı büyüklükte olan hileli bir rulet tekerleği ile rulet oynamaya benzer. Herhangi bir . çözüm için göze genişliği, olmak üzere, (6.26) formülü ile hesaplanır. Yukarıdaki formüle göre örneğin 4 kromozom için sıralanmış göze genişliklerinin hesaplanışı Tablo 6-2‟de verildiği gibidir. 98 Tablo 6-2 Göze GeniĢlikleri Göze GeniĢliği Her bir kromozom için seçilme alt ve üst limitleri Tablo 6-3‟teki gibi hesaplanır. Tablo 6-3 Bireylerin Alt ve Üst Seçim Aralıkları Alt ve Üst Limitler 1 2 3 4 0,00 0,10 0,10 0,30 0,30 0,60 0,60 1,00 Daha geniş olan başlangıçtaki gözelere karşılık gelen kromozomlar için amaç fonksiyonu değeri en iyiye daha yakındır. Bu noktada, dağılımından tek biçimli adet rasgele sayı üretilir ve üretilen her bir sayı Tablo 6-3‟ten hangi kromozomun alt ve üst sınırları arasında yer alıyorsa o kromozom seçilir. Bu yöntemle daha iyi amaç fonksiyonu değerine sahip kromozomların çiftleştirme havuzunda yer alma olasılıkları artmaktadır. Sonuç olarak çözümlerin sırası rastgele olarak değiştirilmiş olur ve çözümler sırayla eşleştirilir (Howe, 2007). Çaprazlama Türleri: Çaprazlama işleminin yürütülmesine ilişkin birçok yöntem vardır. Bunlardan başlıcaları aşağıdaki gibi sıralanabilir (Bozdogan H. , 2004, s. 38). Tek Nokta Çaprazlaması: Tek nokta çaprazlamasına göre öncelikle bir çaprazlama noktası belirlenir. Daha sonra çaprazlanacak iki bireyden birincisinin çaprazlama noktasına kadar olan kromozomları ile ikincisinin çaprazlama 99 sonrasından sonrasındaki kromozomları birleştirilerek yeni birey oluşturulur. Bireylerin 10 kromozomlu ikili değerlerden oluşması ve çaprazlama noktasının 3 olarak belirlenmesi durumunda örnek bir çaprazlama Şekil 6-1 ile ifade edilmektedir. Birey A Birey B 1011011001 + Yeni Birey 1100011010 = 1010011010 ġekil 6-1 Tek nokta çaprazlaması Ġki Nokta Çaprazlaması: İki nokta çaprazlamasında iki tane çaprazlama noktası belirlenir. Buna göre çaprazlamaya alınan ilk bireyin başlangıçtan ilk çaprazlama noktasına kadar olan ve ikinci çaprazlama noktasından son kromozoma kadar olan kısmı, ikinci bireyin ise iki çaprazlama noktası arasında düşen kromozomları yeni bireyin ilgili kromozomu olarak kopyalanır. Buna göre Şekil 6-1 ile verilen A ve B bireyleri için çaprazlama noktalarının 3 ve 7 olarak belirlenmesi durumunda iki nokta çaprazlaması „deki gibi uygulanmaktadır. Birey A Birey B 1011011001 + Yeni Birey 1100011010 = 1010011001 ġekil 6-2 Ġki nokta çaprazlaması Tek Biçimli Çaprazlama: Bu tip çaprazlamada kromozomlar rastgele olarak seçilerek yeni bireye aktarılır. Buna göre eşleştirilecek birey için üretilir. noktalarından kromozomlu her bir aralığından tek biçimli dağılıma uyan rastgele bir tamsayı aralığı yerine çaprazlamaya kullanılması, iyi çözümlerin uç uğratılmalarını engellemektedir. Buna göre çözümlerin sağ parçası, üretilen sayının bir fazlasına karşılık gelen kromozomdan başlayarak ayrılır. Çaprazlama Olasılığı: Çaprazlama olasılığı, yeni birey üretme sürecinin hangi sıklıkla yapılacağını kontrol eder. Bu göre eşleştirilen her bir çift için aralığından 100 rastgele bir sayı üretilir. Belirlenen çaprazlama olasılığından daha büyük sayı üretilen çiftler için çaprazlama uygulanır. Diğerleri ise bir sonraki nesle aynen kopyalanır. Çaprazlama olasılığı, çaprazlama sıklığını arttırmak için genellikle ‟ten büyük seçilmektedir. Arama uzayının yeterli taranması açısından önemli bir parametredir. Genetik Mutasyon: Eşleşme ile yeni bireyler (çözümler) elde edildikten sonra bu yeni bireyler mutasyona uğratılır. İkili sistemin kullanıldığı tipik GA için mutasyon işlemi oldukça basittir. Mutasyon olasılığına bağlı olarak mutasyona uğratılacak çözümler mevcut popülasyondan tek biçimli dağılıma uyacak şekilde rastgele olarak seçilir. Mutasyon olasılığının belirlenmesi kullanıcıya bağlı olmakla beraber genellikle ‟den küçük olarak belirlenir. Seçilen her bir kromozom için kromozomun bileşenleri rastgele olarak seçilir ve seçilen bileşen değeri ise , ise yapılır. Mutasyon, GA‟yı güçlü kılan en önemli özelliklerden birisidir. Mutasyonun ihmal edilmesi durumunda algoritma kolaylıkla yerel en iyi noktalardan birisine takılabilir. Bununla beraber, mutasyon işleminin algoritmaya dahil edilmesi ile algoritma arama uzayının ulaşılmamış farklı bölgelerine yönlendirilebilir. Bu anlamda GA, benzetilmiş tavlama algoritması ile benzer özellik gösterir. Amaç Fonksiyonu: İster en büyükleme ister eniyileme problemi olsun, tüm arama algoritmaları ve optimizasyon tekniklerinin yürütülebilmeleri için bir amaç fonksiyonu gerekir. GA uygulaması için en iyi amaç fonksiyonun tipi, probleme göre değişir. Bu çalışmada amaç fonksiyonu olarak Değişken Seçim kriterleri kullanılmaktadır. Elitizim: Algoritma süresince karşılaşılan iyi çözümlerin kaybedilmemesi için elitizm kuralı kullanılır. Buna göre her bir nesilde amaç fonksiyonuna en iyi değerini veren çözüm, hiç bir değişikliğe uğratılmadan bir sonraki nesle aynen aktarılır. Elitizim kuralının kullanılması, popülasyon büyüklüğünün dolayısıyla da hesaplama süresinin her bir yeni nesille beraber artması anlamına gelmektedir. Yapılan çalışmalar, rulet tekerleği tekniğinin kullanıldığı durumlarda elitizmin çok önemli olmadığını göstermektedir. 101 6.5.4 Hibrit RTFA Modelinde DeğiĢken Seçimi Problemi için Genetik Algoritma Hibrit RTFA modeli ile değişken seçiminde bireylerin kromozom sayısı bağımsız değişken sayısı olarak belirlenmektedir. Her bir kromozom {0,1} değerlerinden birini almaktadır. Buna göre bir kromozomun 1 değerini alması ilgili değişkenin modelde yer aldığını, 0 değerini alması ise yer almadığını ifade etmektedir. Örneğin 8 bağımsız değişken içeren bir problemde 1., 3. ve 5. bağımsız değişkenlerin modelde olduğunu ifade eden çözüme karşılık gelen kromozom aşağıdaki gibi ifade edilir. GA ile en iyi değişken alt kümesinin belirlenmesi sürecinde seçilen değişken seçim kriteri eniyilenmeye çalışılmaktadır. Bu bağlamda her bir iterasyonda mevcut çözümlere karşılık gelen bağımsız değişkenler Hibrit RTFA modelinde yerine konularak bağımlı değişken tahminlenir. Daha sonra bu tahminler değerlerinden yararlanılarak değişken seçim kriteri değerleri hesaplanır. Durma kriterlerinden biri sağlanana kadar her iterasyonda bu işlemler tekrarlanır ve sonuçta en küçük değişken seçim kriteri değerini veren değişken alt kümesi seçilir. 102 BÖLÜM 7 UYGULAMA Çalışmanın bu kısmına kadar Hibrit RTFA modelinin teorik altyapısı üzerinde durulmuştur. Bu bölüm ise oluşturulan modelin uygulamasına ayrılmıştır. Önerilen Hibrit RTFA modeli ile değişken seçimi ve tahminleme yapacak hazır bir paket program bulunmadığı için hesaplamalar Matlab programı üzerinde kodlanmıştır. Ayrıca Hibrit RTFA ile hem değişken seçimi hem de tahminlemenin kolaylıkla, her seferinde kodlama aşmasına girmeden yapılabilmesi için yine Matlab programı üzerinde bir kullanıcı arayüzü oluşturulmuştur. Hibrit RTFA modeli, öncelikle oldukça yüksek derecen doğrusal olmayan bir benzetim verisi üzerinde test edilmiştir. Hibrit RTFA modelinin ele alınan benzetim verisi üzerindeki başarılı performansının gösterilmesinin ardından model finansal piyasalara yönelik gerçek veri üzerinde uygulanmıştır. Bu bağlamda dolar bazında İMKB Ulusal 100 endeksinin yönü, diğer uluslararası endeksler yardımıyla tahminlenmiştir. 7.1 Hibrit RTFA Modeli için MATLAB Kullanıcı Arayüzü Matlab (Matrix Laboratory), Cleve Moler tarafından 1970 yılında geliştirilmiş matris tabanlı problem çözme, istatistik işlemler ve grafik çizimi gibi çok geniş bir yelpazede kullanılan bir programdır. İlk başlarda Fortran üzerinde yazılmış olan Matlab, günümüzde C++/Java ortamında yazılmaktadır. İlk başlarda eğitim amacıyla kullanılan Matlab programı daha sonraları mühendislik alanında da oldukça yaygın olarak kullanılır hale gelmiştir. Günümüzde Matlab programının yaygın kullanımının nedenleri arasında birçok istatistik işlemin hazır fonksiyonlar yardımı ile yapılabilmesi, kolay kodlanabilirlik ve matris tabanlı işlem yapma kabiliyeti sayesinde büyük verilerle işlemlerin kolaylıkla yapılabilmesi sayılabilir. 103 Buraya kadar ifade edilen nedenlerden ötürü çalışmamızda Hibrit RTFA modeli Matlab programı üzerinde yazılmıştır. Yazılmış olan kodlar için bir kullanıcı arayüzü oluşturularak Hibrit RTFA modelinin kolay uygulanabilirliğinin sağlanması amaçlanmıştır. Bu bağlamda ilgili program çalıştırıldığında ilk olarak ekrana gelen arayüz aşağıda Şekil 7-1 ile verilmiştir. ġekil 7-1 Hibrit RTFA kullanıcı arayüzü karĢılama ekranı Şekil 7-1‟de görüldüğü gibi kullanıcı arayüzü karşılama ekranı Hibrit RTFA programı ile yapılacak olan işlemin seçildiği aşamadır. Karşılama ekranında değişken seçimi (Model Selection) ve tahminleme (Prediction) olmak üzere iki seçenek vardır. Buradan değişken seçimi seçeneği seçili iken başlat (Start) butonuna tıklandığında ekrana gelen pencere Şekil 7-2 ile verilmiştir. 104 ġekil 7-2 Hibrit RTFA modeli ile değiĢken seçimi arayüzü Şekil 7-2 kullanıcıya iki farklı seçenek sunmaktadır. Bunlardan birincisi “Model Selection for Simulated Freidman Data” seçeneğidir. Bu seçenek seçili iken uygulamanın benzetim kısmında tanımlanacak olan protokolden istenen sayıda büyüklükteki (Sample Size) örnek için istenen sayıda (Number of Replication for Freidman Data) benzetim yapılabilmektedir. İkinci seçenek ise gerçek veri (Model Selection for Real Data) için değişken seçimi yapılmasıdır. Bu aşamada arayüze veriler, bağımsız değişkenler (Upload X Data) ve bağımlı değişkenler (Upload Y Data) “.m” uzantılı olacak şekilde ayrı ayrı girilmektedir. Ayrıca model parametreleri yine arayüz üzerinde seçim yapılarak belirlenebilmektedir. İşlem süreci sonunda seçilen değişkenler sağ alttaki sonuçlar (Results) kısmına yazılmakta, genetik algoritma ile eniyileme sürecinde ilgili değişken seçim kriterinin değerlerindeki değişimler ise sağ üstte yer alan grafikte görülmektedir. Değişken seçimi aşaması gerçekleştirildikten sonra “Ana Menüye Dön (Go To Main Menu)” seçeneği ile karşılama ekranına buradan da tahminleme (Prediction) seçeneği seçilerek aşağıda Şekil 7-3 ile verilen ekrana ulaşılır. 105 ġekil 7-3 Hibrit RTFA modeli ile tahminleme için kullanıcı arayüzü Tahminleme için verilmiş olan arayüzde benzer şekilde bir sonraki kısımda tanıtacağımız benzetim verisi (Prediction for Simulated Freidman Data) ve gerçek veri (Prediction for Real Data) için tahminleme olmak üzere iki alternatif sunmaktadır. Gerçek veri seçilmesi durumunda, girilecek veriler düzenlenirken önce eğitim verileri sonra devamına test verileri eklenerek tek bir “.m” dosyası hazırlanmalıdır. Burada eğitim verisinin nereden başladığının anlayabilmesi için ilgili arayüzde bulunan ilgili alanlar eğitim verisinin (Sample Size for Training Data) ve test verisinin (Sample Size for Test Data) gözlem sayıları (örnek hacimleri) yazılmalıdır. İlgili arayüzden model parametreleri de seçilebilmektedir. Yapılan tahmine ilişkin Hata Kareler Ortalamasının Karekökü (HKOK) ve Ortalama Mutlak Hata (OMH) gibi iki farklı kritere göre hesaplanan sonuçlar ilgili arayüze yazılmaktadır. Ayrıca bağımlı değişkenin gerçek 106 değerleri ile Hibrit RTFA ile yapılan tahmini değerlere ait grafik arayüzün sağ üst kısmındaki bölüme çizilmektedir. Uygulamanın devam eden kısımlarındaki çalışmalar burada tanımlanmış olan kullanıcı arayüzü yardımı ile gerçekleştirilmiştir. 7.2 Benzetim Verisi için Uygulama Çalışmamızın bu kısmında Hibrit RTFA modelinin değişken seçimi ve tahminleme başarısının ölçülmesi amaçlanmıştır. Bu bağlamda girdi ile çıktı arasında modellenmesi kolay olmayan bir fonksiyonel ilişki oluşturulması benimsenmiştir. Buradaki amaç, Hibrit RTFA modelinin oldukça karmaşık fonksiyonel ilişkileri bile yakalamakta başarılı olduğunu göstererek değişken seçimi ve tahminleme alanında kullanılabilirliğine dair kanıt bulmaktır. Yukarıda belirtilmiş olan amaçlar doğrultusunda çalışmamızda kullanılmak üzere çok yüksek dereceden doğrusal olmayan yapıda bir ilişki modellenmiştir. Buna göre girdi ile çıktı arasındaki ilişki hem trigonometrik hem kuadratik hem de doğrusal bileşenlerin toplamı olacak şekilde oluşturulmuştur. Bu bağlamda öncelikle 7 tane bağımsız değişken, (7.1) rastgele sayılar olarak üretilmiştir. Buna göre ile gösterilen açıklayıcı değişkenler formunda yazılabilir. Rastgele olarak üretilmiş matrisi, olan açıklayıcı değişkenlerinin ilk dört tanesinin kullanılmasıyla bağımlı değişken, olacak şekilde aşağıda (7.2) ile verildiği gibi oluşturulmuştur. Dikkat edilecek olursa bağımlı değişkenin oluşturulmasında, üretilmiş olan 7 değişkenin sadece ilk 4 tanesi kullanılmıştır. Bunun nedeni, modelimizin bu ilişkisiz 3 değişkeni belirleyip belirleyemeyeceğinin test edilmesidir. (7.2) 107 Tanımlanan benzetim protokolüne göre üretilecek olan veriler üzerinden Hibrit RTFA modelinin performansının ölçülmesinde izlenecek yol Şekil 7-4 ile verilmiştir. Uygulamanın benzetim kısmı için yol haritası niteliğindeki diyagrama göre öncelikle Hibrit RTFA modeli içinde kullanılacak radyal tabanlı fonksiyona karar verilmekte ve daha sonra değişken seçimi yapılarak bağımlı değişken üzerinde etkili olan bağımsız değişkenler belirlenmektedir. Değişken seçimini takiben, belirlenen bağımsız değişkenler yardımıyla tahmin yapılmakta ve kurulan modelin tutarlılığını belirlenmesi için son olarak çapraz doğrulama yapılmaktadır. RADYAL TABANLI BENZETĠM VERĠSĠNĠN FONKSĠYON SEÇĠMĠ ÜRETĠLMESĠ Gauss – Cauchy – Çoklu Kuadratik Ters Çoklu Kuadratik DEĞĠġKEN SEÇĠMĠ ÇAPRAZ TAHMĠNLENME ICOMP – AIC – CAIC - DOĞRULAMA SBC ġekil 7-4 Benzetim verisi uygulaması için akıĢ diyagramı (7.2) ile verilen formülasyonundan da anlaşılacağı gibi oluşturulan bağımlı değişken , ile , ve bağımsız değişkenleri ile ilişkisizdir. Diğer taraftan arasında doğrusal olmayan ilişki ifade edilenlere göre doğru model ile , , ile , arasında ise doğrusal bir ilişki vardır. Bu ve bağımsız değişkenlerini içeren modeldir. Bağımlı değişken ve doğru modelde yer alan bağımsız değişkenler arasındaki ilişki Şekil 7-5‟ten de gözlemlenebilir. 108 ġekil 7-5 Bağımlı değiĢken ve doğru bağımsız değiĢkenler arasındaki iliĢki Şekil 7-5 ile doğru model değişkenlerinin her birisinin ayrı ayrı bağımlı değişken ile olan korelasyonları ve saçılım grafikleri verilmektedir. Buna göre özellikle değişkenlerinin , ve ile olan korelasyonları çok düşük olmakla beraber saçılım grafikleri de bunu desteklemektedir. Dolayısıyla değişkeni ile doğru model değişkenleri arasında Eşitlik (7.2) yardımıyla tanımlamış olan ilişkiyi mevcut bağımsız değişkenleri kullanarak yakalayacak bir model kurmak oldukça zor görünmektedir. Uygulamanın devamında, yukarıda tanımlanmış olan ve oldukça yüksek dereceden doğrusal olmayan yapıdaki ilişki, Hibrit RTFA modeli ile yakalanmaya çalışılmıştır. Bu bağlamda benzetim çalışması, Hibrit RTFA modeli için radyal tabanlı fonksiyon seçimi, değişken seçimi ve seçilen değişkenler yardımıyla tahminleme olmak üzere üç aşamada tamamlanmıştır. 7.2.1 Benzetim Verisi için Uygun Radyal Tabanlı Fonksiyonun Seçimi Bu aşamada, yukarıda tanımlanmış benzetim protokolünün ortaya koyduğu ilişkiyi modellemek üzere oluşturulacak Hibrit RTFA modelinde kullanılacak olan radyal tabanlı fonksiyon türüne karar verilmektedir. Bu amaçla Gauss, Cauchy, Çoklu 109 Kuadratik ve Ters Çoklu Kuadratik olmak üzere dört farlı radyal tabanlı fonksiyon arasından seçim yapılmıştır. Her bir radyal tabanlı fonksiyona göre oluşturulmuş Hibrit RTFA modelleri, ICOMP(IFIM)HM kriterine göre doğru değişken alt kümesinin seçimindeki başarıları açısından karşılaştırılmış. Hibrit RTFA modelinin diğer parametrelerinden ridge sabiti ‟nın seçiminde, Hoerl, Kennard ve Baldwin (HKB) tarafından önerilen ridge kestiricisi modele uyarlanmıştır. Regresyon ağaçları parametrelerinden regresyon ağaçlarının diğer parametresi , 5 olarak belirlenmiş, içinse 2 ve 4 olmak üzere iki farklı alternatif değerden veriye en iyi uyum gösteren seçilmiştir. Genetik algoritma parametrelerinden nesil sayısı 15, popülasyon büyüklüğü 10, çaprazlama tipi tek biçimli, çaprazlama olasılığı 0,5, mutasyon olasılığı 0,1 olarak sabitlenmiş ve optimizasyonda aşamasında elitizm özelliği kullanılmıştır. Yukarıda tanımlanmış olan amacı gerçekleştirmek üzere farklı örneklem büyüklükleri ( ) ve radyal tabanlı fonksiyonlar (Gauss, Cauchy, Çoklu Kuadratik, Ters Çoklu Kuadratik) için olmak üzere toplam 16 Hibrit RTFA modeli incelenmiştir. Her bir model için 100 benzetim yapılmış ve her bir modelin doğru değişkenleri seçme yüzdeleri Tablo 7-1 ile verilmiştir. Tablo 7-1 Farklı örneklem büyüklüğü ve radyal tabanlı fonksiyonlar için doğru değiĢken seçim yüzdeleri ICOMP(IFIM) H M Radyal Tabanlı Fonksiyon Türü Gauss Cauchy Çoklu Kuadratik Ters-Çoklu Kuadratik N % % % % 50 26 19 13 17 % % % % 100 49 47 25 45 250 % 71 % 71 % 68 % 70 500 % 89 % 74 % 87 % 78 Tablo 7-1‟den anlaşılacağı gibi, Gauss türü radyal tabanlı fonksiyon kullanarak oluşturulan Hibrit RTFA modelinin, doğru değişkenlerin belirlenmesi açısından diğer fonksiyonları kullanarak oluşturan modellere göre daha iyi sonuç verdiği görülmektedir. 110 Bu nedenle benzetim verisi üzerine uygulama çalışmasının devamında Hibrit RTFA modelleri Gauss tipi radyal tabanlı fonksiyon kullanılarak oluşturulmuştur. 7.2.2 DeğiĢken Seçimi Çoklu doğrusal regresyon tahminleme problemlerinin çözümünde akla ilk gelen yöntemlerden birisidir. Her ne kadar tanımladığımız benzetim protokolü ile üretilen veri doğrusal regresyon için uygun olmasa da, bu özelliği nedeniyle bu aşamada ele alınmıştır. Bu bağlamda benzetim çalışmasının ikinci aşaması, Hibrit RTFA ve klasik çoklu doğrusal regresyon modellerinin performanslarının değişken seçimi açısından karşılaştırılmasını içermektedir. Veri üretmekte kullanılacak olan benzetim protokolü, daha önce yukarıda tanımlananın aynısıdır. Buradan hareketle Hibrit RTFA ve çoklu doğrusal regresyon modelleri farklı örnek büyüklükleri ( ) ve değişken seçim kriterleri için 100‟er defa simüle edilmiş ve doğru değişkenlerin seçilme yüzdeleri Tablo 7-2‟de verilmiştir. Tablo 7-2 Farklı Örneklem Büyüklüğü ve Radyal Tabanlı Fonksiyonlar için Doğru Model Seçim Yüzdeleri MODEL TÜRÜ n Çoklu Doğrusal Regresyon Modeli Hibrit RTFA AIC SBC CAICF ICOMP(IFIM) H M AIC SBC CAICF ICOMP(IFIM) H M 50 %17 %24 %19 %26 %10 %6 %14 %22 100 %58 %64 %50 %49 %12 %14 %24 %33 250 %78 %80 %84 %71 %3 %17 %45 %13 500 %87 %90 %87 %89 %0 %7 %24 %1 Tablo 7-2 ile verilen sonuçlardan da açıkça görüleceği gibi Hibrit RTFA modeli değişken seçimi açısından doğrusal regresyonu modelinden kıyaslanamayacak ölçüde üstündür. Ayrıca Hibrit RTFA modelin doğru değişkenleri seçme yüzdesi örneklem büyüklüğündeki artışa bağlı olarak olarak artmaktadır. Benzetim protokolünde tanımlanan oldukça yüksek dereceden doğrusal olmayan ilişkiye rağmen Hibrit-RBF modeli tüm Değişken Seçim kriterleri için doğru model değişkenlerini başarılı bir 111 şekilde seçmektedir. Doğrusal regresyonun doğrusal olmayan yapılı Freidman benzetim verisi üzerinde başarılı performans göstermemesi sürpriz değildir. Çünkü doğrusal regresyon analizi hatalı model durumuna cevap verememekle beraber, tasarım matrisi matrisinin tekil olması durumunda da sonuç vermemektedir. Diğer taraftan Hibrit RTFA modeli güçlü fonksiyon yaklaştırma ve düzleştirme özellikleri sayesinde hatalı tanımlanmış model sorunundan modeli korumaktadır. Ayrıca bünyesinde ridge regresyon bulundurması ile tasarım matrisini tekilliği bir sorun yaratmamaktadır. 7.2.3 Benzetim Verisi için Tahminleme Benzetim çalışmasının üçüncü ve son aşaması ise yukarıda tanımlanan benzetim protokolü için Gauss tipi radyal tabanlı fonksiyon kullanılarak oluşturulmuş Hibrit RTFA modelinin kestirim ve tahminleme başarısının ölçülmesidir. Bunun için yukarıdaki benzetim protokolüne göre büyüklüğünde örnekler oluşturulmuştur. Her bir örnek büyüklüğü için üretilen örneklerin %80‟i eğitim veri kümesi, %20‟si ise test veri kümesi olarak ayrılmıştır. Her bir gözlem sayısı için öncelikle eğitim verileri kullanılarak model parametreleri belirlenmiş ve daha sonra parametreleri belirlenmiş olan modeller, test verilerine uygulanmıştır. Böylece eğitim sonucunda modelin ezberlemiş yada öğrenmiş olduğu ortaya çıkarılabilmektedir. Ayrıca ezberleme sorunun oluşmadığından tam olarak emin olabilmek için çapraz doğrulama yoluna gidilmiştir. Buna göre her bir gözlem sayısı için test veri kümesi için seçilen %20‟lik veri dilimi 5 defa değiştirilerek tahminler yapılmıştır. Yapılan her bir tahmin sonucu model performansını ölçmek üzere HKOK ve OMH değerleri hesaplanmış ve sonuçlar Tablo 7-3‟te özetlenmiştir. 112 Tablo 7-3 Çapraz doğrulama sonuçları Gözlem Sayısı (Eğitim + Test) Çapraz Veri Doğrulama Türü Eğitim 1 Test Eğitim 2 Test Eğitim 3 Test Eğitim 4 Test Eğitim 5 Test Eğitim Ortalama Test n=100 (80+20) n=250 (200+50) n=500 (400+100) HKOK OMH HKOK OMH HKOK OMH 6,47 7,30 6,61 6,16 6,95 7,47 6,72 7,72 6,12 6,56 6,58 7,04 5,14 5,96 5,36 5,14 5,39 5,99 5,50 6,42 4,94 5,33 5,26 5,77 7,22 6,52 7,11 7,30 7,36 6,49 6,52 8,36 6,86 7,43 7,01 7,22 5,64 5,10 5,63 5,42 5,61 5,25 5,10 6,79 5,45 5,90 5,49 5,69 7,22 6,52 7,11 7,29 7,36 6,49 6,74 6,40 6,79 6,44 7,04 6,63 5,64 5,10 5,63 5,42 5,61 5,25 5,38 5,05 5,35 5,21 5,52 5,21 Tablo 7-3 açıkça göstermektedir ki, Hibrit RTFA modeli ile tahminlemede ezberleme sorunu ile karşılaşılmamıştır. Diğer taraftan Şekil 7-6 ve Şekil 7-7‟den de görüleceği gibi Hibrit-RBF modeli veriye sadece eğitim verisi için değil test verisi içinde çok iyi uyum göstermektedir. Bu özellik, Hibrit-RBF modelinin girdi ve çıktı arasındaki ilişkiyi öğrenebildiği yönünde bir önerme için kanıt oluşturabilir. 113 ġekil 7-6 Eğitim veri kümeleri için tahminlenen ve gözlenen değerler ġekil 7-7 Test veri kümeleri için tahminlenen ve gözlenen değerler 114 7.2.4 Benzetim ÇalıĢmasının Sonuçları Yapılan benzetim çalışması, Gauss tipi radyal tabanlı fonksiyonunun, denenen alternatifler arasında modellenen ilişki için en iyi seçim olduğu görülmüştür. Diğer taraftan Hibrit RTFA modelinin değişken seçimindeki başarısı doğrusal regresyonla karşılaştırılarak incelenmiş ve gözlem sayının artmasına bağlı olarak çok yüksek olasılıklarla doğru model değişkenlerini belirlediği sonucuna varılmıştır. Son olarak Hibrit RTFA modelinin kestirim ve tahminleme başarısı, bir önceki aşamada seçilen açıklayıcı değişkenler kullanılarak HKOK ve OMH kriterlerine göre ölçülmüştür. Sonuçlar göstermiştir ki, Hibrit RTFA modeli girdi ve çıktı arasında oldukça yüksek dereceden doğrusal olmayan ilişki olduğu durumda bile oldukça etkili bir değişken seçimi ve tahminleme aracıdır. Uygulamanın buraya kadar ifade edilen ilk kısmında Hibrit RTFA modelinin başarılı performansı ortaya konmuştur. Buradan hareketle modelimizin gerçek hayat problemlerinde de kullanılabileceğini göstermek amacıyla takip eden kısımda finansal piyasa verileri üzerinde bir uygulama çalışmasına daha yer verilmiştir. 7.3 Hibrit RTFA Modeli ile ĠMKB Ulusal 100 Endeks Yönünün Tahmini Uygulama çalışmasının bu aşamasında, bir önceki kısımda benzetim verileri üzerinde değişken seçimi ve tahminleme açısından oldukça iyi sonuçlar verdiği gösterilen Hibrit RTFA modelinin finansal piyasa verileri üzerindeki performansı test edilecektir. Küreselleşmenin tüm dünyayı hızla etkisi altına aldığı, buna direnen ülkeleri ise kendi sınırları içerisine izole ettiği günümüz koşullarında borsa endeks tahminleri çok daha zor hale gelmiştir. Yatırım fazlası bulunan ülkeler özelleştirme, şirket birleşmeleri, şirket satın alınması, yatırım teşvikleri, vergi muafiyetleri v.b. yollarla diğer ülkelerin ekonomilerine ciddi katkılar yaratmaktadır. Bu nedenle küreselleşmeye açık ve ekonomisi göreceli olarak zayıf olan ülkelerde borsa endeksleri, sadece kendi ülkesinde gelişen olaylardan değil küreselleşmeye öncülük eden büyük ekonomilerdeki 115 gelişmelerden de etkilenmektedir. Bu tip zayıf ekonomiye sahip ülkelerin borsalarında yabancıların payının artması kısa vadede ülkeye sıcak para girişi anlamında olumlu görünmekle beraber sıcak paranın kontrolünün zorluğu nedeniyle ülkedeki küçük istikrarsızlıklar, borsadan büyük kaçışlara neden olabilmektedir. Dolayısıyla ülke borsa endekslerinin ülkenin mali politikası, siyasi gelişmeler, doğal afetler, borsaya açık şirketlerin mali yapısı v.b. etkenlerin yanında, küreselleşmenin sonucu olarak büyük ekonomiye sahip ülkelerin borsa endekslerinden de etkilendiği söylenebilir. Borsa endeks yönü, yukarıda ifade edildiği gibi çok fazla etkene bağlı olarak değişim gösterebildiği için tahmini oldukça zor olmakla beraber yatırımcılar için oldukça önemlidir. Bu bağlamda çalışmamızda, İMKB Ulusal 100 (IMKB) Endeksi‟nin yönü, kendisinin ve diğer uluslararası endeks değerlerinin gecikmeli değerleri ile tahminlenmeye çalışmıştır. Uygulamanın bu kısmı endeks yönü tahmini ile ilgili giriş ve kurulacak modelin alternatif değişkenlerinin belirlenmesi, değişken seçimi, tahminleme ve elde edilen sonuçların yorumlanması şeklinde yapılandırılmıştır. 7.3.1 DeğiĢkenlerin Belirlenmesi Menkul kıymet borsalarında yatırımcıların hisse senetlerinin fiyatlarına ilişkin tahmin yaparak kar elde etmeye çalışmaktadırlar. Yatırımcılar temel ve teknik analiz sonucu hisse senetlerinin ya da portföylerin yönünü tahmin ederek gerekli alım satım kararını vermektedirler. Menkul kıymet piyasaların birbirinden çok fazla etkilendiği göz önüne alınırsa piyasaların yönünün belirlenmesinde etkili olan uluslararası piyasaları dikkatle incelemek gerekmektedir. Türkiye gibi gelişmekte olan ülkelerin menkul kıymet piyasalarında bu etkinin varlığı birçok çalışmada farklı metotlar kullanılarak araştırılmıştır. Literatürde IMKB endeksindeki değişimin açıklanması üzerinde yapılmış birçok çalışma vardır. Bu çalışmalardan bazıları İMKB endeksindeki değişimin kendi gecikmeli değerleri ile açıklanması üzerine olmakla beraber İMKB endeksi ile ilişkili olan uluslararası endeks değerlerinin belirlenmesi üzerine de çalışmalar mevcuttur. 116 Bunlardan Korkmaz v.d. (2011) Türkiye ve Amerika Birleşik Devletleri borsaları arasında yaptıkları nedensellik çalışmasında Türkiye borsasının Amerikan borsasından etkilendiğini göstermişlerdir. Ozun (2007) ise gelişmiş ülke borsalarındaki volatilitenin Brezilya ve İMKB üzerindeki etkisini incelemiştir. Bu çalışmada Ozun (2007), Avrupa borsalarının İMKB endeksi üzerindeki açıklayıcılık oranının Amerikan endekslerinin etkisine göre daha fazla olduğunu göstermiş olmakla beraber Amerikan endekslerinin de pozitif yönde bir etkisi olduğunu belirtmiştir. Diğer taraftan Vuran (2010) çalışmasında IMKB ile FTSE-100, Dax ve Bovespa endeksleri ile eş bütünleşik olduğunu göstermiştir. IMKB-100 endeks değerinin tahminlenmesi üzerinde yaptıkları çalışmada Boyacıoğlu ve Avcı (2010), makro ekonomik değişkenlerin yanında DJI, DAX ve BOVESPA endekslerinin açıklayıcı değişken olarak kullanmışlardır. Çinko ve Avcı (2007) çalışmalarında İMKB Ulusal 100 endeksinin günlük ve seanslık getirilerinin hesaplanmasında yapay sinir ağları ve regresyon modellerini karşılaştırmış ve yapay sinir ağlarının daha iyi tahminler verdiğini göstermişlerdir. Ayrıca bu çalışmada açıklayıcı değişken olarak sadece endeksin kendi gecikmeli değerleri kullanılmıştır. Özdemir (2011) v.d ise çalışmalarında IMKB Ulusal 100 endeksinin yönünü tahminlemede makro ekonomik değişkenlerin yanında EM (MSCI Emerging Markets Index), EU (MSCI European Index) ve S&P500 endekslerini kullanmışlardır. Buraya kadar verilmiş olan literatür taramasından yararlanarak İMKB100 endeksinin yönünün tahminlenmesinde kullanılacak uluslarası endekslerden oluşan değişkenler Tablo 7-4 ile verilmiştir. Ayrıca dolar kurundaki artışlardan tahmin modelimizin etkilenmemesi için IMKB100 endeksinin dolar getirisi kullanılmıştır. 117 Tablo 7-4 Modelde kullanılan endeksler Kısalt ma DeğiĢken Adı 1 İMKB100 IMKB 2 3 4 5 6 S&P500 DAX FTSE100 NIK225 BVSP SP DAX FTSE NIK BVSP 7 EU EU 8 EM EM Açıkla ma İstanbul Menkul Kıymetler Borsası Ulusal 100 Getiri Dolar bazında Endeksi Standard & Poor ‟s 500 Getiri Endeksi Almanya Borsası Getiri Endeksi Birleşik Krallık Getiri 100 Endeksi Osaka 225 Getiri Endeksi Sao Paolo Borsa Getiri Endeksi European Index: 16 Avrupa ülkesinin hisse senedi piyasasının performansını gösteren piyasa değeri ağırlıklı bir endekstir (Özdemir, Tolun, & Demirci, 2011) MSCI Emerging Markets Index: 21 yükselen piyasa ekonomisinin hisse senedi piyasa performansını gösteren piyasa değeri ağırlıklı bir endekstir (Özdemir, Tolun, & Demirci, 2011) . Uygulama çalışmasının bu kısmında yapılacak analizlere ilişkin akış diyagramı Şekil 7-8 ile verilmektedir. VERĠNĠN HAZIRLANMASI EĞĠTĠM VERĠ KÜMESĠ BÜYÜKLÜĞÜNÜN BELĠRLENMESĠ EN ĠYĠ MODELĠN EN ĠYĠ RADYAL TABANLI BELĠRLENMESĠ FONKSĠYONUN BELĠRLENMESĠ ENDEKS YÖNÜ TAHMĠNĠ ÇAPRAZ DOĞRULAMA ġekil 7-8 Endeks yönü tahmini uygulaması için akıĢ diyagramı 118 7.3.2 Verilerin Analiz için Hazırlanması Bu aşamada öncelikle Tablo 7-4 ile verilen değişkenlere ait günlük endeks değerlerini içeren veriler elde edilmiştir. IMKB değişkeni www.imkb.gov.tr, EU değişkeni http://www.msci.com/products/indices/tools/ http://www.msci.com/products/indices/country_and_regional/em/, ve EM değişkeni diğer tüm değişkenlere ait veriler ise finance.yahoo.com internet sitesinden elde edilmiştir. Çalışmada kullanılan veriler 5 Ocak 2009 – 22 Şubat 2011 tarihleri arasındaki İMKB‟de gerçekleştirilen 536 işlem gününe aittir. Belirlenen tarihlerde İMKB‟de işlem günü olup ta diğer uluslararası borsalarda işlem gününe denk gelmeyen gözlemler için borsaların bir önceki gerçekleşmiş olan işlem gününe ait kapanış değerleri kullanılmıştır. Çalışmada amaç hali hazırda gerçekleşmiş gözlemlerden yararlanarak bir sonraki işlem gününün İMKB100 endeksinin yönünü belirlemek olduğu için her bir değişkene ait gecikmeli değerlerden oluşan başka değişkenler oluşturulmuştur. Borsaların birbirlerini hızla etkilemesinden dolayı borsa gecikmeleri 1 ve 2 gecikme ile sınırlandırılmıştır. Gecikmeli değişkenler oluşturulurken sadece bir ve iki gecikmeli değişkenler kullanılmasıyla 536 olan gözlem sayısı 534‟e düşmüştür. Yeni değişkenlere isim verirken bir değişkenlerin daha önce tanımlanmış olan adlarının sonuna, bir gün gecikmeli değerler için “1”, iki gün gecikmeli değerler için “2” sayıları eklenmiştir. Bu tanımlamaya göre örneğin IMKB değişkeninin bir gün gecikmeli değerlerinden oluşan değişken IMKB1 ile iki gün gecikmeli değerlerinden oluşan değişken ise IMKB2 ile gösterilmektedir. Değişkenlerin gecikmeli değerleri hesaplanırken saat farkları da dikkate alınmıştır. Buna göre Japonya ile olan saat farkı nedeniyle NIK değişkeninin gecikmeli değerleri hesaplanırken IMKB kapanmadan önce kapanmış olan son iki endeks değeri alınmıştır. Diğer bir ifade ile bugünün IMKB endeksini tahminlemek üzere gecikmeli değerler olarak aynı günün NIK değeri (NIK1) ve bir gün öncesinin NIK değeri (NIK2) dikkate alınmıştır. Buna göre veri kümesinin düzenlenmesini ardından değişken seçimi aşamasına geçilmiştir. 119 7.3.3 ĠMKB Ulusal 100 Endeksi Ġçin DeğiĢken Seçimi Bu aşamada yapılmak istenen, tanımlanmış olan uluslararası endeks değerlerinin gecikmeli değerlerinden hangilerinin IMKB 100 endeksi üzerinde etkili olduğunun belirlenmesi ve tahminleme aşamasına hazırlık yapılmasıdır. Bu bağlamda ilgili bağımsız değişkenlerin uygun alt kümesini belirlemek amacıyla daha önce tanıtılmış olan kullanıcı arayüzleri kullanılarak değişken seçimi yapılmıştır. Değişken seçimi aşamasında kullanılan model parametreleri Tablo 7-5 ile verilmiştir. Tablo 7-5 DeğiĢken seçimi için model parametreleri Hibrit RTFA Modeli Parametreleri Genetik Algoritma Parametreleri 30 Ġterasyon Sayısı DeğiĢken Kriteri ICOMP(IFIM) H M Popülasyon Sayısı 25 RTF Türü Gauss, Cauchy, Çoklu Kuadratik, Ters Çoklu Kuadratik Çaprazlama Türü Tek Nokta Regresyon Türü Global Ridge Ridge Kestiricisi p mi n Hoerl Kennard 5 Seçim Çaprazlama Olasılığı Mutasyon Olasılığı Elitizm 0,5 0,1 Evet Değişken seçimi aşaması dört farklı radyal tabanlı fonksiyonun her biri için ayrıca yapılmış, her bir model için seçilen değişkenler 1, seçilmeyen değişkenler 0 ile gösterilerek Tablo 7-6 „da verilmiştir. 120 Tablo 7-6 DeğiĢken Seçimi Sonuçları Y=IMKB IMKB1 SP1 DAX1 FTSE1 NIK1 BVSP1 EU1 EM1 IMKB2 SP2 DAX2 FTSE2 NIK2 BVSP2 EU2 EM2 Tam Model 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 Gauss Cauchy 0 1 1 1 1 1 1 0 0 0 1 0 1 1 0 1 0 1 0 0 1 1 1 1 0 0 1 0 1 1 1 1 Çoklu Kuadratik 1 0 1 0 1 1 1 1 0 1 1 1 1 1 1 1 Ters Çoklu Kuadratik 0 1 1 0 1 1 1 1 0 1 0 0 1 1 1 1 Toplam Seçilim 1 3 3 1 4 4 4 3 0 2 3 1 4 4 3 4 Tablo 7-6‟dan da görüldüğü gibi her bir radyal tabanlı fonksiyona karşılık farklı bir değişken alt kümesi elde edilmiştir. Oluşturulan dört farklı modelin dördünde de yer alan değişkenler NIK1, BVSP1, EU1, NIK2, BVSP2 ve EM2 değişkenleridir. Buradan hareketle bu değişkenlerin IMKB değişkenindeki değişimi açıklamakta diğerlerinde göre daha önemli oldukları söylenebilir. Diğer taraftan, SP1, DAX1, EM1, DAX2 ve EU2 değişkenleri toplam dört modelin üçünde yer aldıkları görülmektedir. Bu bağlamda bu iki değişken gruplarından oluşan ayrı iki model daha oluşturulmuştur. Buna göre her dört model tarafından da seçilen değişkenler Model 6, en az 3 defa seçilen değişkenler ise Model 7 olarak adlandırılmış ve çalışmanın devam eden kısmına dahil edilmiştir. Değişken seçimi çalışmasından çıkan ilginç bir sonuç ise IMKB2 değişkeninin hiç, IMKB1 değişkeninin ise sadece bir defa seçilmiş olmasıdır. Diğer bir ifade ile İMKB Ulusal 100 endeksi kendi gecikmeli değerlerinin değil, diğer uluslararası endekslerin etkisinde kalmaktadır. Bu sonuç uygulama çalışmamızın giriş kısmında değindiğimiz küreselleşme ile ilgili analizlerimizi de doğrular niteliktedir. 121 Yukarıda Tablo 7-6 ile verilen ve sonrada oluşturulan iki modelden hangisinin daha iyi olduğunun anlaşılabilmesi için her bir model kullanılarak ayrı ayrı tahminler yapılmış ve tahmin sonuçlarına göre karar verilmeye çalışılmıştır. Bu bağlamda devam eden kısımda tam model, Hibrit RTFA modeli ile seçilmiş olan dört farklı model ve sonradan oluşturduğumuz 2 model için tahminler yapılmış ve sonuçlar karşılaştırılarak en iyi model seçilmiştir. 7.3.4 ĠMKB Ulusal 100 Endeksinin Yönünün Tahmini Bu kısımda, bir önceki aşamada farklı radyal tabanlı fonksiyonlar kullanılarak Hibrit RTFA modeli tarafından seçilen değişkenlere bağlı olarak belirlenen modeller için tahminler yapılıp hangi modelin daha iyi sonuç verdiğine karar verilecektir. Bu bağlamda karşılaştırılacak modeller için bağımlı ve bağımsız değişkenler Tablo 7-7 ile gösterilmiştir. Tablo 7-7 DeğiĢken Seçimi Sonucu OluĢan Modeller Model Bağımlı DeğiĢken Model 1 (Tam model) IMKB100 Model 2 (Gauss) Model 3 (Cauchy) Model 4 (Çoklu Kuadratik) Model 5 (Ters Çoklu Kuadratik) Model 6 (4 defa seçilenler) Model 7 (3 veya 4 defa seçilenler ) IMKB100 IMKB100 IMKB100 Bağımsız DeğiĢkenler IMKB1–SP1–DAX1–FTSE1-NIK1-BVSP1EU1-EM1 IMKB2 - SP2–DAX2–FTSE2-NIK2BVSP2-EU2-EM2 SP1–DAX1–FTSE1-NIK1-BVSP1-EU1-DAX2 NIK2- BVSP2-EM2 SP1–NIK1-BVSP1-EU1-EM1–DAX2 -NIK2BVSP2-EU2-EM2 IMKB1–DAX1 -NIK1-BVSP1-EU1-EM1-SP2– DAX2–FTSE2-NIK2-BVSP2-EU2-EM2 IMKB100 SP1–DAX1–NIK1-BVSP1-EU1-EM1-SP2– NIK2-BVSP2-EU2-EM2 IMKB100 NIK1-BVSP1-EU1- NIK2-BVSP2- EM2 IMKB100 SP1–DAX1–NIK1-BVSP1-EU1-EM1-DAX2NIK2-BVSP2-EU2-EM2 Tablo 7-7 ile verilmiş olan 7 modelin karşılaştırılması amacıyla her bir model için ayrı ayrı tahminler yapılacaktır. Söz konusu tahmin endeks yönü, dolayısıyla al-sat 122 kararı olduğu için tahminleri karşılaştırmada kullanılacak kriterlerden birisi endeks yönünün doğru tahmin yüzdesi olarak belirlenmiştir. Ayrıca yapılan tahminler için HKOK ve OMH değerleri de diğer karşılaştırma kriterleri olarak değerlendirilmiştir. Çalışmanın sonuçlarının yatırımcı açısından kazancını belirlemesi amacıyla parasal değer alan ikinci bir karşılaştırma kriteri belirlenmesinin gerekliliği görülmüştür. Belirlenecek tahmin döneminin başında IMKB100 endeksine 100 dolar yatırım yapıldığı varsayılarak her bir model için ayrı ayrı günlük tahminlerle al-sat kararları verilmiş ve bu kararlara göre yatırılmış olan 100 dolar (100 Dolar Kriteri), borsadaki gerçek getiri ile kümülatif olarak güncellenecektir. Tahmin yapılan dönem sonunda 100 doları daha yüksek miktara ulaştıran modelin bu kriter açısından diğerlerinden daha iyi sonuç verdiği kabul edilecektir. Tahminleme yapılacak dönem 5 Mayıs 2010 - 22 Şubat 2011 arasındaki son 200 işlem günü olarak belirlenmiştir. Ayrıca bu 200 işlem günü kendi içinde 20 günlük kısımlara ayrılmıştır. Bunun nedeni, borsa endeksleri arasındaki sürekli değişen dinamik yapıya uygun şekilde verinin güncellenmesi gerekliliğidir. Buna göre 5 Mayıs 2010 tarihinden önceki, belirlenmiş sayıda güne ait veri ile Hibrit RTFA modelleri eğitilecek, daha sonra sonra 5 Mayıs 2010 - 2 Haziran 2010 arasındaki 20 işlem günlük için kısım için tahminler yapılacaktır. Bu işlem bittikten sonra 3 Haziran 2010 tarihinden önceki aynı belirlenmiş sayıda veri için Hibrit RTFA modeli eğitilecek ve 3 Haziran – 30 Haziran arası 20 günlük kısım için tahminler yapılacaktır. Bu işlemin 9 defa tekrarlanması ile toplamda 200 günlük tahmin dönemi tamamlanmış olmaktadır. Diğer taraftan, 100 dolar ile başlayan yatırımın her 20 günlük kısmın sonunda ulaştığı miktar, bir sonraki 20 günlük kısmın başlangıç değeri olarak alınmıştır. Dolayısıyla sonuçta tam 200 gün sonunda ele alınmış olan modellere göre al-sat yapan bir kişinin yatırdığı 100 doların ulaştığı miktar görülmektedir. Yukarıda açıklanan tahminleme sürecinde belirlenmesi gereken önemli bir parametre, modellerin eğitiminde kullanılacak gözlem sayısının, diğer bir ifade ile işlem 123 günü sayısının belirlenmesidir. Finansal piyasaların oldukça dinamik ve sürekli değişen yapıda olması nedeniyle genellikle yapay sinir ağlarında geçerli olan “ne kadar çok veri o kadar iyi öğrenme” yaklaşımı bu uygulama için geçerli olmayabilir. Bu nedenle tahminler farklı büyüklükteki eğitim veri kümeleri (100, 150, 200, 250, 300, 334) için yapılarak uygun eğitim veri kümesi büyüklüğünün belirlenmesi amaçlanmıştır. Tahminleme sürecinde daha önce belirlenmiş olan 7 farklı model ve bu modellerin her birisi için kullanılan 4 farklı radyal tabanlı fonksiyon ile adet Hibrit RTFA modeli yapılandırılmıştır. Bu 28 adet modelin her birisi de yine yukarıda belirtilmiş olan 6 farklı büyüklükteki eğitim veri kümeleri için ayrı ayrı oluşturulmuş dolayısıyla toplamda farklı model için 200 günlük tahminler yapılmıştır. Yapılan tahminlerin ele alınmış olan 7 farklı model ve 4 farklı radyal tabanlı fonksiyon üzerinden ortalama değerleri aşağıdaki Tablo 7-8 ile verilmiştir. Tablo 7-8 Yapılan Tahminlerin ele alınan 7 model üzerinden ortalamaları KarĢılaĢtırma Kriteri 100 Dolar Yön HKOK OMS 100 182.675 66.643 0,0148 0,0111 Eğitim Veri Kümesi Büyüklüğü 150 200 250 300 179.522 192.010 200.844 192.490 61.839 64.214 66.446 66.214 0,0156 0,016 0,016 0,016 0,0115 0,012 0,012 0,012 350 182.624 63.554 0,0168 0,013 Tablo 7-8 ile verilen sonuçlara göre 100 Dolar kriterine göre eğitim veri kümesi büyüklüğüne bağlı olarak tahminler arasında büyük farklar görülmektedir. Diğer taraftan Yön kriterine bakımından büyük farklılıklar gözlenmemiştir. Buna göre eğitim veri kümesi büyüklüğü 250 olduğunda IMKB100 endeksinin yönü yaklaşık %66 doğru tahminlenmekte ve yatırılan 100 dolar, 200 işlem günü sonunda ortalama 200 dolara ulaşmaktadır. Buradan hareketle daha fazla kazanç sağlaması nedeniyle eğitim veri kümesi büyüklüğü 250 olarak belirlenmiştir. Diğer taraftan, aynı dönemde yatırılmış ve hiç al-sat yapılmamış olan 100 dolarlık yatırımın yaklaşık 101 dolara ulaştığı göz önüne alındığında Hibrit RTFA modeli verilen al-sat kararlarına göre yönlendirilen yatırımın oldukça karlı olduğu gözlenmiştir. 124 Tablo 7-8‟de çıkan diğer bir sonuç ise daha önce tanımlanmış olan HKOK ve OMH kriterleri tüm eğitim veri büyüklükler için birbirine çok yakın olmasıdır. BU nedenle ilgili kriterler eğitim veri kümesi büyüklüğünün (250) belirlenmesinde dikkate alınmamıştır. Bu noktada üzerinde karar verilmesi gereken diğer bir husus ise Hibrit RTFA modelinin mimarisinde kullanılacak radyal tabanlı fonksiyonun belirlenmesidir. Bu bağlamda yapılmış olan tahminlerin farklı eğitim kümesi büyüklükleri ve farklı modeller üzerinden hesaplanan ortalamaları, her bir radyal tabanlı fonksiyon için Tablo 7-9 ile özetlenmiştir. Tablo 7-9 Tüm Modeller ve Eğitim veri kümesi büyüklükleri üzerinden ortalamalar KarĢılaĢtırma Kriteri 100 Dolar Yön HKOK OMH Gauss Cauchy 189,617 63,988 0,017 0,014 189,6174 65,34524 0,017 0,013 Çoklu Kuadratik 191,469 65,262 0,016 0,013 Ters Çoklu Kuadratik 189,272 64,679 0,016 0,013 Tablo 7-9 ile verilen ortalama değerler, gerek Yön kriteri gerekse 100 Dolar kriteri açısından büyük farklılıklar göstermemekle beraber, Çoklu Kuadratik tipi radyal tabanlı fonksiyon kullanılarak oluşturulan Hibrit RTFA modelleri ile elde edilen tahminlerin biraz daha iyi olduğu görülmektedir. Diğer taraftan HKOK ve OMH kriterleri için hesaplanan değerler de birbirine çok yakın olmakla beraber Çoklu Kuadratik tipi fonksiyon biraz daha küçük hata vermektedir. Burada ifade edilen nedenlerle Hibrit RTFA modelinin mimarisinde kullanılacak olan radyal tabanlı fonksiyon Çoklu Kuadratik olarak seçilmiştir. Çalışmanın değişken seçimi aşamasında verilecek olan son karar, ele alınan 7 modelden hangisini daha iyi olduğuna karar verilmesidir. Bu kararın verilmesi ile İMKB Ulusal 100 endeksinin yönünün tahminlenmesinde etkili olan değişkenler belirlenmiş olacaktır. Bu kararın verilmesine yardımcı olmak üzere, 6 farklı eğitim veri kümesi 125 büyüklüğü ve 4 farklı radyal tabanlı fonksiyon üzerinden yapılmış olan tahminlerin ortalaması Tablo 7-10‟da gösterilmiştir. Tablo 7-10 Tüm eğitim veri kümesi büyüklükleri ve RTF’lar üzerinden ortalamalar KarĢılaĢtırma Kriteri 100 Dolar Yön HKOK OMH Model 1 189,078 64,917 0,0166 0,0135 Model 2 190,189 65,000 0,01655 0,0134 Model 3 187,987 64,792 0,0166 0,0135 Model 4 187,076 64,667 0,0166 0,0134 Model 5 187,118 64,625 0,0166 0,0134 Model 6 188,403 64,792 0,0166 0,0134 Model 7 188,675 64,938 0,0165 0,0134 Tablo 7-10‟dan açıkça görüldüğü gibi tüm hata kriterlerine göre farklı modeller arasında büyük farklılıklar yoktur. Diğer taraftan, Gauss tipi radyal tabanlı fonksiyon kullanılarak oluşturulan Model 2, az farklarla olsa da diğer modellerden daha iyi sonuçlar vermiştir. Uygulamanın benzetim çalışması kısmında da Gauss tipi fonksiyon kullanılarak yapılan değişken seçiminin en iyi modeli verdiği görülmüştür. Seçilen modelden İMKB Ulusal 100 endeks yönünün tahmininde SP1, DAX1, FTSE1, NIK1, BVSP1, EU1, DAX2, NIK2, BVSP2 ve EM2 değişkenlerinin etkili olduğu gözlenmiştir. İMKB Ulusal 100 endeksini kendi gecikmeli değerlerinin modelde yer almaması, bunun yanında diğer endeks değerlerinin özellikle bir gecikmeli değerlerinden etkilenmesi, Türkiye finansal piyasalarının uluslararası finansal piyasalarla olan olan hızlı ve yoğun etkileşimini göstermektedir. Model 2‟nin seçilmesi ile ortaya çıkan diğer bir sonuç ise toplamda 16 olan bağımsız değişken sayısının 10‟a düşürülmüş olmasıdır. Değişken seçimi yapılmış olan modelin hem model karmaşıklığını indirgediği hem de ele alınan tüm hata kriterleri açısından tam modele göre daha iyi sonuçlar verdiği görülmüştür. Buradan hareketle değişken seçiminde kullandığımız ICOMP(IFIM)YM kriterinin oldukça iyi bir performans gösterdiğini ortaya çıkarmaktadır. Bu aşamaya kadar tahminleme modeli ile verilen kararlar özetlenecek olursa; eğitim verisi büyüklüğü 250 olan, mimarisi Çoklu Kuadratik radyal tabanlı fonksiyon ile 126 oluşturulan ve Gauss radyal tabanlı fonksiyonu kullanılarak seçilmiş Hibrit RTFA modeli İMKB Ulusal 100 endeksinin yönünün tahmininde en iyi sonuçları vermektedir. İfade edilen bu kombinasyon ile 20 günlük kısımlardan oluşan 200 günlük tahmin dönemi için elde edilmiş detaylı sonuçlar Tablo 7-11 ile verilmektedir. Tablo 7-11 Model 2 için 200 iĢlem günlük tahmin Tahminleme Dönemi BaĢlangıç 20. Gün Sonu 40. Gün Sonu 60. Gün Sonu 80. Gün Sonu 100. Gün Sonu 120. Gün Sonu 140. Gün Sonu 160. Gün Sonu 180. Gün Sonu 200. Gün Sonu Hibrit RTFA Modeline Göre Verilen Al-Sat Kararları 100 117,8346 128,2444 145,8518 153,3419 171,9641 185,0689 162,6970 176,5294 186,1654 202,0610 IMKB100 Endeksi 100 91,2655 90,6202 104,5077 99.7200 114.4346 131.0021 113.3602 112.0803 108,9440 105,5242 Tablo 7-11 ile Hibrit RTFA modelini önerdiği al-sat kararlarına göre yapılan 100 dolarlık yatırımın 200 gün sonunda yaklaşık 202 dolara ulaştığı görülmektedir. Aynı dönemde yapılan 100 dolarlık yatırım, hiçbir al-sat yapılmaması durumunda yaklaşık 105 dolar olmaktadır. Bu sonuçlar itibariyle Hibrit RTFA modelinin endeks yönü tahmininde oldukça başarılı olduğu görülmektedir. Ayrıca Tablo 7-11 ile özetlenmiş olan sonuçlar Şekil 7-9‟dan da anlaşılmaktadır. 127 ġekil 7-9Tahmin dönemi boyunca Hibrit RFTA modeli ile verilen al-sat kararları ve IMKB100 endeksinin seyri Şekil 7-9 ile tahminleme yapılan on tane 20 günlük olmak üzere toplam 200 günlük dönemin 9 tanesinde Hibrit RTFA modeli ile verilen al-sat kararlarına hareket edilmesi durumunda sürekli yatırımın değerlendiği görülmektedir. Bu sürekli artış sadece endeksin artışta olduğu dönemlerde değil, gerçek endeks değerini azalışta olduğu dönemlerde de sağlanmıştır. Buraya kadar yapılan bütün tahminlerde 200 işlem günü için yapılan tahminlerin sonuçları verilmiştir. Bu tahminleme sürecinden yapılan işlemlerin daha iyi anlaşılabilmesi için ele alınan 200 günlük tahmin döneminin ilk 20 günlük kısmı detaylı olarak Tablo 7-12 ile verilmiştir. 128 Tablo 7-12 20 iĢlem günlük tahminler için yatırımın seyri Günler 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Endeks Yönü + + + + + + + + + Endeks Yönü Tahmini + + + + + + + + + + - Karar Sat Al Sat Al Sat Bekle Al Sat Bekle Al Sat Bekle Al Sat Al Bekle Bekle Bekle Bekle Sat Al-Sat Var Al-Sat Yok 100.0000 97.2299 97,5386 97,5386 107,8638 107,8638 107,8638 108,5335 108,5335 108,5335 110,8596 110,8596 110,8596 112,5537 112,5537 117,5910 119,3674 121,7044 118,6782 117,8346 117,8346 94,8367 87,8112 97,1066 96,0809 99,1060 99,7213 95,1962 94,8693 96,9026 90,0334 89,3095 90,6742 85,6230 89,4550 90,8064 92,5842 90,2821 89,6404 91,2655 Tablo 7-12‟den anlaşılacağı gibi, borsada iken ertesi günün endeks yönü pozitif olarak tahminlendiğinde borsada beklenmekte, negatif olarak tahminlendiğinde ise satış kararı verilmektedir. Diğer taraftan borsa dışında iken ertesi günün pozitif tahminlenmesi durumunda alım yapılmakta, negatif tahminlenmesi durumunda ise beklenmektedir. Burada yapılan tahminlerde alım satım işlem komisyon ücretleri ihmal edilmiştir. Tablo 7-12 ile verilen tahminlerde her al-sat işlemi için yatırımdan binde bir oranında komisyon kesilmesi durumunda 100 doların ulaşacağı değer 117,8346 yerine 116,8951 dolar olmaktadır. Buradan, Hibrit RTFA modeli ile yapılan tahminlerin gerçek piyasa ortamından çok fazla etkilenmeyeceği sonucuna varılmaktadır. 129 Tablo 7-12 ile verilen al-sat kararlarının belirlenmesinde kullanılan Hibrit RTFA modeli, tahmin döneminden geriye doğru 250 günlük verinin kullanılmasıyla elde edilmiştir. Eğitim sonucu elde edilen Hibrit RTFA modeli (7.3) ile gösterilmiştir. 0,1951 1+0,0010,1121 0,1951 0,1578 0,1195 0,14501+ 1+0,00130,1065 1+0,0010,1121 5]} 0,1951 1+0,00130,1065 0,1418 0,1195+ 0,1060 0,1195 0,3575{1+ 1 1+0,01770,0451 0,1951 0,0670 1+0,0010,1121 0,1578 0,1951 0,1418 0,1951 7 0,1951 1+0,00080,1231 0,1951 0,1578 1+0,00080,1231 0,1418 1+0,00800,0459 0,1578 0,1418 1+0,01710,0822 0,1578 0,1195 0,03261+ +0,00130,1065 0,1578 0,1418 1+0,00080,1231 1+0,01950,0551 0,1951 0,121 0,119 (7.3) Buraya kadar yapılan tahminlerde verinin belirli bir bir kısmında Hibrit RTFA modeli eğitilmiş, daha sonra 20 günlük kısımda ise test (tahmin yapılması) edilmiştir. Ancak herhangi bir yapay sinir ağı modelini geçerliliğinin sınanmasında verinin eğitimtest olarak ayrılması yeterli görülmez. Bunların yanında çapraz doğrulama ile modelin geçerliliği sınanmalıdır. Bu bağlamda devam eden kısımda, yapılmış olunan tahminlerin güvenilirliğinin araştırılması açısından çapraz doğrulama yapılmıştır. 130 7.3.5 Çapraz Doğrulama ile Model Tutarlılığının Kontrolü Bir önceki aşamada modeller belirli bir sayıda veri içeren eğitim veri kümesi için eğitilmiş ve 20 gün için tahminler yapılmıştır. Buradaki tahminlerin yapıldığı verinin 20 günlük kısmı, test verisi görevini görmektedir. Daha önce Tablo 7-7 ile verildiği gibi tahminlerin eğitim ve test verileri için yaptıkları tahminlerin tutarlı olduğu gösterilmişti. Ancak bu tutarlılığın çapraz doğrulama ile bir kez daha sağlamasını yapılması, yapay sinir ağları literatüründe yapılması beklenen bir çalışmadır. Bu bağlamda çapraz doğrulama yapılmak üzere daha önce en iyi olarak belirlenen, Model 2 ele alınmıştır. Gözlem sayısındaki tutarlılığı sağlamak için 534 gözlemin ilk dört tanesi silinerek 530 gözlemden oluşan yeni veri seti hazırlanmıştır. Bu veri setinin ilk 250 tanesi ile model eğitilmiş, takip eden 20 tanesi için tahmin yapılmıştır. Daha sonra sürekli baştan 20 veri silinip aynı süreç tekrarlanarak 14 farklı dönem için elde edilen tahmin değerleri çapraz doğrulama için kullanılmıştır. Buna göre sözü edilen 14 farklı dönem için yapılan tahminlere ait karşılaştırma kriteri ve hata değerleri Tablo 7-13 ile verilmiştir. 131 0,012 0,011 0,009 0,011 0,090 0,016 0,013 0,015 0,012 0,034 0,027 0,017 0,013 Eğitim 0,016 Test 0,014 Dönem 12 0,018 Eğitim 0,009 0,016 0,012 Test 0,011 Dönem 13 0,010 Dönem 14 0,013 0,019 0,013 0,011 Eğitim 0,013 0,025 0,015 0,012 Test 0,017 Ortalama 0,014 0,012 0,014 0,012 Eğitim 0,010 0,015 0,016 0,012 Test 0,0122 OMH 0,014 0,012 Eğitim 0,013 HKOK 0,017 0,013 Test 0,017 Dönem 11 Eğitim 0,018 Dönem 7 Test 0,016 Dönem 8 Eğitim 0,019 Dönem 9 0,010 Test 0,015 Dönem 10 0,013 Eğitim Eğitim 0,019 Test 0,013 Test 0,014 Eğitim 0,017 Eğitim Test 0,019 Test Çapraz Doğrulama Test 0,015 Eğitim OMH Eğitim Eğitim 0,019 Test HKOK Test Çapraz Doğrulama Dönem 6 OMH Eğitim Dönem 4 Dönem 3 Dönem 2 Dönem 1 Çapraz Doğrulama Dönem 5 HKOK Test Tablo 7-13 En iyi model için çapraz doğrulama sonuçları 0,016 0,013 Tablo 7-13‟ten anlaşılacağı gibi çapraz doğrulama için ele alınan her bir döneme karşılık yapılan tahminlere ait hata değerleri ile ortalama hata değerleri hem eğitim hem 132 de test verisi için birbirine oldukça yakındır. Dolayısıyla yapılan tahminlerin başarısının seçilen veri kümesine bağlı olmadığı dolayısıyla rastlantısallık içermediği sonucuna varılmıştır. 7.3.6 ĠMKB Ulusal 100 Endeks Yönü Tahmini Uygulama Sonuçların Yorumlanması Uygulama çalışmasının bu kısmında öncelikle İMKB100 endeksinin yönü, üzerinde etkili olan uluslararası endeksler belirlenmiştir. Yapılan değişken seçimi çalışması, İMKB100 endeksini yönü üzerinde kendi gecikmeli değerlerinin etkili olmadığı yönündedir. Diğer taraftan değişken seçimi aşamasında belirlenmiş olan Model 2, açıklayıcı değişkenlerin en iyi alt kümesini oluşturmaktadır. Model 2 incelendiğinde, İMKB100 endeksinin ele alınan uluslararası endeksleri takip ettiği söylenebilir. Değişken seçimi aşamasını takiben İMKB100 endeksinin yönü, kendisinin ve diğer uluslararası endekslerin gecikmeli değerleri yardımıyla tahminlenmiştir. Yapılan tahminleme çalışmaları, mevcut değişkenler kullanılarak İMKB100 endeksinin hareket yönünün %65‟in üzerinde bir doğrulukla Hibrit RTFA modeli tarafından tahminlenebildiği görülmüştür. İstatistiksel açıdan tahmini oldukça güç olan bu alanda %65 başarı, yatırımcılar için oldukça iyi bir referans oluşturabilir. Zaten yapılan 200 işlem günlük tahminleme sonuçları da göstermiştir ki, İMKB100 endeksine 100 dolarlık yatırımla başlayan ve Hibrit RTFA modelinin tahminleri ile al-sat (ya da elde tut) kararları veren bir yatırımcının 100 doları yaklaşık 202 dolara kadar yükselmektedir. Aynı dönemde 100 dolarlık yatırımla başlayan ve hiç al sat yapmadan kişinin 200 işlem günü sonrası yatırımının ulaştığı değerin 105 dolar civarında olduğu düşünüldüğünde Hibrit RTFA modelinin başarısı daha anlamlı görülmektedir. Bu kısımda yapılan çalışma, uluslararası endekslerin İMKB100 endeksi üzerindeki etkileri üzerinde olduğu için açıklayıcı değişkenler arasında döviz kuru, petrol, altın v.b. günlük değişim gösteren diğer finansal araçlara yer verilmemiştir. Bu 133 açıdan da bakıldığında sadece uluslararası endeksler kullanılarak yakalanmış %65‟lik tahmin başarısı, sözü edilen bu değişkenlerin de model eklenmesi ile geliştirilebilir. Hibrit-RBF modeli birden fazla tekniğin bir kombinasyonu olduğu için oldukça fazla parametreye sahiptir. Bu parametrelerden birçoğu çalışmamızda sabit tutulmuştur. Bu bağlamda Hibrit RTFA modelinin mevcut performansı, ilgili parametreler üzerinden yapılacak değişikliklerle artırılabilir. Buraya kadar ifade edilenler göre, ortaya konulan modelin İMKB100 endeks yönünün tahmininde kullanılabileceği söylenebilir. Diğer taraftan, İMKB Ulusal 100 ve İMKB Ulusal 30 endekslerinin yönü arasında %100‟e yakın bir korelasyon olduğu dikkate alınırsa, önerilen modelin IMKB Ulusal 30 kapsamındaki hisse senetlerinde oluşturulan portföyün al-sat kararlarında da benzer bir başarı ile kullanılabileceği söylenebilir. 134 SONUÇ VE ÖNERĠLER Çalışmamızda RTFA ve bu ağlarla yapılan analizlerde karşılaşılan sorunlar ele alınmış ve bu sorunlara çözüm getirecek istatistik teknikler ile RTFA entegre edilerek Hibrit RTFA ağları oluşturulmuştur. Bu çalışmada Hibrit RTFA ağlarına getirilen yenilik, modelin bilgi karmaşıklığı temelli değişken seçim kriterleri ile güçlendirilmesidir. Bu sayede Hibrit RTFA modeli ile bağımlı değişken üzerinde etkili olan açıklayıcı değişkenlerin belirlenmesinde kullanılabilir hale gelmiştir. Bu aşamada özellikle Hibrit RTFA modelinin doğrusal olmayan ilişkileri yakalama gücü ile ICOMP tipi değişken seçim kriterlerinin çok yönlü değişken seçim gücü tek bir modelde toplanmış olmaktadır. Geliştirilen model hem benzetim verisi hem de gerçek veri üzerinde uygulanmıştır. Oldukça yüksek dereceden doğrusal olmayan yapıda oluşturulan benzetim verisi üzerinde model, hem değişken seçimi hem de tahminleme açısından oldukça başarılı sonuçlar vermiştir. Diğer taraftan gerçek veri için endeks yönü tahmini konusu gibi hem doğrusal olmayan ilişkilerin hem de çoklu doğrusal bağlantı probleminin sıklıkla ortaya çıktığı bir alan seçilmiştir. Burada da ICOMP tipi değişken seçim kriterlerinin çoklu doğrusal bağlantıyı da cezalandırarak değişken seçimi yapan yapısı ile Hibrit RTFA modeli başarılı sonuçlar vermiştir. Ortaya çıkan diğer bir önemli sonuç ise gerek benzetim çalışmasında gerekse gerçek veri üzerine yapılan çalışmada en iyi modelin Gauss fonksiyonu ile yapılandırılmış Hibrit RTFA modeli tarafından seçilmiş olmasıdır. Seçilmiş olan model ile yapılan 200 işlem günlük tahminleme sonuçları, Hibrit RTFA modeli ile yapılan tahminlere göre yatırımın yönlendirilmesi durumunda yatırımın dolar bazında yaklaşık 2 katı değere ulaştığı gösterilmiştir. Ayrıca yapılan çalışmada sadece uluslararası endeks değerlerini kullanılarak bu başarı elde edilmiştir. Dolayısıyla Hibrit RTFA modeli yatırım uzmanları tarafından bir karar destek sistemi 135 olarak kullanılması durumunda daha yüksek performans gösterebilir. Yapılan uygulama çalışmalarında model parametreleri sabit tutulmuştur. Bu bağlamda model parametreleri değiştirilerek sonuçların geliştirilmesi mümkündür. Oluşturulan Hibrit RTFA modelinin değişkenlerle ilgili varsayımı tek bir bağımlı değişken ile çalışılmasıdır. Bu bağlamda modelin birden fazla bağımlı değişkenle çalışılır hale getirilmesi ile aynı açıklayıcı değişkenlerden etkilenen farklı bağımlı değişkenler için tek seferde analiz yapılması sağlanabilir. Diğer taraftan modelimizde ele aldığımız bağımlı değişkenin sürekliliği varsayımı, modele regresyon ağaçları yerine sınıflandırma ağaçlarının entegre edilmesi ile aşılabilir. 136 KAYNAKÇA Ackley, D., Hinton, G., & Sejnowski, T. (1985). A Learning Algorithm for Boltzmann Machines. Cognitive Science, (s. 147-169). Akaike, H. (1974). A New Look at the Statistical Model Identification. IEEE Transactions on Automatic Control , AC-19, 716-723. Akaike, H. (1973). Information Theory and An Extension of The Maximum Likelihood Principle. B. Petrox, & F. Csaki (Dü.), Second International Symposium on Information Theory içinde (s. 267-281). Budapest: Academiai Kiado. Akaike, H. (1981). Modern Development of Statistical Methods. P. Eykhoff içinde, Trends and Progress in System Identification (s. 169-184). New York: Pergamon Press. Akbilgiç, O., & Keskintürk, T. (2008, Haziran). Yapay Sinir Ağları ve Çoklu Regresyon Analizinin Karşılaştırılması. Yönetim , 74-83. Angelini, E., Tollo, G. d., & Roli, A. (2008). A neural network approach for credit risk evaluation. The Quarterly Review of Economics and Finance , 48 (4), 735-755. Baykal, N., & Timur, B. (2004). BULANIK MANTIK UZMAN SISTEMLER VE DENETLEYICILER. Bıçaklar Kitabevi. Bellman, R. E. (1978). An Introduction to Artificial Intelligence: Can Copmputers Think? San Fransisco: Boyd & Fraser Pub. Co. Berk, R. A. (2004). Regression Analysis: A Constructive Critique. USA: Sage Publication. 137 Bhansali, R. J., & Downham, D. Y. (1977). Some Properties of the Order of Autoregresıce Model Selected vy a Genaralization of Akaike's EPF Criterion. Biometrica , 64 (3), 547-551. Bjorksrtrom, A. (2001). Ridge regression and inverse problems. Sweden: Stockholm University. Bluman, A. G. (1998). Elemantary Statistics. USA: McGraw-Hill. Bonate, P. L. (2006). Pharmacokinetic-Pharmacodynamic Modelling and Simulation. San Antonio, USA: Springer. Boyacioglu, M., & Avci, D. (2010). An Adaptive Network-BAsed Fuzzy Inference Systems (ANFIS) for the prediciton of stock market return: The case of Istanbul Stock Exchange. Expert Systems with Applications , 37, 7902-7912. Boyce, D. E., Farhi, A., & Weischedel, R. (1974). Optimal Subset Selection: Multiple Regression, Interdepedence, and Optimal Network Algorithms. New York: Springer Verlag. Bozdogan, H. (2000). Akaike's Information Criterion and Recent Developments in Informational Complexity. Journal of Mathematical Psychology , 44, 62-91. Bozdogan, H. (1988). ICOMP: A New Model-Selection Criteria. H. Bock içinde, Classification and Related Methods of Data Analysis. North-Holland. Bozdogan, H. (2004). Intelligent Statistical Data Mining with Information Complexity and Genetic Algorithms. H. Bozdogan içinde, Statistical Data Mining and Knowledge Discovery (s. 15-56). Florida: Chapman and Hall/CRC,. Bozdogan, H. (1994). Mixture-Model Cluster Analysis Using A New Informational Complexity and Model Selection Criteria. 2, 69-113. 138 Bozdogan, H. (1987). Model Selection and Akaike's Information Criterion (AIC): The General Theory and It's Analytical Extension. Journal of Mathematical Psychology , 5, 345-370. Bozdogan, H. (2007, January). Predictive Data Mining with Regression Trees and RBF Neural Networks. Lecture Note . Tennessee. Breiman, L., & Friedman, J. H. (1984). Classification and regression trees. Monterey, CA: Wadsworth & Brooks/Cole Advanced Books & Software. Breiman, L., Freidman, J. H., Olshen, R. A., & Stone, C. J. (1984). Classification and Regression Trees. Wadsworth. Calderon, T. G., & Cheh, J. J. (2002). A roadmap for future neural networks research in auditing and risk assessment. International Journal of Accounting Information Systems , 3, 203-226. Cganh, F.-J., Liang, J.-M., & Chen, Y.-C. (2001). Flood Forecasting Using Radial Basis Function Neural Networks. IEEE Transaction on Systems, Man, and Cybernetics Part C: Applications and Rewievs , 31 (4), 530-535. Çinko, M., & Avcı, E. (2007). A Comparison of Neural Network and Linear Regression Forecasts of The ISE-100 Index. Öneri , 7 (28), 301-307. Comrie, A. C. (1997). Comparing Neural Networks and Regression Models for Ozone Forecasting. Arizona: Air & Waste Management Association. Conniffe, D., & Stone, J. (1973). A Critical View of Ridge Regression. Journal of the Royal Statistical Society. Series D , 23 (3), 191-197. Cover, T. (1965). Geometrical and statistical prpperties of system of linear inequalities with applications in pattern recognition. IEEE Transactions on Electronic Computers , 14, 326-334. 139 Dawson, C., Harpham, C., Wilby, R., & Chen, Y. (2002). Evaluation of artificial neural network techniques for flow forecasting in the River Yangtze, China. Hydrology and Earth System Sciences , 6 (4), 619-626. Deniz, E. (2010). Regresyon Analizi. E. Çetin içinde, Hastane Yönetiminde Sayısal Yöntemler. Deniz, E. (2007). Yapısal Eşitlik Modellerinde Bilgi Kriterleri. İstanbul: Mimar Sinan Güzel Sanantlar Üniversitesi, Fen Bilimleri Enstitüsü, İstatistik Ana Bilim Dalı, Basılmamış Doktora Tezi. Draper, N. R., & Smith, H. (1981). Applied Regression Analysis. New York: Wiley. Engle, R. F. (1982). Autoregressive Conditional Heteroscedasticity with Estimates of the Variance of United Kingdom Inflation. Econometrica , 50 (4), 987-1007. Fausett, L. V. (1993). Fundamentals of Neural Networks: Architectures, Algorithms And Applications. US: Prentıce Hall. Feigenbaum, E. A., & McCorduck, P. (1983). The fifth generation . Reading, MA: Addison-Wesley. Fraser, N. (1998, 9 21). The Biological Neuron. 3 5, 2011 tarihinde Carleton University: http://vv.carleton.ca/~neil/neural/neuron-a.html adresinden alındı Fuller, R. (2000). Lecture Note:. Introduction to Neuro Fuzzy Systems . Abo Akademy University. Fuller, R. (2000). Systems, Introduction to Neuro-Fuzzy. New York: Springer Verlag. Gibson, G. J., Siu, S., & Cowan, C. F. (1989). Multilayer Perceptoron Structures Applied to Adaptive Equalisers for Data Communications. Acoustics, Speech, and Signal Processing, 1989. ICASSP-89, (s. 1183-1186). Glasgow, UK. 140 Golub, G. H., Heath, M., & Wahba, G. (1979). Generalized Cross-Validation as a Method for Choosing a Good Ridge Parameter. Technometrics , 12, 215-223. Haan, C. T. (2002). Statistical Methods in Hydrology. Iowa State University Press. Halıcı, U. (2001). Artificial Neural Networks. Lecture Notes on Introduction to Neural Networks . Ankara: METU. Hannan, E. J., & Quinn, B. G. (1979). The Determinatiom of the Order of an Autoregression. Journal of the Royal Statistical Society B , 41, 190-195. Harrel, F. E. (2001). Regression Modelling Strategies: with Applications to Lİnear Models, Data Mining, Inference, and Prediction. New York: Springer-Verlag. Haykin, S. S. (1994). Neural Networks. Macmillan. Haykin, S. S. (1999). Neural Networks. Macmillan. Hebb, D. (1949). The Organization of Behavior. New York: Wiley & Sons. Hebb, D. (1949). The Organization of Behavior: A neuropsychological Theory. New York: Wiley. Heugeland, J. (1985). Artificial Intelligence: The Very Idea. Cambridge: MIT Press. Hocking, R. R. (1983). Developments in Linear Regression Methodology. Technometrics , 25, 219-230. Hoerl, A. E., & Kennard, R. W. (1970). Ridge Regression: Biased Estimation for Nonorthogonal Problems. Technometrics , 12, 55-67. Hoerl, A. E., Kennard, R. W., & Baldwin, K. F. (1975). Ridge Regression: Some Simulations. Communications in Statistics , 4, 105-123. Holland, J. (1975). Adaptation of Natural and Artificial Systems. Ann Arbor, Michigan: University of Michigan Press. 141 Holland, J. (1992). Genetic Algorithms. Scienti¯c American, , 66-72. Hornik, K. (1989). Multilayer Feedforward Networks are Unıversal Approximators. Neural Networks (2), 359-366. Howe, J. A. (2007). A New Generaion of Mixture-Model Cluster Analysis with Information Complexity and the Genetic Algorithm. Tennessee: The University of Tennessee. Huang, S.-M., Tsai, C.-F., Yen, D. C., & Cheng, Y.-L. (2008). A hybrid financial analysis model for business failure prediction. Expert Systems with Applications: An International Journal , 35 (3), 1034-1040. J. L. Eastaugh, S. W. (1997). Comparison of neural networks and statistical models to predict gestational age at birth. NEURAL COMPUTING & APPLICATIONS , 6, 156164. J., M., & C., D. (1989). Fast learning in networks of locally-tunned processing units. Neural Computation , 1, 281-294. Johnson, R. A., & Bhattacharyya, H. K. (2006). Statistics: Principles and Methods. USA: John Wiley & Sons. Judge, G. G., Griffits, W. E., Hill, R. C., Lütkepohl, H., & Lee, T. C. (1985). The Theory and Practice of Econometrics. New York: John Wiley and Sons. Kappen, H., & Rodriguez, F. (1998). Efficient learning in Boltzmann Machines using linear reponse. Neural Computatıon , 1137-1156. Kasabov, N. K. (1998). Foundations of Neural Networks, Fuzzy Systems, and Knowledge Engineering. Cambridge: MIT Press. Kodratof, Y. (1988). Introduction to Machine Learning. Toulouse, France: Cepadues Editions. 142 Kohonen, T. (2001). Self-Organizing Maps. Germany: Springer Verlag. Korkmaz, T., Çevik, E. I., Birkan, E., & Özataç, N. (2011). Causality in mean and variance between ISE 100 and S&P 500: Turkcell case. African Journal of Business Management , 5 (5), 1673-1683. Kotz, S., & Johnson, N. L. (1982). Encylopedia od Statistics Sciences (3 b.). John Wiley&Sons. Koutsoyiannis, A. (1977). Theory of Econometrics : An Introductory Exposition of Econometric Methods. London: Macmillan. Kröse, B., & Smagt, P. v. (1996). An Introduction to Neural Networks. The University of Amsterdam. Kubat, M. (1998). Decision Trees Can Initialize Radial Basis Function Networks. Transactions on Neural Networks , 9, 818-821. Kullback, A., & Leibler, R. (1951). On Information and Sufficiency. Annals of Mathematical Statistics , 22, 79-86. Kurzweil, R. (1990). The Age of Intelligent Machines. Cambridge, Mass: MIT Press. Lawless, J. F., & Wang, P. (1975). A Simulation Study of Ridge and other Regression Estimators. Communications in Statistics A , 4, 307-323. Li, Q., Asma, E., Qi, J., Bading, J. R., & Leahy, R. M. (2004). Accurate Estimation of the Fisher Information Matrix for the PET Image Reconstruction Problem. IEEE Transactions on Medical Imaging , 23 (9), 1057-1065. Lindley, D. V., & Smith, A. F. (1972). Bayes Esimates for The Linear Model. Journal of Royal Statistics Society B , 34, 1-41. Loh, W. Y., & Shih, Y. S. (1997). Split Selection Methods for Classification Trees. Statistica Sinica , 7, 815-840. 143 Luger, G. F. (2009). Artificle İntelligence: Structures and Strategies for Complex Problem Solving. USA: Addison Wiley. Mantel, N. (1970). Why Stepdown Procedures in Variable Selection. Technometrics , 12, 591-612. Mark A. Pitt, I. J. (2002). Toward a Method of Selecting Among Computational Models of Cognition. Psychological Review , 109 (3), 472-491. Masters, T. (1993). Practical Neural Network Recipes in C++. USA: Academic Press. McCulloch, W. S., & Pitts, W. (1943). A Logical Calculus of the Ideas Immanent ın Nervous Activity. Bulletin of Mathematical Biophysics , 5, 115-133. Mehrotra, K., Mohan, C. K., & Ranka, S. (2000). Elements of Artificial Neural Networks. Massachusets: MIT Press. Minksy, M., & Papert, S. (1969). Perceptrons. MIT Press. Minsky, M. (1967). Computation: Finite and Infinite Machines. Englewood Cliffs: Prentice-Hall. Minsky, M. (1963). Steps Towards Artificial Intelligence. Computer Tought , 406-450. Minsky, M. (1954). Theory of Neural-Analog Reinforcement Systems and Its Application to the Brain Model Problem. Princeton University. Moisen, G. G. (2008). Classification and Regression Trees. Ecological Informatics , 582-588. Morgan, J. N., & Messenger, R. C. (1973). THAID: a sequential search program for the analysis of nominal scale dependent variables. Michigan: University of Michigan, Institue for Social Research . 144 Morgan, J. N., & Sonquist, J. A. (1963). Problems in The Analysis of Survey Data, and A Proposal. Journal of American Statistical Society , 58, 415-434. Moses, L. E. (1986). Think and Explain with Statistics. Reading, MA: Addison-Vesley. Munch, D., & Branson, P. (2004). Statistical Protocol for the Determination of the Single-Laboratory Lowest Concentration Minimum Reporting Level (LCMRL) and Validation of Laboratory Performance at or Below the Minimum Reporting Level (MRL). Cincinnati, OH, USA: U.S. Environmental Protection Agency Office of Ground Water and Drinking Water Standards and Risk Management Division Technical Support Center. Nabiyev, V. V. (2005). Yapay Zeka. Seçkin Yayıncılık. Nascimento, C. L. (1994, February). Artificial Neural Networks in Control and Optimization. Doctor of Philosophy . Manchester: Unıversıty of Manchester. Newell, A., & Simon, H. A. (1961). Computer simulation of human thinking. Science , 134, 2011-2017. Newell, A., Shaw, J., & Simon, H. (1959). Report on a general problem-solving program. Proceedings of the International Conference on Information Processing, (s. 256-264). Orr, M. (2000). Combining Regression Trees and RBF's. International Journal of Neural Systems , 10. Orr, M., Hallam, J., Takezawa, K., Murray, A., Ninomiya, S., Oide, M., et al. (1999). Combining Regression Trees and Radial Basis Functions. International Journal of Neural Systems , 10 (6), 453-465. Orr, M., Hallam, J., Takezawa, K., Murray, A., Ninomiya, S., Oide, M., et al. (2000). Combining Regression Trees and Radial Basis Functions. International Journal of Neural Systems , 10 (6), 453-465. 145 Ostrom, C. W. (1990). Time Series Analysis: Regression Techniques (Quantitative Applications in the Social Sciences). Newbury Park: Sage Publications. Özdemir, A. K., Tolun, S., & Demirci, E. (2011). Endeks Getirisi Yönünün İkili Sınıflandırma Yöntemiyle Tahmin Edilmesi: İMKB-100 Endeksi Örneği. Niğde Üniversitesi İİBF Dergisi (Baskıda) . Ozun, A. (2007). Are the Reactions of Emerging Equity Markets to the Volatility in Advanced Markets Similar? Comparative Evidence from Brazil and Turkey. International Research Journal of Finance and Economics , 9, 220-230. Pelaez, R. (2006). Using Neural Nets to Forecast the Unemployment Rate. Business Economics , 41 (1), 37-44. Poggio, T., & Girosi, F. (1989). A theory of networks for approximation and learning. Cambridge, MA: MIT Artificle Intelleigence Laboratory. Pop, H. F. (2004). DATA ANALYSIS WITH FUZZY SETS: A SHORT SURVEY. INFORMATICA, , 49 (2), 111-122. Quinn, G., & Keough, M. J. (2001). Experimental Design and Data Analysis for Biologist. Cambridge University Press. Rissanen, J. (1978). Modelling by Shortest Data Description. Automatica , 14, 465-471. Rojas, R. (1996). Neural Networks: A Systematic Introduction. Berlin: Springer Verlag. Rosenblatt., F. (1958). The perceptron: A probabilistic model for information storage and organization in the brain. Psychological review , 65, 386-408. Rumelhart, D. E., Hinton, G. E., & Williams, R. J. (1986). Learning internal representations by error propagation. Parallel distributed processing: explorations in the microstructure of cognition. 1, s. 318-361. MA: MIT Press Cambridge. 146 Russell, S., & Norvig, P. (2009). Artificial Intelligence: A Modern Approach. Prentice Hall. Schwartz, G. (1978). Estimating The Dimension of Model. Annals of Statistics , 6, 461464. Sejnowski, T. (1977). Statistical constraints on synaptic plasticity. Journal of Theoretical Biology , 69, 385-389. Shannon, C. E. (1951). Prediction and entropy of printed English. The Bell System Technical Journal , 30, 50-64. Simon, H. (1965). Understanding creativity. Carnegie Review , 8, 2. Sokal, R. R., & Rohlf, F. J. (1981). Biometry (2 b.). New York: W.H. Freeman Company. Steinberg, D., & Colla, P. (1995). CART: Tree-Structured Nonparametric Data Analysis. San Diego, CA: Salford Systems. Sutton, C. D. (2005). Classification and Regression Trees, Bagging, and Boosting. Handbook of Statistics , 24, 303-329. Tikhonov, A. (1963). On solving incorrectly posed problems and method of regularization. Doklady Akademii Nauk USSR , 151, 501-504. Touretzky, D. S. (2006, Fall). Radial Basis Functions. Lecture Notes on Artificial Neural Networks . Turing, A. (1950). Computing Machinery and Intelligence. Mind , 59 (236), 433-460. Türkşen, İ. B. (1985). Fuzzy Set Theory and Its Applications. TJOR , 4 (4), 1-15. 147 Urmanov, A. M., Bozdogan, H., Gribok, A. V., Hines, J. W., & Uhrig, R. E. (2002). Information Complexity-Based Regularization Parameter Selection for Solution of IllConditioned Inverse Problems. Inverse Problems , 18 (3). Van Emden, M. H. (1971). An Analysis of Complexity. Amsterdam: Mathematisch Centrum Amsterdam. Vose, M. (1999). The Simple Genetic Algorithm: Foundations and Theory. MIT Press. Vuran, B. (2010). The determination of long-run relationship between ISE 100 and international equity indices using cointegration analysis. Istanbul Unıversity Journal of The School of Busines Administration , 39 (1), 154-168. Walczak, S., & Sincich, T. (1999). A comparative analysis of regression and neural networks for university admissions. Information Sciences , 119 (1-2), 1-20. Wang, Q. A. (2008). Probability distribution and entropy as a measure of uncertainty. Journal of Physics A: Mathematical and Theoretical , 41 (6), 1-12. Wettschereck, D., & Dietterich, T. (1992). Improving the Performance of Radial Basis Function Networks by Learning Center Locations. Advences in Neural Information Processing Systems (s. 1133-1140). San Mateo, CA: Morgan Kaufmann Publıshers. White, H. (1982). Maximum Likelihood Estimation of Misspecified Models. Econometrica , 50, 1-25. Widrow, B., & Hoff, M. (1960). Adaptive Switching Circuits. IRE Wescon (s. 96-104). New York: IRE. Wilkinson, L. (1989). SYSTAT: The System for Statistics. Evantson, IL: SYSTAT. Williams, J. L., Bozdogan, H., & Aiman-Smith, L. (1995). Inference Problems with Equivalent Models. (A. G. Macoulides, & R. E. Scgumaker, Dü) New Jersey: Lawrence Erlbaum Associates. 148 Yamane, T. (1973). Statistics: An Introductory Analysis. USA: Harper&Row Publishers . Zadeh, L. A. (1965). Fuzzy Sets. Informatıon and Control , 8, 338-353. Zadeh, L. (1965). Fuzzy Sets. Information and Control , 8, 338-353. 149 ÖZGEÇMĠġ 1980 İstanbul doğumlu olan yazar, 2001 yılında İstanbul Üniversitesi, Fen Fakültesi, Matematik Bölümü‟nden lisans derecesini almış, aynı yıl Milli Eğitim Bakanlığı‟na bağlı bir okulda matematik öğretmenliği yapmaya başlamıştır. 2002 yılında Mimar Sinan Güzel Sanatlar Üniversitesi, Fen-Edebiyat Fakültesi, İstatistik Bölümü‟nde araştırma görevliliği ve Mimar Sinan Güzel Sanatlar Üniversitesi, İstatistik Anabilim Dalı‟nda yüksek lisans eğitimine başlayarak bu programdan ve 2005 yılında mezun olmuştur. Aynı yıl İstanbul Üniversitesi, Sosyal Bilimler Enstitüsü, Sayısal Yöntemler Anabilim Dalı‟nda doktora eğitimine başlamıştır. 2009-2010 yıllarında bir yıllığına Amerika Birleşik Devletleri, University of Tennessee‟de burslu olarak doktora tez çalışmalarını devam ettiren Oğuz Akbilgiç, 2006 yılından beri İstanbul Üniversitesi, İşletme Fakültesinde araştırma görevlisi olarak çalışmaktadır. Uluslararası ve ulusal çeşitli dergilerde yayınlanmış makaleleri bulunan yazar iyi derece İngilizce ve orta düzeyde Rusça bilmektedir. 150