ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ DOKTORA TEZİ AKTÜERYAL MODELLEMEDE BULANIK DESTEK VEKTÖR MAKİNELERİ Furkan BAŞER İSTATİSTİK ANABİLİM DALI ANKARA 2013 Her hakkı saklıdır TEZ ONAYI Furkan BAŞER tarafından hazırlanan “Aktüeryal Modellemede Bulanık Destek Vektör Makineleri” adlı tez çalı çalışması 22/07/2013 tarihinde aşağıdaki ğıdaki jür jüri tarafından oy birliğii ile Ankara Üniversitesi Fen Bilimleri Enstitüsü İstatistik statistik Ana Anabilim Dalı’nda DOKTORA TEZİ olarak kabul edilmiştir. Danışman : Prof. Dr. Ay Ayşen APAYDIN Jüri Üyeleri : Başkan : Prof. Dr. İ. Burhan TÜRKŞEN TOBB Ekonomi ve T Teknoloji Üniversitesi Endüstri Mühendisliği Anabilim Dalı Üye : Prof. Dr. Ay Ayşen APAYDIN Ankara Üniversitesi, İstatistik Anabilim Dalı Üye : Prof. Dr. Burhan Ç ÇİL Gazi Üniversitesi, Ekonometri Anabilim Dalı Üye : Doç. Dr. Cemal ATAKAN Ankara Üniversitesi, İstatistik Anabilim Dalı Üye : Doç. Dr. Fatih TANK Ankara Üniversitesi, İstatistik Anabilim Dalı Yukarıdaki sonucu onaylarım. Prof. Dr. İbrahim brahim DEMİR DEM Enstitü Müdürü ÖZET Doktora Tezi AKTÜERYAL MODELLEMEDE BULANIK DESTEK VEKTÖR MAKİNELERİ Ankara Üniversitesi Fen Bilimleri Enstitüsü İstatistik Anabilim Dalı Danışman: Prof. Dr. Ayşen APAYDIN Aktüerya bilimi, belirsizlik durumunda sigorta prim ve rezervlerini tespit etmek amacıyla her türlü risk ölçüm ve hesaplamalarını kapsamaktadır. Bu belirsizlikler, belirsiz ortamlarda optimum karar almaya yarayan ve belli bir mantığa dayalı çıkarım olarak kabul edilen bulanık küme kuramı ile açıklanabilmektedir. Özellikle modelleme problemlerinde optimum düzeyde belirsizliğe izin veren yöntemler geliştirmek uygulamada büyük yarar sağlayacaktır. Çözümleme, öngörü ve denetim gibi alanlarda farklı amaçlarla kullanılabilen bu yaklaşımların dayanıklılık ve şeffaflık gibi özellikleri başlıca yararları arasındadır. Yeni bir makine öğrenmesi tekniği olan destek vektör makineleri (DVM), fonksiyon tahmini ve sınıflandırma problemlerinin çözümü için önerilmiş olan bir istatistiksel öğrenme algoritmasıdır. Sinir ağları, bulanık modeller ve sinir-bulanık ortak sistemleri gibi geleneksel öğrenme ve sistem modelleme yöntemleriyle karşılaştırıldığında, DVM yüksek genelleme başarımı, en iyileme kapasitesi ve yüksek boyutlu az sayıda veri üzerinde dahi çalışabilme gibi özelliklere sahiptir. Günümüzde DVM, veri madenciliğinde, finans alanında, çeşitli mühendislik problemlerinde ve görüntü işleme uygulamalarında başarıyla kullanılmaktadır. Birçok problemde olduğu gibi sigorta problemlerinde de güvenilir modellerin geliştirilmesi, sigorta şirketinin finansal istikrarı için çok önemlidir. Bu çalışmada, bazı özel sigorta problemlerinde destek vektör makineleri ile (bulanık) regresyon çözümlemesinin kullanımının önemi üzerinde durulacaktır. Bu doğrultuda, sistem parametrelerinin optimizasyonu aracılığı ile gizli yapıları tanımlayabilen güçlü bulanık modellere ulaşılması hedeflenmektedir. Temmuz 2013, 154 sayfa Anahtar Kelimeler: Bulanık sistem modelleri, bulanık regresyon, destek vektör makineleri, ağırlıklı bulanık aritmetik, en küçük kareler prensibi, muallak hasar rezervleri i ABSTRACT Ph.D. Thesis FUZZY SUPPORT VECTOR MACHINES IN ACTUARIAL MODELING Ankara University Graduate School of Natural and Applied Sciences Department of Statistics Supervisor: Prof. Dr. Ayşen APAYDIN Actuarial science encompasses all types of quantifications of risks under conditions of uncertainty for the purpose of setting insurance premiums and reserves. These uncertainties can be explained well by fuzzy set theory which is accepted as an inference mechanism based on certain logic and is useful for the optimal decisionmaking under uncertainty. Especially in modeling problems, developing methods that allow an optimum level of uncertainty will be very beneficial in practice. These methods can be used for different purposes in areas such as analyzing, prediction, control, and the main benefits of them include features such as robustness and clearness. A novel machine learning technique, Support Vector Machines (SVM), has recently been receiving considerable attention in pattern recognition and regression function estimation problems. Compared to the traditional learning and system modeling methods such as neural networks, fuzzy models and neuro-fuzzy systems, SVM has a high generalization performance, optimization capability, and can work even on highdimensional sparse data sets. Recently, SVM is successfully used in data mining, various financial and engineering problems and image processing applications. The development of reliable models for insurance problems as well as for the other problems is very important for the financial stability of the insurance companies. In this study, we intend to highlight the importance of the usage of (fuzzy) regression analysis with support vector machines for some featured insurance problems. Accordingly, it is aimed to achieve the strong fuzzy models that can identify hidden structures through optimization of the system parameters. July 2013, 154 pages Key Words: Fuzzy system models, fuzzy regression, support vector machines, weighted fuzzy arithmetic, the least squares principle, outstanding claim reserve ii TEŞEKKÜR Tezin hazırlanması sırasında bilgi ve deneyimleri ile desteğini esirgemeyen danışman hocam Sayın Prof. Dr. Ayşen APAYDIN (Ankara Üniversitesi, İstatistik Anabilim Dalı)’a en içten teşekkürlerimi sunarım. Çalışmanın gelişimine önerileriyle önemli katkılarda bulunan, tez izleme komitesi üyelerinden, Sayın Prof. Dr. İ. Burhan TÜRKŞEN (TOBB Ekonomi ve Teknoloji Üniversitesi, Endüstri Mühendisliği Anabilim Dalı)’e ve Sayın Doç. Dr. Cemal ATAKAN (Ankara Üniversitesi, İstatistik Anabilim Dalı)’a teşekkürü bir borç bilirim. Gazi Üniversitesi’nde göreve başladığım günden bu yana sevgi dolu yaklaşımı ile beni kendine hayran bırakan, bilime ve bilgiye bakış açısı ile örnek aldığım değerli hocam Sayın Prof. Dr. Burhan ÇİL (Gazi Üniversitesi, Ekonometri Anabilim Dalı)’e teşekkür ederim. Ayrıca, çalışmalarım süresince birçok fedakârlıklar göstererek bana destek veren BAŞER ailesinin çok değerli üyelerine sonsuz minnettarım. Dünya bilim ve teknolojisine katkıda bulunan saygın bir Türkiye’nin yaratılması için bilim insanlarına yönelik destekleyici ve teşvik edici bir program olan Bilim İnsanı Destekleme Programı aracılığıyla; doktora öğrenimime destekte bulunan Türkiye Bilimsel ve Teknolojik Araştırma Kurumu (TÜBİTAK)’na teşekkürlerimi sunarım. Furkan BAŞER Ankara, Temmuz 2013 iii İÇİNDEKİLER ÖZET ........................................................................................................................... i ABSTRACT ............................................................................................................... ii TEŞEKKÜR ............................................................................................................... iii ŞEKİLLER DİZİNİ .................................................................................................. vii ÇİZELGELER DİZİNİ ........................................................................................... viii 1. GİRİŞ VE ÖNCEKİ ÇALIŞMALAR .................................................................... 1 1.1 Giriş ...................................................................................................................... 1 1.2 Önceki Çalışmalar ................................................................................................ 3 2. İSTATİSTİKSEL ÖĞRENME TEORİSİ ............................................................. 8 2.1 Öğrenme Probleminin Yapısı .............................................................................. 8 2.1.1 Öğrenmenin amacı ............................................................................................ 9 2.1.2 Temel öğrenme problemleri ............................................................................ 10 2.1.3 Deneysel risk minimizasyonu .......................................................................... 11 2.2 Öğrenme Sürecinin Tutarlılığı Teorisi .............................................................. 15 2.2.1 Öğrenme teorisinin anahtar teoremi .............................................................. 16 2.2.2 Düzgün yakınsaklık için gerek ve yeter şartlar .............................................. 17 2.2.3 Öğrenme teorisinin üç aşaması ....................................................................... 21 2.3 Büyüme Fonksiyonu ve Vapnik–Chervonenkis Boyutu ................................... 23 2.3.1 Büyüme fonksiyonunun yapısı ........................................................................ 23 2.3.2 Vapnik–Chervonenkis boyutu ........................................................................ 25 2.4 Genelleme Üzerine Sınırlar ................................................................................ 27 2.4.1 Sınıflandırma ................................................................................................... 28 2.4.2 Regresyon ........................................................................................................ 31 2.5 Yapısal Risk Minimizasyonu ............................................................................. 32 3. DESTEK VEKTÖR MAKİNELERİ ................................................................... 36 3.1 Pay Tabanlı Kayıp Fonksiyonları ...................................................................... 39 3.2 Optimum Ayırma Hiperdüzlemi ....................................................................... 44 3.3 Çekirdek Gösterimi ile Nitelik Uzayları ............................................................ 54 3.3.1 Nitelik uzayında öğrenme ............................................................................... 55 3.3.2 Nitelik uzayına örtülü dönüşüm ..................................................................... 57 3.4 Doğrusal Olmayan Sınıflandırıcılar .................................................................. 60 3.5 Destek Vektör Makineleri ile Regresyon ........................................................... 61 3.5.1 Doğrusal regresyon ......................................................................................... 62 3.5.2 Doğrusal olmayan regresyon .......................................................................... 66 3.5.3 -Destek vektör regresyonu ............................................................................ 67 3.6 Toplam Hasar Ödeme Tutarlarının Kestiriminde DVR Yaklaşımı ................. 69 4. BULANIK REGRESYON FONKSİYONLARI YAKLAŞIMI ......................... 74 4.1 Bulanık Kümeleme Algoritmaları ..................................................................... 74 4.1.1 Bulanık c-ortalama kümeleme algoritması .................................................... 77 4.2 Bulanık Regresyon Fonksiyonları ..................................................................... 83 4.2.1 Bulanık regresyon fonksiyonları ile yapı tanımlama ..................................... 86 4.2.2 Bulanık regresyon fonksiyonları ile çıkarım .................................................. 91 4.3 Sigorta Hasar Tutarlarının Kestiriminde Bulanık Regresyon Fonksiyonları Yaklaşımı ............................................................................................................ 93 5. MELEZ BULANIK DESTEK VEKTÖR REGRESYON ÇÖZÜMLEMESİ ... 99 5.1 Bulanık Sayılar ve Ağırlıklı Bulanık Aritmetik ................................................ 99 5.1.1 Bulanık kümeler ve temel kavramlar ............................................................. 99 5.1.2 Bulanık sayılar .............................................................................................. 101 5.1.3 Ağırlıklı bulanık aritmetik ............................................................................ 104 5.1.4 Bulanık sayıların ağırlıklı fonksiyonu .......................................................... 108 5.2 Melez Bulanık Destek Vektör Regresyonu ...................................................... 112 5.2.1 Bulanık doğrusal regresyon .......................................................................... 113 5.2.2 Bulanık doğrusal olmayan regresyon ........................................................... 116 5.3 Melez Bulanık DVR’nin Diğer Bazı Bulanık Regresyon Yöntemleri ile Karşılaştırılması ................................................................................................ 118 6. SİGORTA HASAR REZERVLERİ ................................................................. 126 6.1 Geometrik Ayırma Yöntemi ............................................................................ 129 6.2 Sigorta Hasar Rezervlerinin Kestirimi için Önerilen Algoritma ................... 132 6.3 Melez Bulanık DVR ile Sigorta Hasar Rezervlerinin Kestirimi ..................... 135 7. SONUÇ VE TARTIŞMA ................................................................................... 140 KAYNAKLAR ....................................................................................................... 143 ÖZGEÇMİŞ ........................................................................................................... 151 ŞEKİLLER DİZİNİ Şekil 2.1 Öğrenme makinesi modeli ......................................................................... 9 Şekil 2.2 DRM prensibinin tutarlılığı ...................................................................... 15 Şekil 2.3 Büyüme fonksiyonunun davranışı ............................................................ 24 Şekil 2.4 Gerçel değerli fonksiyonlar kümesinin VC boyutu ................................... 27 Şekil 2.5 Fonksiyonlar kümesinin yapısı ................................................................. 33 Şekil 2.6 değerinin ( sabit) bir fonksiyonu olarak gerçek (beklenen) risk ve deneysel risk üzerine sınırlar .................................................................... 35 Şekil 3.1 Düzlemde üç nokta .................................................................................. 37 Şekil 3.2 Sınıflandırma için pay tabanlı kayıp ......................................................... 41 Şekil 3.3 Doğrusal ayrılabilir verilerin ikili sınıflandırması ..................................... 42 Şekil 3.4 Ayrılabilir olmayan verilerin ikili sınıflandırması .................................... 43 Şekil 3.5 Şekil 3.6 -duyarsız kayıp fonksiyonu .................................................................... 44 Optimum hiperdüzlemin karar sınırı ........................................................ 46 Şekil 3.7 Dual problemde optimum hiperdüzlem .................................................... 48 Şekil 3.8 Ayrılabilir olmayan veri durumunda optimum esnek pay hiperdüzlemi ..... 52 Şekil 3.9 Sınıflandırma probleminde nitelik dönüşümü ........................................... 56 Şekil 3.10 Doğrusal regresyon modelleri .................................................................. 71 Şekil 3.11 Polinomiyal regresyon modelleri ............................................................. 72 Şekil 4.1 Bulanık regresyon fonksiyonları yaklaşımı ile bulanık sistem modelleme . 85 Şekil 4.2 Küme geçerlilik göstergelerinin küme sayılarına göre değişimi ................ 95 Şekil 5.1 Üçgensel bulanık sayı ............................................................................ 102 Şekil 5.2 Yamuksal bulanık sayı ........................................................................... 104 Şekil 5.3 Bulanık fonksiyonlar ............................................................................. 108 Şekil 5.4 Düzenli fonksiyon .................................................................................. 109 Şekil 5.5 Düzenli olmayan fonksiyon ................................................................... 110 vii ÇİZELGELER DİZİNİ Çizelge 3.1 Klasik çekirdek fonksiyonları ................................................................ 60 Çizelge 3.2 Toplam hasar tutarlarının değişimi ........................................................ 70 Çizelge 3.3 Doğrusal ve doğrusal olmayan DVR çözümlemesi sonuçları ................. 73 Çizelge 4.1 Bazı uzaklık ölçüleri .............................................................................. 78 Çizelge 4.2 Bazı önemli küme geçerlilik göstergeleri ............................................... 82 Çizelge 4.3 Modelde yer alan girdi ve çıktı değişkenleri .......................................... 94 Çizelge 4.4 Hasar tutarlarının dağılımı ve betimleyici istatistikler ............................ 94 Çizelge 4.5 Küme geçerlilik göstergelerine göre optimum küme sayısı ve bulanıklık derecesi ................................................................................. 95 Çizelge 4.6 Bulanık regresyon fonksiyonlarında en küçük kareler yöntemi sonucunda elde edilen bulgular .............................................................. 97 Çizelge 4.7 Bulanık regresyon fonksiyonlarında klasik DVR yöntemi sonucunda elde edilen bulgular ............................................................................... 97 Çizelge 4.8 Bulanık doğrusal regresyon fonksiyonlarında en küçük kareler yöntemi sonucunda belirlenen katsayılar ............................................... 98 Çizelge 4.9 Bulanık doğrusal regresyon fonksiyonlarında DVR yöntemi sonucunda belirlenen katsayılar ............................................................. 98 Çizelge 5.1 Kesin girdi – bulanık çıktı verisi .......................................................... 119 Çizelge 5.2 Kesin girdi – bulanık çıktı verisi ile çeşitli çekirdek fonksiyonları için belirlenen değerleri ................................................................. 120 Çizelge 5.3 Simetrik üçgensel bulanık sayılar ile tanımlı bulanık girdi – çıktı verisi .................................................................................................... 121 Çizelge 5.4 Simetrik üçgensel bulanık sayılar ile tanımlı bulanık girdi – çıktı verisi için bulanık doğrusal regresyon modeline dayalı karşılaştırma sonuçları .............................................................................................. 121 Çizelge 5.5 Simetrik üçgensel bulanık sayılar ile tanımlı bulanık girdi – çıktı verisi için melez bulanık doğrusal olmayan DVR sonuçları ................. 121 Çizelge 5.6 Asimetrik üçgensel bulanık sayılar ile tanımlı bulanık girdi – çıktı verisi .................................................................................................... 122 viii Çizelge 5.7 Asimetrik üçgensel bulanık sayılar ile tanımlı bulanık girdi – çıktı verisi için bulanık doğrusal regresyon modeline dayalı karşılaştırma sonuçları ............................................................................................... 122 Çizelge 5.8 Asimetrik üçgensel bulanık sayılar ile tanımlı bulanık girdi – çıktı verisi için melez bulanık doğrusal olmayan DVR sonuçları ................. 123 Çizelge 5.9 Ev değerlerine ilişkin kesin girdi – bulanık çıktı verileri ...................... 124 Çizelge 5.10 Ev değerleme modeli için bulanık doğrusal regresyon çözümlemesine ilişkin karşılaştırma sonuçları .............................................................. 124 Çizelge 5.11 Ev değerleme modeli için melez bulanık doğrusal olmayan DVR sonuçları .............................................................................................. 125 Çizelge 6.1 Hasar tutarları üçgeni .......................................................................... 129 Çizelge 6.2 Ortalama hasar tutarları üçgeni ............................................................ 130 Çizelge 6.3 Dört yıllık gelişme süreciyle hasar tutarları üçgeni .............................. 135 Çizelge 6.4 Uygulamaya ilişkin ortalama hasar tutarları (, ) üçgeni ..................... 136 Çizelge 6.5 ln , değerlerinden oluşan veri üçgeni ................................................ 136 Çizelge 6.6 ln ’nin en küçük kareler tahmini ve bulanıklaştırılmış katsayılar ....... 137 Çizelge 6.7 ln ’nin en küçük kareler tahmini ve bulanıklaştırılmış katsayılar .... 138 Çizelge 6.8 Hasar tutarlarına ilişkin kestirimler, ln , ........................................... 139 Çizelge 6.9 Hasar tutarlarına ilişkin kestirimler, S, ................................................ 139 Çizelge 6.10 Uygulamaya ilişkin muallak hasar tutarları .......................................... 139 ix 1. GİRİŞ VE ÖNCEKİ ÇALIŞMALAR 1.1 Giriş Bilgi yüklü, karmaşık ve büyük veri setlerinin anlaşılmasına olan ihtiyaç; işletme, fen ve mühendisliğin neredeyse tüm alanlarında yaygın hale gelmiştir. Bu örnekler, tıbbi teşhis, el yazısı karakterlerin tanınması ve zaman serisi kestirimi gibi çeşitli problemleri de içermektedir. İş dünyasında ise kurum veya müşteri verileri, stratejik bir servet olarak görülmektedir. Bu veriler içerisinde saklı, faydalı bilginin ortaya çıkarılabilmesi ve buna göre geliştirilen eylemler, günümüz rekabetçi dünyasında oldukça öneme sahiptir. Öğrenme yöntemi, mevcut veriden sistem girdileri ve çıktıları arasındaki bilinmeyen eşleşmeyi (bağımlılık) açıklayan bir algoritmadır ve genellikle yazılımlar aracılığıyla uygulanır. Bağımlılığı ortaya koyan doğru modelin belirlenmesiyle de girdi değerlerinden sistem çıktıları kestirilir. Son yıllarda, makine öğrenmesi (machine learning) alanında önemli gelişmeler gözlenmektedir. Bu durum, • düşük maliyetli bilgisayarların, • düşük maliyetli algılayıcıların ve veri tabanı teknolojilerinin, • bilgisayar eğitimli uygulama uzmanlarının yaygınlaşmasından dolayı beklenilen bir gelişmedir (Cherkassky ve Mulier 2007). Model geliştirme ve tahmini için yöntemler, istatistik (regresyon ve sınıflandırma), mühendislik (örüntü tanıma) ve bilgisayar bilimi (yapay zeka, makine öğrenmesi ve veri madenciliği) gibi alanlarda sıklıkla kullanılmaktadır. Veriden öğrenme için yapılan son çalışmalar, yapay sinir ağları ve bulanık sistemler gibi biyolojik tabanlı yöntemlerin geliştirilmesi ile sonuçlanmıştır. 1 Yıllar öncesinden araştırılmaya başlanmış olmasına rağmen belirsizlik halinde modelleme problemi, henüz tamamıyla çözüme kavuşturulamamıştır (Türkşen 2009). Diğer birçok problemde olduğu gibi sigorta problemlerinde de güvenilir modellerin geliştirilmesi, model değişkenlerinin önemli değerlerinin tanımlanmasına bağlıdır. Ancak gerçek hayat problemlerinde mevcut bilginin doğasından kaynaklı eksik olması, belirsizlik ve hata içermesinden dolayı bu önemli değerler elde edilememektedir. Bu çalışmanın amacı, mevcut bilginin muhafaza edilerek; belirsizliği parametrelerde ve bulanık fonksiyonların yapısında tutmak üzere bir bulanık modelleme yapısı geliştirmektir. Bu amaç doğrultusunda, sistem parametrelerinin optimizasyonu aracılığı ile gizli yapıları tanımlayabilen güçlü bulanık modeller üzerinde durulacaktır. Bu çalışmada, doğrusal veya doğrusal olmayan bulanık regresyon modelleri için melez bulanık destek vektör regresyon çözümlemesi olarak adlandırılan yeni bir yöntem geliştirilecektir. Önerilen yaklaşıma göre parametre tahminleri, klasik destek vektör makineleri ve en küçük kareler prensibi temelindeki düşünceler kullanılarak doğrusal kısıtlar ile tanımlı iki konveks karesel programlama probleminin çözümüyle gerçekleştirilecektir. Ayrıca farklı çekirdek (kernel) fonksiyonlarının seçimi ile polinomiyal regresyon fonksiyonları, radyal tabanlı fonksiyon formuna bağlı regresyon fonksiyonları gibi doğrusal olmayan regresyon modelleri de elde edilecektir. Çalışmanın ikinci bölümünde, istatistiksel öğrenme teorisine ilişkin temel kavramlar ele alınacak ve sonuçlar incelenecektir. Esasında bu sonuçlar, regresyon ve sınıflandırma amaçlı yapısal öğrenme yöntemlerinin anlaşılmasında gerekli kavramsal ve kuramsal altyapıyı oluşturmaktadır. Üçüncü bölümde, klasik destek vektör regresyonu tüm yönleri ile incelenecek; çekirdek gösteriminden yararlanarak doğrusal olmayan destek vektör regresyon modeline ilişkin programlama problemi ele alınacaktır. Ayrıca bu bölümde, -destek vektör regresyon çözümlemesine de yer verilecektir. Bölümün uygulama kesiminde ise toplam hasar ödeme tutarlarının kestiriminde destek vektör regresyon yaklaşımının önemi üzerinde durulacaktır. 2 Dördüncü bölümde, Bulanık c-Ortalama Kümeleme Algoritması ele alınacak; Tip-1 Bulanık Regresyon Fonksiyonları ile bulanık sistem modelinin yapı tanımlama ve çıkarım algoritmaları detaylı bir biçimde incelenecektir. Ayrıca, otomobil maddi zarar sigortalama sürecinde, hasar tutarlarının kestirimi için Bulanık Regresyon Fonksiyonları yaklaşımının bir uygulaması gerçekleştirilecektir. Çalışmanın özgün kısmını oluşturan beşinci bölümünde, bulanık doğrusal ve doğrusal olmayan regresyon modellerinde melez bulanık destek vektör regresyon çözümlemesi tanıtılacaktır. Bulanık küme teorisi ve temel kavramlar ele alınacak; ağırlıklı bulanık aritmetik tanımına göre asimetrik (simetrik) üçgensel bulanık sayılar için bulanık aritmetik işlemler geliştirilecektir. Önerilen yöntemden elde edilen bulguları, literatürde mevcut diğer bulanık destek vektör regresyon yöntemlerinden elde edilen bulgularla karşılaştırabilmek amacıyla bu çalışmalarda kullanılan farklı veri setleri tekrar ele alınacaktır. Çalışmanın altıncı bölümünde, önerilen melez bulanık destek vektör regresyon yöntemi, muallak hasar rezerv kestirimi olarak adlandırılan özel bir sigorta problemi üzerinde uygulanacaktır. Bu nedenle, sigorta hasar rezervleri ve bazı temel kavramlar ele alınacak; sigorta şirketinin hasar rezervi ayırma amaçları üzerinde durulacaktır. Daha sonra, hasar rezerv kestiriminde melez bulanık destek vektör regresyonunun kullanımı üzerine önerilen algoritma sunulacaktır. Son olarak, uygulamalardan ulaşılan bulgular da değerlendirilerek çalışmadan elde edilen önemli sonuçlar özetlenecektir. 1.2 Önceki Çalışmalar Ölçüm kısıtları ve ölçüm hatalarının bir bileşimi olarak ortaya çıkan belirsizlik ile neredeyse tüm gerçek dünya problemlerinde karşılaşılmaktadır. Bilişsel problemlerde belirsizlik ise doğal dile özgü muğlaklık veya sosyal ilişkilerde insanların etkileşimi 3 sonucu beliren ortak anlamlılıktan kaynaklanmaktadır. Bundan dolayı; belirsizlik, insanların gerçek dünya ile bir dereceden etkileşimi için gerekli bir kavramdır. 1965 yılında Prof. Lotfi A. Zadeh’in “Bulanık Kümeler” başlıklı yayını, modern belirsizlik kavramının gelişiminde önemli bir dönüm noktası olarak kabul görmektedir. Zadeh çalışmasında, kesin olmayan sınırlar ile tanımlanmış kümeler olarak açıkladığı bulanık kümelere ilişkin bir teoriyi tanıtmıştır. Bulanık kümedeki üyeliklerin, kabul ya da redden ziyade bir derecelendirme sonucu belirlenmesi bulanık kümelerin yegâne özelliğidir (Zadeh 1965). Bulanık sistem modellemesi, klasik matematiksel modellerin başarılı sonuçlar ortaya çıkarmada yetersiz olduğu, karmaşık ve belirsiz sistemlerin modellenmesinde kullanılmaktadır. Bilinen bulanık modeller, özellikle belirsizliğin hakim olduğu sistemlerde kullanışlı olan bulanık kümelere ve bulanık mantığa dayalıdır. Bulanık sistemlerin birçok bulanık modelinde kural tabanları, girdi ve çıktı değişkenleri için tanımlanmış bulanık sözel terimlerin bulanık fonksiyonları ile birlikte kullanılmaktadır. Bu modellerde, girdiler ve çıktılar arasındaki ilişkiler eğer-ise kuralları ile temsil edilmektedir. Böylece farklı yapıları çözümlemek üzere geliştirilen bulanık çıkarım sistemleri de farklılık göstermektedir (Celikyilmaz ve Türksen 2009). Bulanık kural tabanları; bulanıklaştırma, bileşke (aggregation), durulaştırma gibi birçok bulanık işlemciyi içermektedir. Bulanık kümelerin ve parametrelerinin tanımlanması, üyelik fonksiyonlarının sayısının ve şeklinin belirlenmesi günümüzde birçok araştırmacının odaklandığı bir konudur. Literatürde mevcut çeşitli bulanık sistem modelleme yaklaşımları, belirsizliği çözümlemek üzere diğer esnek hesaplama yaklaşımları ile birleştirilmiştir. Yapısal olarak bulanık sistemleri kurmak için tek bir çözüm olarak değerlendirilmemesi gereken bu yaklaşımlar, bulanık kural tabanlarına dayandırılmaktadır. Bulanık kural tabanlarına alternatif bir yaklaşım olarak değerlendirilen Bulanık Regresyon Fonksiyonları’nın temeli ise Türkşen (2008) tarafından yapılan çalışmada atılmıştır. 4 Bulanık Regresyon Fonksiyonları yaklaşımı üyelik değerlerini bugüne kadar uygulanan diğer başka bulanık sistem modellerinden farklı bir biçimde ele almaktadır. Burada üyelik değerleri, bir sistem davranışı hakkında bilgileri içinde barındıran ve her an gücünü serbest bırakmak üzere etkinleştirilmiş atomlarmış gibi düşünülebilir. Üyelik değerlerinden elde edilen bu potansiyel bilgiler, sistem modellerinin tahmin edicisi gibi lokal bulanık fonksiyonlar içerisinde biriktirilirler. Bu nedenle, bir sistem için modeller geliştirmek üzere, bulanık kural tabanlı yapıları kullanmak yerine Bulanık Regresyon Fonksiyonlarının kullanımı önerilmektedir (Celikyilmaz ve Türksen 2009). Benzerliklerin vektörler arasındaki uzaklıklara bağlı olarak açıklandığı bu sistem modelleme yaklaşımlarında üyelik değerleri önemli rol oynamaktadır (Çelikyılmaz ve Türkşen 2007). Türkşen ve Celikyilmaz (2006) tarafından yapılan çalışmada da üyelik değerlerinin bulanık modeller üzerinde öneme sahip olduğu vurgulanmıştır. Bulanık Regresyon Fonksiyonları yönteminin, klasik bulanık kural tabanlı sistem yaklaşımlara göre sistem çıktısı ve model çıktısı arasındaki hatayı enküçükleyebilmesi açısından daha iyi sonuçlar verdiği belirlenmiştir. Yeni bir makine öğrenmesi tekniği olan Destek Vektör Makineleri (DVM) son zamanlarda örüntü tanıma ve regresyon model kestirimi alanlarında oldukça ilgi görmektedir. DVM ilk olarak 1995 yılında Vladimir N. Vapnik ve çalışma arkadaşları tarafından ortaya atılmıştır (Vapnik 1995). İstatistiksel öğrenme teorisinde bu teknik, deneysel risk minimizasyonundan (Empirical Risk Minimization – DRM) ziyade yapısal risk minimizasyonuna (Structural Risk Minimization – YRM) dayandırılan bir öğrenme algoritması olarak geliştirilmiştir. YRM tümevarım prensibi, sonlu örneklemler için Vapnik–Chervonenkis (VC) boyutuna bağlı olarak optimum model karmaşıklığını belirlemek üzere biçimsel bir mekanizma sağlar. Klasik sinir ağları ile karşılaştırıldığında DVM, bir tek global optimum çözüm elde edebilir ve boyut sorunu ile karşılaşmaz. Bu ilgi çekici özellikleri DVM’yi sıklıkla tercih edilir bir teknik haline getirmektedir. DVM ilk olarak örüntü tanıma problemlerini çözmek üzere tasarlanmıştır (Chiu ve Chen 2009, Min ve Cheng 2009, Chen vd. 2008, Shieh ve Yang 2008, Chen ve Hsieh 2006, Yang vd. 2006, Jayadeva ve Chandra 2004, Tsujinishi ve Abe 2003). Vapnik’in -duyarsız kayıp fonksiyonunun ortaya atılması ile birlikte DVM, fonksiyon 5 yakınsama ve regresyon model kestirimi problemlerine de genişletilmiştir (Wu 2009, Dong vd. 2007). Birçok gerçek hayat uygulamalarında ise gözlenen girdi verileri kesin olarak ölçülemez ve sıklıkla sözel terimler ile açıklanır. Klasik destek vektör regresyon yönteminin nitel verileri çözümleyememesinden dolayı bu konuda bulanık teori altyapısından faydalanılması anlamlı hale gelmektedir. Bulanık mantığın, bulanık ve belirsiz verilerin çözümlenmesinde güçlü bir araç olduğu gerçeğinden yola çıkarak bazı araştırmacılar, bulanık destek vektör makinesi üzerinde çalışmalar yapmışlardır. İlk olarak Hong ve Hwang (2003, 2005) çalışmalarında DVM’nin, çok değişkenli bulanık doğrusal ve doğrusal olmayan regresyon modellerinde kullanımını önermişlerdir. Hong ve Hwang (2003) tarafından önerilen destek vektör bulanık regresyon makinesi, bir karesel programlama probleminin çözümü ile ortaya konulmuştur. Jeng vd. (2003), DVM’yi aralık regresyon çözümlemesinde kullanmıştır. Çalışmalarında aralık regresyonu için iki radyal tabanlı fonksiyon ağı ile veri aralığının alt ve üst sınırlarını açıklayan iki adımlı bir yaklaşım önermişlerdir. Radyal tabanlı fonksiyon ağının başlangıç yapısı DVM öğrenme yaklaşımı ile elde edilmiştir. Sonuç olarak ağın iyileştirilmesinde klasik geri yayılımlı öğrenme algoritması kullanılmıştır. Hao ve Chiang (2008) çalışmalarında, kesin girdilere karşılık bulanık çıktı durumunda, bulanık doğrusal (doğrusal olmayan) regresyon çözümlemesine ilişkin bir algoritma önermiştir. Bu bulanık DVM yaklaşımında, mevcut eğitim verisi için bulanık çıktı değerlerine, belirli bir uyum derecesine sahip bulanık regresyon modeli aranmaktadır. Oluşturulan programlama problemi incelendiğinde, Tanaka vd. (1982) tarafından önerilen bulanık regresyon yaklaşımının, DVM regresyon çözümlemesine uyarlandığı görülmektedir. Wu (2010) çok boyutlu zaman serisi kestiriminde bulanık DVM’nin yeni bir uygulamasını geliştirmiştir. Birçok kestirim probleminde sınırlı sayıda örnek ve bulanık veri mevcut olması dolayısıyla; kapsamlı bulanık değerlendirmeler sonucunda girdi – çıktı değişkenlerinin bulanık sayılar ile açıklanması önem arz etmektedir. Bu çalışmada, 6 girdi değişkenlerinin bulanıklık derecesini temsil etmek üzere simetrik üçgensel bulanık sayılardan faydalanılmıştır. Bulanık teori ile -destek vektör makinesi birleştirilerek simetrik üçgensel bulanık sayılar için bulanık -destek vektör makinesi yaklaşımı sunulmuştur. 7 2. İSTATİSTİKSEL ÖĞRENME TEORİSİ 1960’lı yılların sonlarında geliştirilen istatistiksel öğrenme teorisi, 1990’lara kadar veri setinden fonksiyon tahmin probleminin bir teorik çözümlemesi olarak kalmıştır. 1990’lı yılların ortalarında ise bu teoriye dayandırılan ve destek vektör makineleri (Support Vector Machine – DVM) olarak adlandırılan yeni bir öğrenme algoritması önerilmiştir. Böylece istatistiksel öğrenme teorisi, sadece teorik çözümlemeler için değil aynı zamanda çok boyutlu fonksiyon tahmininde de kullanışlı algoritmalar geliştirmek üzere etkili bir araç haline gelmiştir. Bu bölümde, kuramsal ve algoritmik yönleri ile istatistiksel öğrenme teorisi incelenecektir. 2.1 Öğrenme Probleminin Yapısı Öğrenme, kısıtlı sayıda gözlemler kullanarak girdi ve çıktı arasındaki bilinmeyen bağımlılığın veya sistem yapısının tahmin edilmesi sürecidir. Veriden öğrenme modeli, • • • Olasılık (yoğunluk) fonksiyonu olan rasgele vektörlerinin üreticisi, ⁄ koşullu olasılık (yoğunluk) fonksiyonuna göre her bir girdi vektörü için bir çıktısını belirleyen sistem, , Ω kümesinden bir parametre olmak üzere; , , kümesini uygulayabilecek bir öğrenme makinesi Ω fonksiyon biçiminde verilen üç bileşen (Şekil 2.1) yardımıyla açıklanabilir (Vapnik 1998). Öğrenme problemi, verilen , , Ω fonksiyonlar kümesinden sistem yanıtını mümkün en iyi yol ile tahmin eden fonksiyonu seçmektir. Seçim, , ! ⁄ ortak olasılık (yoğunluk) fonksiyonuna göre rasgele seçilmiş birbirinden bağımsız aynı dağılımlı gözlemin oluşturduğu # , # , … , % , % eğitim kümesine dayalıdır. 8 Üretici Öğrenme Makinesi Sistem , Şekil 2.1 Öğrenme makinesi modeli 2.1.1 Öğrenmenin amacı İstatistiksel model tahmini çerçevesinde öğrenmenin amacı, bilinmeyen bir sistemin doğru tanımlanması iken; kestirimsel öğrenmede amaç, sistem çıktısının doğru taklit edilmesidir. Buna göre, amaçları itibariyle bakıldığında sistem tanımlamasının, sistem taklidinden daha tercih edilir olduğu açıktır. Örneğin, doğru bir sistem tanımlaması girdi örneklemlerinin dağılımına bağlı değilken; iyi bir kestirimsel model genellikle bu (bilinmeyen) dağılıma koşulludur. Bundan dolayı, sistem tanımlama yaklaşımına göre doğru bir model, kestirimsel açıdan iyi genellemeye sahip olacaktır ancak bunun tersi doğru değildir. Sistem tanımlamanın matematiksel işlemlerinin sonucu olarak bir fonksiyon yakınsama yapısına ulaşılır ve bu konuda esas problem de boyut sorunudur. Bunun aksine, kestirimsel öğrenmede belirlenen amaç ile Vapnik–Chervonenkis (VC) öğrenme teorisine ulaşılır (Vapnik 1998). Sistem yanıtının mümkün en iyi tahmine ulaşmak üzere; verilen bir girdisi için sistem yanıtı ile öğrenme makinesi tarafından elde edilen , arasındaki kayıp veya uyuşmazlık ölçülür. Risk fonksiyonu olarak tanımlanan &, '(, , ) kayıp fonksiyonunun beklenen değeridir ve & ! * '(, , ) , ++ (2.1) biçiminde tanımlanır (Vapnik 1999). Burada amaç, , ortak olasılık (yoğunluk) fonksiyonunun bilinmediği ve tek mümkün bilginin eğitim veri setinde barındırıldığı bir 9 durumda, & risk fonksiyonunu ( , , Ω fonksiyonlar kümesi üzerinde) minimum yapacak , - fonksiyonunu bulmaktır. 2.1.2 Temel öğrenme problemleri Öğrenme probleminin oldukça genel olan formülasyonu esasında birçok özel problemi kapsamaktadır. Bu kesimde, örüntü tanıma problemleri, regresyon fonksiyonu tahmini ve olasılık (yoğunluk) fonksiyonu tahmini biçiminde belirlenen üç temel problem incelenecektir. Tanım 2.1 Örüntü tanıma problemi Sistem çıktısı olan ’nin sadece iki değer alması ! .0, 11 ve , , Ω gösterge fonksiyonlar (sadece 0 ve 1 değerlerini alan fonksiyonlar) kümesini göstermesi durumunda, 0, ! , 4 '(, , ) ! 2 1, 3 , (2.2) biçiminde verilen bir kayıp fonksiyonu göz önüne alınsın. Bu tür bir kayıp fonksiyonu kullanıldığında, (2.1) denklemi hatalı sınıflandırma olasılığını verir. Bundan dolayı; problem, , olasılık ölçüsünün bilinmediği ancak # , # , … , % , % eğitim kümesinin mevcut olduğu durumda, hatalı sınıflandırma olasılığını minimum yapan fonksiyonu belirlemektir (Vapnik 1999). Tanım 2.2 Regresyon fonksiyonu tahmin problemi Reel değerler alan sistem yanıtı için , , , - ! * ⁄+ Ω fonksiyonlar kümesi, (2.3) 10 biçimindeki regresyon fonksiyonunu içersin. Eğer 5, fonksiyonu, '(, , ) ! ( 7 , ) 6 '6 ise regresyon (2.4) kayıp fonksiyonunu ile & riskini minimum yapan fonksiyondur. Böylece regresyon tahmin problemi, , olasılık ölçüsünün bilinmediği ancak # , # , … , % , % eğitim kümesinin mevcut olduğu durumda, eşitlik (2.4)’deki kayıp fonksiyonu kullanıldığında; (2.1) eşitliği ile verilen risk fonksiyonunun minimum yapılması problemidir (Vapnik 1999). Tanım 2.3 Olasılık (yoğunluk) fonksiyonu tahmin problemi , , Ω olasılık (yoğunluk) fonksiyonları kümesinden olasılık (yoğunluk) fonksiyonu tahmin problemi için '(, ) ! 7 log , (2.5) biçiminde verilen bir kayıp fonksiyonu göz önüne alınsın. Aranılan fonksiyonun, (2.5) eşitliğindeki kayıp fonksiyonu kullanıldığında, (2.1) denklemi ile verilen risk fonksiyonunu minimum yapması istenmektedir. Buna göre, olasılık ölçüsünün bilinmediği fakat birbirinden bağımsız aynı dağılımlı # , 6 , … , % veri setinin mevcut olması durumunda, veriden olasılık (yoğunluk) fonksiyonu tahmini için yine bir risk fonksiyonunun minimum yapılması gerekmektedir (Vapnik 1999). 2.1.3 Deneysel risk minimizasyonu : ! , girdi-çıktı ikililerini göstermek üzere ;:, , Ω kayıp fonksiyonlar kümesi göz önüne alınsın. Bir öğrenme probleminde bilinmeyen bir : olasılık (yoğunluk) fonksiyonuna göre üretilmiş sayıda birbirinden bağımsız ve aynı dağılımlı 11 eğitim veri seti <% ! .:# , :6 , … , :% 1 mevcut olduğunda kestirimsel öğrenme yaklaşımında amaç, & ! * ; :, :+: , Ω (2.6) risk fonksiyonunu minimum yapan ;:, - fonksiyonunu bulmaktır. : olasılık (yoğunluk) fonksiyonunun bilinmediği durumda, (2.6) eşitliği ile verilen risk fonksiyonunu minimum yapmak amacıyla; beklenen risk fonksiyonu & , <% ! .:# , :6 , … , :% 1 deneysel veri seti temeli üzerine kurulan deneysel risk fonksiyonu, # &=>? ! % ∑%B# ;:A , (2.7) ile yer değiştirilir. Eşitlik (2.6)’daki risk fonksiyonunu minimum yapan ;:, - fonksiyonuna, (2.7) eşitliği ile verilen deneysel riski minimum yapan ;:, % fonksiyonu ile yakınsanmasına deneysel risk minimizasyonu (Empirical Risk Minimization – DRM) tümevarım prensibi adı verilmektedir (Kecman 2001, Cherkassky ve Mulier 2007). Regresyon tahmin problemlerinde kullanılan en küçük kareler veya yoğunluk tahmin problemlerinde kullanılan maksimum olabilirlik gibi klasik yöntemler, belirli kayıp fonksiyonları ile DRM prensibinin özel bir halidir. Aslında, bir regresyon problemi, # , # , … , % , % eğitim veri seti için (2.4) eşitliğinde gösterilen kayıp fonksiyonu ile tanımlanır. (2.7) eşitliği ile verilen risk fonksiyonu kullanılarak regresyon model tahmini (en küçük kareler yöntemi) için minimum yapılması gereken, # &=>? ! % ∑%B#( 7 , ) 6 fonksiyonuna ulaşılır. 12 (2.8) , , Ω olasılık (yoğunluk) fonksiyonları kümesinden olasılık (yoğunluk) fonksiyonu tahmin probleminde, eşitlik (2.5) ile verilen kayıp fonksiyonu kullanılabilir. Bu kayıp fonksiyonu, (2.7) eşitliği ile verilen risk fonksiyonunda yerine konulduğunda, # &=>? ! 7 % ∑%B# log , (2.9) fonksiyonu elde edilir. &=>? ’nın minimumu, olasılık (yoğunluk) fonksiyonunun aynı zamanda maksimum olabilirlik tahminidir. Öğrenme teorisi, i) DRM prensibinin tutarlılığı için koşullar nelerdir? (Öğrenme sürecinin tutarlılığı teorisi) ii) Deneysel risk değerlerinin en küçüklerinin dizisinin, gerçek en küçük riske olan yakınsama hızı nedir? Bir başka ifadeyle; deneysel risk minimizasyon prensibini uygulayan bir öğrenme makinesinin genelleme derecesi nedir? (Öğrenme sürecinin yakınsama derecesinin asimptotik olmayan teorisi) iii) Öğrenme makinesinin yakınsama derecesi (genelleme derecesi) nasıl kontrol edilebilir? (Öğrenme sürecinin genelleme kabiliyetini kontrol etme teorisi) iv) Genelleme derecesini kontrol edebilen bir algoritma nasıl oluşturulabilir? (Öğrenme algoritmalarının oluşturulması teorisi) biçiminde verilen dört soruya çözüm arar (Vapnik 1999). Birinci sorunun yanıtına, rasgele değişkenlerin bir dizisinin olasılıkta yakınsaması için gerek ve yeter şartların belirlenmesi ile ulaşılabilir: a) & % risk değerlerinin riskin mümkün minimum değeri olan & - ’a yakınsaması yani, C ∞ için 13 E &% FGGH &- (2.10) dır. Burada & % , ! 1,2, … değerleri, her biri &=>? % deneysel riskini minimum yapan ; :, % kayıp fonksiyonları için beklenen risklerdir. (2.10) denklemi, DRM prensibi kullanılarak bulunan çözümlerin, mümkün en iyi risk değerine olasılıkta yakınsadığını göstermektedir. b) &=>? % , ! 1,2, … deneysel risk değerlerinin riskin mümkün minimum değeri olan & - ’a yakınsaması yani, C ∞ için E &=>? % FGGH & - (2.11) dır. (2.11) denklemi, deneysel risk değerlerinin, mümkün en küçük risk değerine olasılıkta yakınsadığını göstermektedir. Burada, &% değerlerinin olasılıkta yakınsaması, J K 0 ve JL K 0 için öyle bir - ! - , L sayısı vardır öyle ki J K - için en az 1 7 L olasılık ile & % 7 &ω- N eşitsizliği sağlanır, anlamına gelmektedir. Şekil 2.2 ile de gösterildiği gibi ; :, % kayıp fonksiyonlarının bir dizisi için beklenen risk ve deneysel risk, aynı (mümkün en küçük) risk değerine yakınsıyor ise DRM yöntemi tutarlıdır, denir Ayrıca, verilen bir eğitim veri seti için öğrenme makinesi genellikle deneysel riski minimum yapan fonksiyonu seçeceğinden, &=>? % N & % olması beklenilir. Başka bir ifade ile sayıda örneklem için DRM prensibine göre belirlenen ; :, % fonksiyonları, gerçek riski minimum yapan en iyi fonksiyonların yanlı tahminleri olduğu söylenilir. C ∞ için (büyük sayılar yasası gereği) deneysel riskin, beklenen riske (belirli bir değeri için) yakınsaması arzu edilir. 14 Ancak burada tutarlılık özelliği, deneysel riski minimum yapan parametre kümesinin, gerçek riski de kendi kendine minimum yapacağı anlamına gelmemektedir. Bu nedenle DRM yönteminin tutarlılığının, fonksiyonlar kümesinin belirli bir elemanının özelliklerine bağlı olmadığının ortaya konulması amacıyla; (2.10) ve (2.11) denklemi ile verilen tutarlılık koşullarının, tüm (kabul edilebilir) fonksiyonlar için sağlanması gerekmektedir. Bu koşul, güçlü tutarlılık olarak bilinir (Vapnik 1995, 1998). Güçlü tutarlılık kavramı, belirlenen en iyi fonksiyonun küme içerisinden çıkarılmasından sonra da DRM prensibinin tutarlı kalmasını gerektirir. Bir sonraki kesimde verilecek olan öğrenme teorisinin anahtar teoremi, DRM tümevarım prensibinin güçlü tutarlılığı için gerek ve yeter şartları temin eder. Beklenen risk & % minQ & Deneysel risk &=>? % Şekil 2.2 DRM prensibinin tutarlılığı 2.2 Öğrenme Sürecinin Tutarlılığı Teorisi Gözlem sayısı arttığında, deneysel risk minimizasyonu yöntemi kullanılarak elde edilen çözümlerin mümkün en iyiye yakınsaması için gerek ve yeter şartları açıklayan tutarlılık teorisi bir asimptotik teoridir. Burada amaç, örneklem hacmi küçük (sonlu) olduğunda bir algoritma oluşturmak ise tutarlılık teorisine neden ihtiyaç duyulduğu sorusu gündeme gelmektedir. Deneysel risk minimizasyonu tümevarım yönteminde yakınsama 15 durumu için tutarlılık teorisi, sadece yeter değil gerek şartları da açıklamaktadır. Bundan dolayı tutarlılık teorisine ihtiyaç duyulmaktadır. Bu kesimde, DRM prensibinin genelleme kabiliyetini tanımlayan Vapnik–Chervonenkis (VC) entropi kavramı ele alınacak ve daha sonra öğrenmenin asimptotik olmayan teorisinin, belirli sayıda gözlem için bu kavramı değerlendiren farklı tip sınırlara dayalı olduğu gösterilecektir. 2.2.1 Öğrenme teorisinin anahtar teoremi Sınırlı kayıp fonksiyonlarına sahip ;:, , alınsın. Buna göre, eğer R S * ;:, :+: S T , J Ω fonksiyonlar kümesi göz önüne Ω (2.12) ise DRM prensibinin tutarlı olması için gerek ve yeter şart; &=>? deneysel riskinin, & gerçek risk değerine ; :, , lim%CU V WsupQ Ω [& Ω fonksiyonlar kümesi üzerinde, 7 &=>? \ K ] ! 0 , J K 0 (2.13) biçiminde düzgün yakınsak olmasıdır (Vapnik ve Chervonenkis 1991). Bu tip bir yakınsamaya da düzgün tek taraflı yakınsama denir. Başka bir ifadeyle anahtar teoreme göre; DRM prensibinin tutarlılığının koşulları, (2.13) denklemi ile verilen düzgün tek taraflı yakınsaklığın mevcut olması koşullarına denktir. Bu teorem, DRM prensibinin yakınsaklık özelliğinin herhangi bir analizinin, en kötü durum çözümlemesi olması gerektiği anlamına gelmesi dolayısıyla anahtar teorem olarak adlandırılmaktadır. Buna göre, tutarlılık için gerek şart (sadece yeter şart değil), belirli bir fonksiyonlar kümesi üzerinde en kötü fonksiyon için 16 ∆=% _öaü ! supQ Ω [& 7 &=>? \ (2.14) biçiminde verilen sapmanın olasılıkta sıfıra yakınsamasıdır (Vapnik 1999). 2.2.2 Düzgün yakınsaklık için gerek ve yeter şartlar (2.13) denklemi ile verilen düzgün yakınsaklık için gerek ve yeter şartları açıklamak üzere; sayıda örnek üzerinde ;:, , Ω fonksiyonlar kümesi için entropi olarak adlandırılan kavram tanıtılacaktır. Buna göre, ilk olarak gösterge fonksiyonlar kümesi ve daha sonra ise gerçel değerli fonksiyonlar kümesi için entropi kavramı ele alınacaktır. Tanım 2.4 Gösterge fonksiyonlar kümesi için entropi ; :, , Ω gösterge fonksiyonlar kümesi olsun ve <% ! .: , c ! 1, 2, … , 1 örneklemi göz önüne alınsın. Belirli bir örneklem üzerinde, ;:, , Ω fonksiyonlar kümesinin çeşitliliği ise d <% değeri ile tanımlansın. Gösterge fonksiyonlar kümesinden fonksiyonlar kullanılarak elde edilebilen d <% değeri, örneklemin farklı parçalanmalarının sayısını göstermektedir. Başka bir biçimle; , Ω parametre kümesinden farklı değerler aldığı zaman - boyutlu ikili vektörlerin kümesi, e ! (;:# , , … , ;:% , ) , Ω (2.15) ile ifade edildiğinde, geometrik olarak d <% değeri, <% ! .: , c ! 1, 2, … , 1 örneklemi ve ;:, , Ω fonksiyonlar kümesine bağlı olarak elde edilebilen - boyutlu küpün farklı köşe noktalarının sayısını göstermektedir. Ayrıca, f<% ! ln d<% (2.16) 17 değerine de rasgele entropi adı verilir (Vapnik 1999). Rasgele entropi, belirli bir örneklem üzerinde fonksiyonlar kümesinin çeşitliliğini açıklamaktadır. Burada f<% bir rasgele değişkendir. g :# , … , :% ortak dağılım fonksiyonu üzerinde rasgele entropinin beklenen değeri, f ! hiln d<% j (2.17) göz önüne alınsın. Bu değer, sayıda örneklem üzerinde ;:, , Ω gösterge fonksiyonlar kümesinin entropi miktarı olarak adlandırılır. Burada beklenen değer, ; :, , Ω fonksiyonlar kümesine, (bilinmeyen) g : dağılım fonksiyonuna ve gözlem sayısına bağlıdır. Entropi, verilen gösterge fonksiyonlar kümesinin, sayıda örneklem için beklenen çeşitliliğini belirtmektedir. Örüntü tanıma problemleri (gösterge kayıp fonksiyonu) için tutarlılık teorisinin başlıca sonucu teorem 2.1 ile verilir. Teorem 2.1: &=>? deneysel riskinin, & gerçek risk değerine çift taraflı düzgün yakınsaması yani, lim%CU VksupQ Ωl& 7 &=>? l K m ! 0 , J K 0 (2.18) için gerek ve yeter şart, lim%CU n% % ! 0 , J K 0 (2.19) eşitliğinin sağlanmasıdır (Vapnik ve Chervonenkis 1971, Mendelson 2003). (2.19) eşitliği ile verilen koşulun yeniden düzenlenmesiyle, eşitlik (2.13)’deki tek taraflı düzgün yakınsaklık için de gerek ve yeter şartlar elde edilebilir. 18 Tanım 2.5 Gerçel fonksiyonlar kümesi için entropi Entropi kavramını gerçel değerli fonksiyonlar için genellemek üzere; R S ;:, S T, Ω sınırlandırılmış fonksiyonlar kümesi göz önüne alınsın. Bu fonksiyonlar kümesini ve <% ! .: , c ! 1, 2, … , 1 eğitim veri setini kullanarak -boyutlu gerçel değerli vektörlerin bir kümesi, e ! (;:# , , … , ;:% , ) , Ω (2.20) biçiminde oluşturulabilir. Vektörlerin bu kümesi, o metriğinde sonlu bir 7 pq’e sahiptir. Burada 7 pq şöyle tanımlanır: Eğer herhangi bir e r , r Ω vektörü için belirli bulanabiliyorsa ve d ! d; <% sayısı mevcut ise e , Ω vektörler kümesi bir metrik üzerinde bu vektöre, uzaklıkta olan bir es e# , … , e t vektörü minimal 7 pq’e sahiptir denir. Burada d, o metriğinde, v(er , es ) ! maks#yy% |;: , r 7 ;: , s | S (2.21) özelliğini sahip vektörlerin minimum sayısıdır (Vapnik 1999). Buna göre, d; <% rasgele değişkeninin logaritması olan f; <% ! ln d; <% değişkenine, <% ! .: , c ! 1, 2, … , 1 (2.22) örneklemi için R S ;:, S T, Ω fonksiyonlar kümesinin rasgele VC-entropisi adı verilir. Burada tanımlanan VC-entropi, ; :, , Ω fonksiyonlar kümesinin minimum 7 pq’inin kardinalitesi d ile gösterilmek üzere, 19 f_{|}_ ! ln d (2.23) biçimindeki klasik metriksel -entropiden farklıdır. Rasgele VC-entropinin beklenen değeri, f; ! hif ; <% j (2.24) sayıda örneklem için R S ;:, S T, olarak adlandırılır. Ω fonksiyonlar kümesinin entropi miktarı Sınırlandırılmış kayıp fonksiyonu için gerçek riske deneysel riskin düzgün yakınsaklığı teorisinin başlıca sonuçları arasında Teorem 2.2’de yer alır. Teorem 2.2: Deneysel riskin gerçek riske çift taraflı düzgün yakınsaması yani, lim%CU VksupQ Ωl& 7 &=>? l K m ! 0 , J K 0 (2.25) için gerek ve yeter şart, lim%CU n~,% % ! 0 , J K 0 (2.26) eşitliğinin sağlanmasıdır (Vapnik 1995, 1998). (2.26) eşitliği ile verilen koşulun yeniden düzenlenmesiyle eşitlik (2.13)’deki tek taraflı düzgün yakınsaklık için de gerek ve yeter şartlar elde edilebilir. 20 2.2.3 Öğrenme teorisinin üç aşaması Bu kesimde, basite indirgemek açısından bir ;:, , Ω gösterge fonksiyonlar kümesi (örüntü tanıma problemi) ele alınsın. Gösterge fonksiyonlar kümesi ile elde edilen sonuçlar, gerçel değerli fonksiyonlar için genellenebilir. Kesim 2.2.2’de gösterge fonksiyonlar kümesi için f ! hiln d<% j biçiminde tanımlanan entropi kavramı ele alınmıştı. Burada, d<% değerlerine dayandırılarak oluşturulan iki yeni fonksiyon olarak, f|%% ! ln hid<% j (2.27) tavlanmış (annealed) VC-entropisi ve ! ln sup< d<% (2.28) büyüme fonksiyonu göz önüne alınsın. Bu fonksiyonlar, herhangi bir için f S f|%% S S ln 2 (2.29) eşitsizliği sağlanacak biçimde belirlenir (Cherkassky ve Mulier 2007). Bu fonksiyonlara dayandırılarak da istatistiksel öğrenme teorisinde başlıca üç aşama oluşturulur (Vapnik 1999). Teorem 2.1’de DRM prensibinin tutarlılığı için gerek ve yeter şartı açıklayan, lim%CU n% % ! 0 , J K 0 21 denklemi tanıtılmıştı. Bu denklem öğrenme teorisinin birinci aşaması olarak değerlendirilir ve deneysel riski minimum yapan herhangi bir makine bu şartı sağlamalıdır. Fakat (2.19) denklemi, elde edilen &% risklerinin, mininum olan &- ’a yakınsama hızı konusunda herhangi bir bilgi vermemektedir. Ayrıca, DRM prensibinin tutarlı olup da gelişigüzel yavaş bir asimptotik yakınsama derecesine sahip olması durumu da söz konusudur. Bundan dolayı, hangi koşullar altında asimptotik yakınsama derecesinin hızlı olacağı belirlenmelidir. Buna göre, K 0 bir sabit ve K - olmak üzere, V.& % 7 & - K 1 N p %~ üstel sınır sağlanırsa asimptotik yakınsama derecesinin hızlı olduğu söylenir (Bousquet vd. 2003). Sonuç olarak, lim%CU n % % !0 (2.30) denklemi hızlı yakınsama için yeter şartı ifade etmektedir. Bu denklem öğrenme teorisinin ikinci aşaması olarak değerlendirilir ve hızlı bir asimptotik yakınsama derecesi temin eder (Vapnik 1999). DRM yönteminin hem tutarlılık için gerek ve yeter şartını açıklayan ve hem de hızlı yakınsaklık için yeter şartını açıklayan denklemleri, belirli bir g : dağılım fonksiyonu için geçerlidir yani, VC-entropisi, f ve tavlanmış VC-entropisi f|%% , dağılım fonksiyonu kullanılarak belirlenir. Ancak istatistiksel öğrenme teorisinde amaç, farklı birçok problem için bir öğrenme makinesi geliştirmektir. Buna göre; DRM prensibinin hangi şartlar altında dağılımdan bağımsız, tutarlı ve hızlı yakınsak olduğu incelenmelidir. Herhangi bir dağılım fonksiyonu için DRM prensibinin tutarlılığını belirleyen gerek ve yeter şart, 22 lim%CU % % !0 (2.31) denklemi ile açıklanır. Ayrıca bu denklem, hızlı yakınsaklık için de yeter şarttır (Vapnik 1999). (2.31) eşitliği, öğrenme teorisinin üçüncü aşaması olarak değerlendirilir ve ele alınan problemden bağımsız olarak, öğrenme makinesini uygulayan DRM prensibinin hangi koşul altında yüksek dereceden asimptotik yakınsaklığa sahip olduğunu açıklar. Bu kesimde verilen üç aşama, öğrenme makinesinin yakınsaklık derecesi için hem dağılımdan bağımsız sınırlar hem de dağılıma bağımlı sınırlar geliştirmek üzere bir temel oluşturur. 2.3 Büyüme Fonksiyonu ve Vapnik–Chervonenkis Boyutu Belirli bir örneklem sayısı için DRM yönteminin kalitesini belirlemek amacıyla düzgün yakınsaklık derecesi üzerinde asimptotik olmayan sınırların belirlenmesi gerekmektedir. Yakınsaklık derecesinin asimptotik olmayan sınırı; büyüme fonksiyonu için yapısal bir sınır elde etmeye de imkan sağlayan, Vapnik–Chervonenkis (VC) boyutu olarak adlandırılan yeni bir kapasite kavramı kullanılarak belirlenebilir. VC-boyutu kavramı, büyüme fonksiyonunun önemli bir özelliğine dayanmaktadır. 2.3.1 Büyüme fonksiyonunun yapısı Öğrenme makinesinin genelleme kapasitesi üzerinde dağılımdan bağımsız sınırlar geliştirmek üzere, eşitlik (2.31) ile verilen büyüme fonksiyonunun değerlendirilmesi gerekmektedir. Bu da yakınsama fonksiyonlarının VC boyutu kavramının kullanılması ile gerçekleştirilebilir. Teorem 2.3: bir tamsayı olmak üzere i ! ln 2j ve i 1 3 1 ln 2j için herhangi bir büyüme fonksiyonu ya 23 % S [ln 1\ (2.32) eşitsizliği tarafından sınırlandırılır ya da ! ln 2 (2.33) eşitliğini sağlar. Diğer bir ifade ile büyüme fonksiyonu, Şekil 2.3’de gösterildiği gibi ya doğrusal bir fonksiyon ya da bir logaritmik fonksiyon tarafından sınırlandırılmış olacaktır (Vapnik ve Chervonenkis 1971). Örneğin; büyümü fonksiyonu, ! √ formunda olamayacaktır. ln 2 ln⁄ 1 Şekil 2.3 Büyüme fonksiyonunun davranışı Eğer ;:, , Ω gösterge fonksiyonlar kümesi için büyüme fonksiyonu doğrusal ise bu fonksiyonlar kümesinin VC boyutunun sonsuz olduğu söylenir. Ayrıca, eğer ; :, , Ω gösterge fonksiyonlar kümesi için büyüme fonksiyonu, katsayısı ile bir logaritmik fonksiyon tarafından sınırlandırılmış ise bu fonksiyonlar kümesinin VC boyutunun sonlu ve değerine eşit olduğu söylenir. 24 Öğrenme makinesi tarafından uygulanan gösterge fonksiyonlar kümesinin VC boyutunun sonluluğu, DRM yönteminin tutarlılığı için dağılımdan bağımsız olarak gerek ve yeter şartı belirler. VC boyutunun sonlu olması aynı zamanda hızlı yakınsamayı da gerektirmektedir (Kecman 2001). 2.3.2 Vapnik–Chervonenkis boyutu Bu kesimde, gösterge fonksiyonlar kümelerinin VC boyutunun eşdeğer bir tanımlamasının verilmesinin ardından bu tanımlama, gerçel değerli fonksiyonlar kümeleri için genellenecektir. Tanım 2.6 Gösterge fonksiyonlar kümesinin VC boyutu ; :, , Ω gösterge fonksiyonlar kümesinin VC boyutu, bu kümenin fonksiyonlarını kullanarak (bu fonksiyonlar kümesi tarafından) 2 mümkün yol ile parçalanabilen :# , … , : vektörlerinin maksimum sayısı olan değeridir. Eğer, her için ;:, , Ω kümesi tarafından parçalanabilen sayıda vektörün bir kümesi mevcut ise VC boyutu sonsuza eşittir (Vapnik 1999). (2.31) ve (2.32) ile verilen denklemlere göre VC boyutunun sonlu olması, DRM yönteminin tutarlılığı ve hızlı yakınsaklığı için gerek ve yeter şartları belirler. Bundan dolayı; VC boyutu kavramı, öğrenme teorisinde dağılımdan bağımsız sonuçlar elde etmede önemlidir. Ayrıca, dağılımdan bağımsız tüm bu yardımcı sonuçlar da kayıp fonksiyonları kümesinin VC boyutuyla ilişkilidir. Şekil 2.3’deki büyüme fonksiyonunun doğrusal parçasına göre; örneklem sayısı, (sonlu) VC boyutunu aşıyorsa sonlu bir örneklem ile öğrenmenin mümkün olabileceği sezgisel olarak belirlenir. Başka bir ifade ile yakınsama fonksiyonlarının kümesi çok esnek olmamalıdır ve bu da fonksiyonlar kümesinin kapasitesi ile açıklanır. Ayrıca bu sonuçlar, dağılımdan bağımsız olarak öğrenmenin mümkün olduğunu göstermektedir. 25 (2.29) ve (2.32) ile verilen eşitsizlikler birleştirildiğinde, VC teorisinde ele alınan kapasite kavramına ilişkin % f S f|%% S S [ln 1\ (2.34) sonucuna ulaşılır. (2.34) eşitsizliğine göre entropi tabanlı kapasite yaklaşımı, en doğru yol olmasına rağmen dağılıma bağımlı olması dolayısıyla en zor belirlenendir. Bunun aksine, VC boyutu, doğruluğu en az ancak en kullanışlı kavramdır. Birçok uygulama probleminde, veri sayısı az ve boyutunun yüksek olmasından dolayı; kapasite (karmaşıklık) kontrolü için olasılık (yoğunluk) fonksiyonu tahmini söz konusu değilken; en kullanışlı seçim VC boyutunun kullanılmasıdır (Vapnik 1995). Tanım 2.7 Gerçel değerli fonksiyonlar kümesinin VC boyutu S ;:, S R, Ω; ve R (, 7∞ ve R, ∞’a değerini alabilir) sabitleri tarafından sınırlandırılmış gerçel değerli fonksiyonların bir kümesi olsun. N N R olacak biçimde katsayılar ve , ! W 0, N 04 1, 0 (2.35) bir adım fonksiyonu olmak üzere; :, , ! .; :, 7 1 , Ω gösterge fonksiyonlar kümesi ile ; :, , önüne alınsın. 26 (2.36) Ω gerçel değerli fonksiyonlar kümesi göz Şekil 2.4’de görüldüğü üzere; ;:, , Ω gerçel değerli fonksiyonlar kümesinin VC boyutu, (2.36)’da verilen gösterge fonksiyonlar kümesinin VC boyutu ile tanımlanır (Vapnik 1995, 1998). ;:, 1 i; :, K j 0 < Şekil 2.4 Gerçel değerli fonksiyonlar kümesinin VC boyutu 2.4 Genelleme Üzerine Sınırlar Bu kesimde, DRM yöntemine dayalı bir öğrenme sürecinin düzgün yakınsaklık derecesi üzerine üst sınırlar verilecektir. Örneklem sayısı ’nin bir fonksiyonu olan bu sınırlar, bilinmeyen dağılım fonksiyonu g :’nin, kayıp fonksiyonunun, yakınsama fonksiyonlarının özelliklerine bağlıdır ve (bilinmeyen) gerçek risk ile bilinen bir deneysel risk arasındaki farkı değerlendirir. Buna göre, belirli bir örneklem sayısı için deneysel riski minimum yapan ; :, % kayıp fonksiyonu göz önüne alınsın. & % , bu kayıp fonksiyonuna göre gerçek riski ve &=>? % ise deneysel riski göstermek üzere; genelleme sınırları, • & % gerçek riski, minimum deneysel risk değeri &=>? % ’e ne kadar yakındır? 27 • & % gerçek riski, mümkün minimum risk değeri & - ! minQ & ’a ne kadar yakındır? biçiminde verilen iki soruya çözüm arar. Kesim 2.3’te; VC entropisi, büyüme fonksiyonu ve VC boyutu gibi birbirinden farklı bazı kapasite kavramları tanıtılmıştı. (2.34) ile verilen eşitsizliğe göre en doğru genelleme sınırları, VC entropisine dayalı olarak elde edilebilir. Fakat, VC entropisi, (bilinmeyen) dağılımın özelliklerine bağlı olmasından dolayı kolaylıkla belirlenemez ve kullanışlı değildir (Vapnik 1995). Bu kesimde, büyüme fonksiyonu ve VC boyutu gibi dağılım varsayımı gerektirmeyen kapasite kavramları ele alınacaktır. Bu sınırlar da yapısal risk minimizasyonu (Structural Risk Minimization – YRM) olarak adlandırılan yeni bir tümevarım prensibinin gelişmesini sağlamıştır. Buna göre, (sınıflandırma problemleri için) sınırlandırılmış negatif olmayan kayıp fonksiyonları ve (regresyon problemleri için) sınırlandırılmamış negatif olmayan kayıp fonksiyonları incelenecektir. 2.4.1 Sınıflandırma Öğrenme makinesi tarafından negatif olmayan kayıp fonksiyonlarının (0/1 kayıp fonksiyonu) kullanıldığı ikili sınıflandırma problemleri göz önüne alınsın. Bu durumda, tamamen sınırlandırılmış olan fonksiyon kümeleri için sınırlara ilişkin teorinin başlıca sonucu olarak Teorem 2.4 verilir (Vapnik 1982, 1995, 1999). Teorem 2.4: En az 1 7 L olasılık ile (DRM’yi uygulayan) öğrenme makinesinin genelleme kabiliyeti için & S &=>? 1 1 ~ 6 [ Q\ ~ (2.37) eşitsizliği, deneysel riski minimum yapan ;:, % fonksiyonunu da içeren tüm ;:, fonksiyonları için eşanlı olarak sağlanır (Vapnik 1999). ;:, kayıp fonksiyonlar 28 kümesi sonsuz sayıda eleman içerdiği zaman yani her bir elemanın (fonksiyonun) sürekli parametre değerleri ile belirlendiği bir parametre ailesi için % ! [ , % \ ! # [ #\⁄ % (2.38) dır. Kayıp fonksiyonlar kümesi sonlu d sayıda eleman içeriyor ise !2 t (2.39) % olarak alınır. İstatistiksel öğrenme teorisine göre Vapnik (1982, 1995, 1998), # ve 6 sabitlerinin sırasıyla 0 N # S 4 ve 0 N 6 S 2 aralığında olması gerektiğini göstermiştir. # ! 4 ve 6 ! 2 değerleri, en kötü durum dağılımlarına (kesikli dağılım fonksiyonu) uygun olarak belirlenir ve bu durumda, !4 [ #\⁄ (2.40) % dır. Ancak uygulamada, # ! 4 ve 6 ! 2 değerleri için (2.40) eşitliği ile elde edilen genelleme sınırlarının kötü performans sergilediği görülmüştür. Bundan dolayı, gerçek hayat problemlerine ilişkin dağılımları yansıtan # ve 6 sabitlerinin daha küçük değerleri deneysel olarak seçilebilmektedir (Cherkassky ve Mulier 2007). Örneğin, uygulama sonuçlarına göre regresyon problemleri için # ! 1 ve 6 ! 1 değerleri ile genelleme sınırlarını kullanarak iyi modeller seçilebilmektedir. Sınıflandırma problemleri için # ve 6 ’nin en iyi deneysel değerleri bilinmemektedir (Cherkassky ve Mulier 2007). En az 1 7 2L olasılık ile deneysel riski minimum yapan ;:, % fonksiyonu için sınır, 29 &% 7 minQ & S 6% ~ 6 1 1 ~ (2.41) biçiminde verilir. 1 7 L güven düzeyi arttıkça (1’e yaklaştıkça), (2.37) ve (2.41) ile verilen sınırlar da büyür. Çünkü diğer parametreler sabit iken L C 0 iken (2.38)–(2.40) eşitlikleri gereği, C ∞ olur ve tüm sınırların sağ tarafı (sonsuza doğru) büyür. Bu durumda, sınırların uygulamada kullanılabilirliği düşer. Burada sezgisel olarak, sonlu sayıda örneklemden elde edilen herhangi bir (model) tahminin, gelişigüzel yüksek güven düzeyine sahip olamayacağı düşünülür. Sınırlar tarafından sağlanan doğruluk ile güven düzeyi arasında genellikle ters yönde bir ilişki vardır. Bunun aksine, diğer parametreler sabit iken örneklem sayısı arttıkça ise (2.37) ve (2.41) sınırları daha doğru (dar) hale gelecek yani, C ∞ iken deneysel risk, gerçek riske daha yakın olacaktır. Bundan dolayı uygulamada bu sınırları kullanmak üzere mantıklı olan yol, güven düzeyini, örneklem sayısının bir fonksiyonu olarak seçmektir. Böylece, örneklem sayısı küçük olduğunda güven düzeyi düşük tutulur; örneklem sayısı büyük olduğunda ise güven düzeyi yüksek tutulur. Vapnik (1995) tarafından özel olarak güven düzeyini belirlemek üzere geliştirilen kural, L ! min [ √% , 1\ (2.42) biçimindedir. Ayrıca, eşitlik (2.38) incelendiğinde, (2.37) eşitsizliğinin sağ yanındaki ikinci terim ile ⁄ oranı arasında güçlü bir ilişkinin var olduğu görülecektir. Bu durumda da iki farklı düzen ortaya çıkar: (1) örneklem sayısının küçük (sonlu) olması durumu (eğitim veri sayısının, yakınsama fonksiyonlarının VC boyutuna oranının küçük olduğu zaman (örneğin, ⁄ N 20 ise)) ve (2) büyük örneklem sayısı (⁄ oranının büyük olduğu zaman). Örneklem sayısının büyük olması halinde eşitsizlik (2.37)’nin sağ yanındaki ikinci terimin değeri küçülür ve deneysel risk, gerçek riskin bir ölçümü olarak rahatlıkla kullanılabilir. Böylece Şekil 2.2’den de anlaşılacağı üzere, klasik (parametrik) istatistiksel yöntemlerin, DRM’ye veya maksimum olabilirlik yöntemine 30 dayalı bir uygulaması gerçekleştirilmiş olur. Bunun aksine, küçük örneklem halinde ikinci terimin değeri göz ardı edilemez ve bu durumda yakınsama fonksiyonlarının karmaşıklığının (kapasite), mevcut veriye uyumlu olmasına ihtiyaç vardır. Bu da YRM tümevarım prensibinin kullanımı ile mümkündür. 2.4.2 Regresyon Öğrenme makinesi tarafından, sınırlandırılmamış negatif olmayan kayıp fonksiyonlarının kullanıldığı regresyon fonksiyon tahmini problemleri göz önüne alınsın. Gerçek fonksiyon üzerine sınırlar bilinmedikçe de bu tip kayıp fonksiyonları için sonlu sınırlar elde edilemez. Başka bir ifadeyle, küçük bir olasılıkla bile olsa kayıp fonksiyonunun büyük (sınırlandırılmamış) değerleriyle sonuçlanan çok büyük çıktı değerleri gözlemlenebilir. Sadece sonlu eğitim verisinden bu olasılığı tahmin etmek de mümkün değildir. Böylece, öğrenme teorisi, kaybın büyük değerlerinin çok sık ortaya çıkmadığı sınırlandırılmamış kayıp fonksiyonlarının dağılımları için bazı genel tanımlamalar sağlar (Vapnik 1995). Bu tanımlama, kaybın büyük değerlerinin gözlenme olasılığı olarak adlandırılan, dağılımların kuyruk davranışlarını açıklar. Hafif kuyruklu dağılımlar için ise hızlı bir yakınsama derecesi mümkündür. Bu gibi dağılımlar için genelleme üzerine sınırlar Teorem 2.5 ile verilir. Teorem 2.5: En az 1 7 L olasılık ile & S Q (2.43) (#√~) eşitsizliği, bütün kayıp fonksiyonları (deneysel riski minimum yapan fonksiyon da dahil) için eşanlı olarak sağlanır. Burada , (2.38) ile elde edilir ve ! maks, 0’dır. Ayrıca, sabiti, kayıp fonksiyonunun dağılımının kuyruklarına bağlı olarak belirlenir. Bir regresyon probleminde, büyük örneklem sayısı için 1 7 L güven düzeyi, (2.42) denklemi ile belirlendiğinde; # ! 1, 6 ! 1 ve ! 1 değerleri için VC sınırları, 31 & S &=>? 1 7 7 ln % 6% # (2.44) olarak elde edilir. Burada ! ⁄’dir. En az 1 7 2L olasılık ile deneysel riski minimum yapan ;:, % fonksiyonu için sınır, Q Q Q √~ S (# √~) # O [% \ (2.45) biçiminde verilir. Bu sınır deneysel risk ile mümkün en küçük risk arasındaki farkı tahmin etmek üzere kullanılır (Cherkassky ve Mulier 2007). 2.5 Yapısal Risk Minimizasyonu Önceki kesimlerde de tartışıldığı gibi DRM tümevarım prensibinin büyük örneklemler için uygulanması hedeflenir. Bu durumda yani ⁄ oranı büyük olduğunda, sınıflandırma problemi için (2.37) denklemi, regresyon problemi için (2.43) denklemi ile verilen sınırda ¡ 0 olacak ve deneysel risk, gerçek riske yaklaşacaktır. Böylece deneysel riskin küçük bir değeri, küçük gerçek riski garanti edecektir. Ancak ⁄ oranının küçük olması (örneğin, ⁄ N 20) halinde (2.37) denkleminin sağ yanındaki tüm terimlerin veya (2.43) denkleminin pay ve payda kısımlarının minimum yapılması gerekmektedir. (2.37) denkleminin sağ yanındaki ilk terim (deneysel risk), fonksiyonlar kümesinden seçilmiş belirli bir fonksiyona bağlı iken; ikinci terim esas olarak fonksiyonlar kümesinin VC boyutuna bağlıdır. Benzer bir biçimde; regresyon problemleri için (2.43) ile verilen sınırda pay kısmı, özel bir fonksiyona; payda kısmı ise fonksiyonlar kümesinin VC boyutuna bağlıdır. (2.37) ve (2.43)’de riskin sınırlarını tüm terimler üzerinden minimum yapmak için VC boyutunun bir kontrol değişkeni olarak belirlenmesi gerekmektedir. Bir başka ifade ile problem, verilen bir eğitim veri seti için optimum kapasiteye (VC boyutuna) sahip olan fonksiyonlar kümesini belirlemektir. Birçok uygulama probleminde, gerçek model karmaşıklığı bilinmeyip de 32 sadece veri seti mevcut olduğunda küçük örneklem tahmin problemi ile karşılaşılır. Bunun aksine; DRM tümevarım prensibine dayalı parametrik yöntemler, gerçek modelin, fonksiyonlar kümesi tarafından içerildiği varsayımı altında; fonksiyonlar kümesinin bilinen bir sabit karmaşıklığını (parametre sayısı gibi) kullanır. Bu parametrik yaklaşım, yukarıdaki varsayımın sağlanması ve gözlem sayısının (⁄ oranının) büyük olması halinde doğrulanır (Cherkassky ve Mulier 2007). Yapısal risk minimizasyonu (YRM) olarak adlandırılan tümevarım prensibi, sonlu örneklemler için optimum model karmaşıklığını belirlemek üzere biçimsel bir mekanizma sağlar. YRM esasında sınıflandırma problemleri için önerilmiş ve uygulanmıştır fakat herhangi bir öğrenme problemi için de uygulanabilir. ;:, , Ω fonksiyonlar kümesi ile gösterilmek üzere; , birbirini içeren _ ! .;:, , Ω¢ 1 altkümelerinden (elemanlarından) oluşan bir yapı öyle ki, # £ 6 £ ¤ £ % ¤ (2.46) olsun ve her bir _ elemanı da sonlu bir _ , VC boyutu ile belirlensin. Buna göre YRM, elemanların karmaşıklığına (VC boyutuna) göre sıralamalarını, Şekil 2.5’de verildiği gibi belirler. Ayrıca _ elemanı tarafından içerilen ;:, , Ω¢ fonksiyonları ya sınırlı olmalı ya da (eğer sınırsız ise) risk fonksiyonunun sınırsız ve kontrolsüz büyümemesini temin etmek üzere bazı genel şartları sağlamalıdır (Vapnik 1995). # S 6 S ¤ S _ S ¤ # 6 ¤ _ ¤ Şekil 2.5 Fonksiyonlar kümesinin yapısı 33 YRM’ye göre sonlu veri ile öğrenme probleminin çözümü, yakınsama fonksiyonlarının bir kümesi üzerinde yapının, öncül bilgi olarak tanımlanmasını gerektirmektedir. Daha sonra da verilen bir veri seti için optimum model tahmini, Adım 1. Optimum karmaşıklığa sahip olan yapıdan eleman seçimi, Adım 2. Adım 1’de seçilen elemanlar kullanılarak model tahmini biçiminde verilen iki adım ile gerçekleştirilir. Burada istatistiksel yöntem olarak; birinci adım model seçimine, ikinci adım ise parametre tahminine karşılık gelir. (2.37) ve (2.43) ile verilen VC sınırlarını minimum yapmak üzere iki geliştirici YRM uygulamasına öncülük eden stratejiler, 1. Model karmaşıklığı (VC boyutu) sabit tutulur ve deneysel hata terimi minimum yapılır, 2. Deneysel hata sabit (küçük) tutulur ve VC boyutu minimum yapılır biçiminde verilir (Cherkassky ve Mulier 2007). İlk YRM stratejisi şöyle açıklanır: Verilen bir :# , :6 , … , :% eğitim verisi için YRM prensibi, _ elemanından alınan fonksiyonlar için deneysel riski minimum yapan ;_ :, % fonksiyonunu belirler. Daha sonra, _ yapısının her bir elemanı için garanti edilmiş risk, sınıflandırma problemlerinde (2.37) eşitsizliğinin veya regresyon problemlerinde (2.43) eşitsizliğinin sağ yanı ile belirli sınırların kullanılmasıyla bulunur. Son olarak ise minimum garanti edilmiş riski veren elemanın optimum yapısı, ¥?a seçilir. ¥?a altkümesi, mevcut bir veri seti için optimum karmaşıklığa (VC boyutuna) sahip olan bir fonksiyonlar kümesidir. YRM prensibi esasında yakınsama fonksiyonlarının karmaşıklığı ile eğitim veri setine uyumun kalitesi arasındaki değişimin çözümlemesini gerçekleştirir. Şekil 2.6’da görüldüğü gibi karmaşıklık (¦ altküme indeksi) arttıkça deneysel riskin minimumu azalır (veriye uyumun kalitesi artar). Böylece, (2.37) denklemindeki ikinci terimin 34 değeri artar. Benzer biçimde, regresyon problemleri için artan karmaşıklık ile (2.43) eşitsizliğinin pay kısmındaki terim (deneysel risk) değeri azalır. Bu durumda da payda küçük (sıfıra yakın) hale gelir. YRM, gerçek risk üzerinde minimum garanti edilmiş riski veren yapının optimum elemanını seçer (Luxburg ve Schölkopf 2011). Sınıflandırma hatası Aşağı uyum Aşırı uyum Gerçek risk Güven aralığı Deneysel risk # r _ Şekil 2.6 değerinin ( sabit) bir fonksiyonu olarak gerçek (beklenen) risk ve deneysel risk üzerine sınırlar 35 3. DESTEK VEKTÖR MAKİNELERİ Destek vektör makineleri (DVM), sınırlı sayıda öğrenme örüntüsü üzerinden iyi bir genelleme düzeyi elde etmek amacıyla yapısal risk minimizasyonu (YRM) tümevarım prensibini uygulayan bir öğrenme makinesidir. YRM, deneysel riski ve VC (Vapnik– Chervonenkis) boyutunu minimum yapmak üzere eşanlı girişimlerden oluşmaktadır. Teori esasında ayrılabilir ikili sınıflandırma problemi temelinde, Vapnik ve çalışma arkadaşları tarafından AT & T Bell Laboratuarlarında geliştirilmiştir. DVM, karmaşık veri setlerinde, çözümlemesi zor örüntülerin tanımlanmasında kullanışlı bir öğrenme algoritmasını uygulamaktadır. Algoritma, önceden gözlenmemiş verilerin sınıflandırma kestirimi için örneklerden ayırt edebilen bir sınıflandırma öğrenmesini gerçekleştirmektedir. Bir fonksiyonlar kümesinin VC boyutu, bu fonksiyonlar kümesi tarafından parçalanabilen en büyük veri setinin boyutudur. §% kümesinden .0, 11’e veya .71, 11’e tanımlı , fonksiyonlar kümesi göz önüne alınsın. Bu fonksiyonlar, veri noktalarını iki sınıftan birine eşleyen gösterge fonksiyonları olarak adlandırılır. §% ’de tanımlı tane nokta ele alındığında bu noktalardan her biri 0 veya 1 sınıflarından birine rasgele atanabilir. Buna göre tane nokta 2 farklı yol ile etiketlenebilir. Örneğin, §6 düzleminde tanımlı üç nokta için ayırıcı hiperdüzlem ile 8 mümkün etiketleme Şekil 3.1’de gösterilmiştir. Buna göre, §6 düzleminde yönlendirilmiş doğrular kümesinin VC boyutunun 3’e eşit olduğu söylenilebilir. Bölüm 2’de sınıflandırma problemlerinde sonlu örneklem ile öğrenme için VC genelleme sınırı (2.37) denklemi ile verilmişti. Bu eşitsizliğin sağ yanındaki ikinci terim, temel olarak VC boyutuna (veya ⁄ oranına) bağlı iken, birinci terim (deneysel risk), parametresine bağlıdır. YRM tümevarım prensibi, verilen sayıda eğitim örneklemi için (2.37) denkleminin sağ yanını minimum yapmak amacıyla tahmin edicinin optimum VC boyutunun belirlenmesi üzerine odaklanmıştır. (2.37)’yi minimum yapmak üzere doğal bir strateji, VC boyutunun sabit tutulduktan sonra birinci terimin (deneysel risk) minimum yapılmasıdır. Sınıflandırma ve regresyon amaçlı birçok istatistiksel ve sinir ağları öğrenme algoritmaları, YRM stratejisine dayalıdır. 36 Model karmaşıklığının parametre sayısı ile ilişkili olduğu klasik görüşü yansıtan bu yapılar, boyut sorunu nedeniyle bazen elverişli olmayabilir (Cherkassky ve Mulier 2007). (a) (b) (c) (d) (e) (f) (g) (h) Şekil 3.1 Düzlemde üç nokta İstatistiksel öğrenme teorisine göre VC boyutu () kavram olarak parametre sayısı ile ilişkili değildir. Bu nedenle prensipte, , fonksiyonunun çok parametreye sahip olması durumunda bile küçük olacak biçimde yapıların tasarlanması mümkündür. Bu yapılar, YRM prensibini farklı bir biçimde uygular. Buna göre, (2.37) eşitsizliğinde VC boyutunu minimum yapmak üzere, • Tüm eğitim örneklemi için , yakınsama fonksiyonları kümesinin, aynı sınıftan bir fonksiyonun aynı tahminleri ( değeri) ürettiği g# , g6 , … , gt denklik sınıflarına parçalanması (aynı denklik sınıfındaki bütün fonksiyonlar (modeller), eğitim örneklemini aynı yol ile ayırırlar ve böylece (2.37) eşitsizliğindeki deneysel risk teriminin aynı değerine sahip olur) 37 • Her bir denklik sınıfı için VC boyutunu minimum yapan bir fonksiyon bulunması (böylece (2.37) eşirsizliğinin sağ yanındaki ikinci terim de minimum olur) biçiminde bir strateji uygulanır. Bu sınıflamaya örnek olarak, veri setini sıfır hata ile ayıran (eğitim verisinin doğrusal ayrılabilir olduğu varsayımıyla) girdi uzayındaki hiperdüzlemlerin veya doğrusal fonksiyonların bir kümesi verilir. Bu durumda, aynı denklik sınıfındaki tüm modeller aynı sayıda parametreye sahip olsa da farklı VC boyutuna sahip olabilirler. DVM yaklaşımı belirli yapıları, g# , g6 , … , gt denklik sınıflarının bir kümesi üzerinde tanımlar. DVM sınıflandırmasında YRM yapısı, nitelik uzayının boyutu ile ilişkili olmayan bir hiperparametre (pay olarak adlandırılır) ile açıklanır (Kecman 2001). İstatistiksel öğrenme teorisi, sınıflandırma ve regresyon problemlerinde etkili bir yapı temin etmektedir. DVM de böyle bir yapıdan doğrudan üretilir. DVM, konveks amaç fonksiyonunun, kayıp fonksiyonu ve bir düzenleme teriminin (ağırlıkların normu) kombinasyonu ile verildiği kısıtlı karesel optimizasyon probleminin çözümü ile belirlenir. Burada düzenleme terimi doğrudan, fonksiyonlar kümesinin VC boyutu ile ilişkilendirilirken; kayıp fonksiyonu ise genellikle problemin özelliğine bağlı olarak seçilir. DVM’nin uygulandığı ilk çalışma optik karakter tanıma üzerine yapılmıştır. Destek vektör sınıflandırması kısa bir zaman içerisinde mümkün en iyi sistemler ile nesne tanıma problemlerinde diğer yaklaşımlar ile rekabet eder hale gelmiştir (Schölkopf ve Smola 2002). Burges (1998) destek vektör sınıflandırması üzerine kapsamlı bir başvuru makalesi yayımlamıştır. Ayrıca, DVM ile regresyon ve zaman serisi kestirimi uygulamalarında da iyi performanslar elde edilmiştir (Drucker vd. 1997). DVM’nin, destek vektör sınıflandırması (Support Vector Classification – DVS) ve destek vektör regresyonu (Support Vector Regression – DVR) olmak üzere iki temel türü vardır. Yüksek boyutlu bir nitelik uzayını kullanan DVM, destek vektörlerin altkümesi üzerine kurulu fonksiyon kestirimleri verir. DVS’ye göre model geliştirmek üzere, belirlenen payın dışında kalan eğitim verisi, amaç fonksiyonunda dikkate 38 alınmaz. Dolayısıyla bu durumda ortaya konulan model, sadece eğitim verisinin bir altkümesine bağlı olacaktır. Benzer biçimde DVR tarafından üretilen model de eğitim verisinin bir altkümesine bağlıdır ve amaç fonksiyonu, model kestirimine yakın (bir eşik değerinin içerisinde) her bir eğitim verisini öğrenme sürecinin dışında bırakmaktadır. Destek vektör regresyonu olarak adlandırılan regresyon amaçlı bu DVM türü, Vapnik vd. (1997) tarafından önerilmiştir. DVM yaklaşımı, birtakım temel düşünceleri (pay, çekirdek (kernel) gösterimi ve dualite) yapısında birleştirir. Bu kavramlar farklı içerikte olsa da esasında yıllar öncesinde tanıtılmıştı. Örneğin, çekirdeklerin kullanımı düşüncesi 1960’ların ortalarında ortaya çıkmıştır (Cherkassky ve Mulier 2007). Matematiksel programlamada doğrusal optimizasyon formülasyonu, DVM’ye benzer olarak, sınıflandırma problemleri için Mangasarian (1965) tarafından önerilmiştir. Fakat bu öncül gelişmeler, istatistiksel öğrenme tarafından sağlanan sağlam zeminden yoksun olması nedeniyle pratik öğrenme algoritmaları ile sonuçlanamamıştır. 3.1 Pay Tabanlı Kayıp Fonksiyonları DVM ve çekirdek (kernel) yaklaşımları gibi pay tabanlı yöntemlerin, uygulamalarda başarılı bir biçimde kullanıldığı görülmektedir. Bu kesimde, VC öğrenme teorisine göre “pay” kavramına dayalı yeni bir yapı incelenecektir. Buna göre, , , c ! 1, 2, … , biçiminde sonlu sayıda eğitim örneği için “iyi” bir model tahmini elde etmek amacıyla tümevarımsal öğrenme problemi göz önüne alınacaktır. Standart bir tümevarımsal öğrenme algoritmasına göre öğrenme, sadece eğitim verisi ile gerçekleştirilir. Öğrenme sürecinde eğitim verisi, benzetim tekniklerinde olduğu gibi gelecek veri seti (test verisi) için bir temsil olarak kullanılabilir. Bundan dolayı, kestirim amaçlı iyi bir model, • deneysel risk minimum olacak biçimde eğitim verisini açıklamalı, • diğer mümkün veri setine göre maksimum belirsizliğe sahip olmalı 39 biçiminde verilen iki (çelişen) amaca ulaşmaya çalışmalıdır (Cherkassky ve Mulier 2007). Bu amaçlara ulaşmanın mümkün bir yolu, eğitim verisinin (büyük) bir kısmının model tarafından çok iyi açıklanabildiği (sıfıra eşit deneysel kayıp) ve geriye kalan kısmının ise bir miktar belirsizlik ile açıklanabildiği (sıfırdan farklı deneysel kayıp) bir kayıp fonksiyonu kullanmaktır. Sınıflandırma problemlerinde sıfırdan farklı kayıp için belirlenen bölge pay olarak ifade edilir. Ayrıca, bu tip bir kayıp fonksiyonu, parçalanmayı (sınıflandırma problemleri için pay büyüklüğü) belirleyen bir parametreye de sahip olmalıdır. Böyle bir kayıp fonksiyonu ile öğrenmenin belirtilen iki çelişen amacı arasındaki değişim etkili bir biçimde kontrol edilir. Pay kavramı, 1960’ların başlarında ilk olarak doğrusal ayrılabilir veriler ile sınıflandırma problemleri için geliştirilmiştir (Vapnik ve Lerner 1963, Vapnik ve Chervonenkis 1964). Çekirdek gösterimi ve ayrılabilir olmayan verilerin çözümlenmesi gibi ilave iki gelişmenin DVM yöntemi ile birleştirilmesi bir başka otuz yıl almıştır (Boser vd. 1992, Cortes ve Vapnik 1995). Bundan sonra DVM metodolojisi, diğer tür öğrenme problemlerinin çözümlenmesine uyarlanmıştır. Pay tabanlı kayıp yaklaşımı ikili sınıflandırma problemleri için geliştirildiğinde; sign , işaret fonksiyonu girdi uzayını, , K 0 için pozitif sınıf bölgesine, , N 0 için ise negatif sınıf bölgesine ayıran bir karar sınırıdır. Model tarafından doğru sınıflandırılan eğitim örnekleri, , ! 0 karar sınırından uzakta yer alır ve sıfır kayıp fonksiyonu değeri ile belirlenir. Bunun aksine, model tarafından yanlış sınıflandırılan gözlemler karar sınırına yakındır ve sıfırdan farklı (pozitif) bir kayıp değerine sahiptir. Şekil 3.2’de görüldüğü üzere iyi bir karar sınırı, • pay içerisinde yer alan örneklem için toplam deneysel kaybın minimum yapılması, • model tarafından doğru sınıflandırılan (açıklanan) eğitim örnekleri arasında ise maksimum ayrıma (pay) ulaşılması biçiminde verilen amaçlar arasında optimum dengeyi sağlamalıdır. Daha büyük bir pay, daha büyük deneysel riski gerektirdiğinden, bu iki amaç birbirine göre çelişiktir. İyi bir 40 genelleme düzeyine ulaşmak amacıyla da uygun bir pay büyüklüğü seçilmelidir (Kecman 2001, Cherkassky ve Mulier 2007). Pay '!0 'K0 '!0 , ! 0 Şekil 3.2 Sınıflandırma için pay tabanlı kayıp Bundan sonraki kısımda, bazı özel öğrenme problemleri için , ! ª«, ¬ ­ biçiminde doğrusal yakınsama fonksiyonları ile pay tabanlı yapılara ilişkin örnekler incelenecektir. Tanım 3.1 Sınıflandırma problemi Öğrenmenin birinci amacının sağlanabildiği yani doğrusal sınıflayıcının sıfır hata ile ayırma gerçekleştirdiği bir doğrusal ayrılabilir veri durumu göz önüne alınsın. Bundan sonra ise en iyi model, diğer mümkün veriler için maksimum belirsizliğe sahip olandır. Şekil 3.3.a’da görüldüğü üzere, payın kullanımıyla çıktının belirsiz olduğu bölgeyi temsil etmek üzere girdi uzayı ikiye ayrılır. Yani, pay sınırının “doğru” tarafına düşen, etiketlenmemiş yeni veri noktaları daima doğru sınıflandırılabilirken; pay sınırının “yanlış” tarafına düşen veri noktaları kesin bir biçimde sınıflandırılamaz. Pay büyüklüğü (genişliği), model karmaşıklığını kontrol etmede önemli bir rol oynar. Bu eğitim verisini çok iyi ayıran (açıklayan) birçok doğrusal karar sınırı olmasına rağmen bu modeller, iki sınıf arasındaki ayırma (pay) derecesine göre farklılık gösterir. Örneğin, Şekil 3.3’de aynı veri seti için farklı bir pay büyüklüğü ile iki mümkün doğrusal karar sınırı gösterilmektedir. Küçük pay büyüklüğüne sahip modellerin, büyük paya sahip 41 modellerden daha esnek olduğu (daha büyük VC boyutu) Şekil 3.3’den açık bir biçimde görülmektedir. Böylece, yapısal risk minimizasyonu stratejisinde, (2.37) ile verilen VC sınırının minimizasyonu için pay büyüklüğü, denklik sınıflarının bir kümesinde karmaşıklık sıralaması olarak kullanılabilir. ! 1 Pay ! 1 Pay ! 71 ! 71 (a) (b) Şekil 3.3 Doğrusal ayrılabilir verilerin ikili sınıflandırması Birçok durumda veri, mevcut yakınsama fonksiyonlarının kümesi tarafından çok iyi açıklanamaz yani, deneysel riskin minimumu sıfıra yakın bir değer olmayabilir. Bu durumda, iyi bir tümevarımsal model, deneysel riskin minimum olması ve gelecek veri için maksimum belirsizliğe ulaşılması amaçları arasında bir denge belirlemeye çalışır. Ayrılabilir olmayan eğitim verisi ile sınıflandırmada, bazı eğitim verisinin pay içerisine düşmesine izin verilir ve bu verilerin, pay sınırından sapması da deneysel riski belirler. Şekil 3.4 ile görüldüğü üzere; sapma, verilerin pay sınırından uzaklıklarının (® ) toplamı ile belirlenir. Teknik olarak bu yorum, girdi uzayını iki bölgeye parçalayan uyarlamalı bir kayıp fonksiyonunun (∆ pay büyüklüğüne bağlı) kullanımını gerektirir. Girdi uzayını, eğitim verisinin bir kısmının model tarafından açıklanabildiği (sıfır kayıp) ve geri kalanının bir miktar belirsizlik ile açıklanabildiği iki bölgeye ayıran kayıp fonksiyonu, '∆ (, , ) ! maks∆ 7 , , 0 42 (3.1) biçiminde verilir (Cherkassky ve Mulier 2007). Bu da sınıflandırma problemleri için DVM kayıp fonksiyonu olarak bilinir. Buna göre öğrenmenin amacı, toplam hata (pay sınırının “yanlış” tarafında bulunan veriler için sınırdan sapmalar toplamı) minimum yapılırken; sıfır hata ile sınıflandırılmış veriler (pay sınırının “doğru” tarafında bulunan) için ise payın maksimum yapılmasıdır. ®# ! 1 ®6 ! 71 Şekil 3.4 Ayrılabilir olmayan verilerin ikili sınıflandırması Tanım 3.2 Regresyon problemi Bu durumda tahmin edilen model bir gerçel değerli fonksiyondur ve buna göre kayıp fonksiyonu, çıktıya ilişkin gerçek değer ile kestirim , arasındaki farkı ölçer. Sınıflandırma problemine benzer olarak kayıp fonksiyonu, • , modeli, | 7 , |’nin küçük değerleri için veri setini mükemmel açıklayacak (sıfır deneysel riski verir), • , modeli, | 7 , |’nin büyük değerleri için sıfırdan farklı deneysel risk üretecek biçimde tanımlanır. Buna göre, -duyarsız kayıp fonksiyonu, '∆ (, , ) ! maks| 7 , | 7 , 0 43 (3.2) olarak verilir (Cherkassky ve Mulier 2007). Şekil 3.5 ile de gösterilen bu kayıp fonksiyonu, , modeli için , uzayının parçalanmasını tanımlar (Schölkopf ve Smola 2002). ’un uygun seçimi, genelleme için kritik öneme sahiptir. Küçük değeri, (sınıflandırma probleminde) büyük paya karşılık gelir ve bu durumda model, verinin sadece küçük bir kısmını açıklar. Bunun aksine, daha büyük değeri, küçük paya karşılık gelir ve böylece model, verinin çoğunu açıklar. Kayıp ®# ®6 7 ± 7 , (a) (b) Şekil 3.5 -duyarsız kayıp fonksiyonu 3.2 Optimum Ayırma Hiperdüzlemi Ayırma hiperdüzlemi, eğitim verisini (sınıflandırma probleminde) hatasız ayırabilen bir doğrusal fonksiyon olarak tanımlanır. gözlem içeren # , # , … , % , % , .1, 711 eğitim verisinin, ° ! ª«, ¬ ­ §¯ , (3.3) hiperdüzlem karar fonksiyonu tarafından uygun « ve ­ katsayıları ile ayrılabilir olduğu varsayılsın. Verilerin doğrusal ayrılabilir olduğu hakkındaki varsayım daha sonraki kesimlerde gevşetilecek olsa da burada bu varsayım DVM yaklaşımının gelişimi açısından öneme sahiptir. Başarılı bir eğitim süreci sonunda, elde edilen « ağırlıklarını 44 da kullanarak, yeni gözlenen örüntüleri için kestirimde bulunmak üzere sign ° işaret fonksiyonuna göre çıktı üretilir. Şekil 3.3’de görüldüğü üzere, ayırma hiperdüzleminden en yakın veri noktasına olan minimum uzaklık ∆ ile gösterilir. Buna göre, 2∆ marjı ile bir ayırma hiperdüzlemi, eğer ! 1 ise ª«, ¬ ­ ∆ eğer ! 71 ise ª«, ¬ ­ S 7∆ c ! 1, … , (3.4) kısıtlarını veya daha sade gösterim ile iª«, ¬ ­j ∆, c ! 1, … , (3.5) denklemini sağlamalıdır. Verilen bir eğitim veri seti için tüm mümkün ∆-ayırma hiperdüzlemi (3.5) eşitsizliğinde olduğu gibi tanımlanabilir. Bu denklem, ayırma hiperdüzleminin, eğitim verisi ile doğrudan açıklanmasına olanak vermesinden dolayı önemli bir yorumdur (Smola ve Schölkopf 2004). Pay, verinin olanak verdiği ölçüde (Şekil 3.3.a’ya karşı 3.3.b) maksimum büyüklüğe sahipse ∆-ayırma hiperdüzlemi, optimum olarak adlandırılır. Bir önceki kesimde ele alındığı üzere payın maksimum olması, karar sınırının genelleme yeteneğini de maksimum yapar. ª«, ¬ ­ ! 0 ayırma hiperdüzlemi ile ´ gözlemi arasındaki uzaklık |ª«, ´¬ ­|⁄µ«µ ile belirlenir. 2∆ payı için her eğitim örüntüsü, karar sınırından en az ∆ uzaklıkta bulunur ve ¶· iª«, · ¬¸j µ«µ .71, 11 için ∆, c ! 1, … , (3.6) 45 eşitsizliğini sağlar. Bu eşitsizlik, ∆ payının maksimum yapılmasının, µ«µ teriminin minimum yapılmasına denk olduğunu belirtmektedir. ∆µ«µ ! 1 olacak biçimde « ve ­ parametrelerinin yeniden ölçeklendirilmesi, ayırma hiperdüzlemi için iª«, ¬ ­j 1, c ! 1, … , (3.7) kanonik form gösterimi ile sonuçlanır. Optimum bir ayırma hiperdüzlemi, (3.7) koşulunu sağlamakla birlikte « ve ­ parametrelerine göre L« ! µ«µ6 (3.8) denklemini minimum yapar. Şekil 3.6’da görüldüğü gibi pay sınırı içerisinde yer alan veya eşitlik halinde (3.7) denklemini sağlayan veri noktaları destek vektörler olarak adlandırılır. Karar yüzeyinin konumunu belirleyen destek vektörler, karar sınırına en yakın veri noktaları olmasından dolayı sınıflandırılması en zor olanlardır (Cherkassky ve Mulier 2007). ° K 1 1 µ«µ |°¹ | µ«µ ° ! 1 ° ! 0 ´ ° N 71 ° ! 71 Şekil 3.6 Optimum hiperdüzlemin karar sınırı 46 Optimum ayırma hiperdüzleminin genelleme yeteneği, destek vektörlerinin sayısı ile doğrudan ilişkilendirilebilir. Vapnik (1995)’e göre destek vektörlerinin sayısı, bir test örneği için hata oranının beklenen değeri üzerinde, h% ihata oranıj S ¼ i½¾¿À¾¢ Á¾¢Àö¾ ¿ÃÄı¿ıj % (3.9) biçiminde bir sınır temin eder. h% işlemcisi, sayıdaki eğitim kümelerinin tümü üzerinde beklenen değeri ifade etmektedir. Bir optimum hiperdüzlem, (eğitim kümesinin büyüklüğüne göre) az sayıda destek vektörler ile oluşturulabileceği varsayımı altında; yüksek boyutlu uzayda dahi iyi genelleme yeteneğine sahip olacaktır. Girdi uzayının boyutundan bağımsız olarak hiperdüzlemin karmaşıklığının (VC boyutu) doğrudan kontrol edilmesi mümkündür. Minimum karmaşıklık (maksimum genelleme) ile ayırma hiperdüzlemi maksimum paya sahiptir. Ayrılabilir olan veriler için optimum hiperdüzlemin bulunması, doğrusal kısıtlar ile tanımlı bir karesel optimizasyon problemidir. Böylece, , , c ! 1, … , ; programlama problemi, §¯ eğitim verisi mevcut olmak üzere Amaç fonksiyonu: min« Kısıtlar: # 6 Å,¸ § Æ6 µ«µ Ç (3.10) iª«, ¬ ­j 1, c ! 1, … , biçiminde oluşturulur (Cherkassky ve Mulier 2007). Burada problemin çözümünde + 1 parametre mevcuttur. Uygun bir + boyutuna sahip veri seti için bu problem, karesel programlama kullanılarak çözülebilir. Çok yüksek boyutlu girdi uzayları için problemi bu haliyle çözmek pratik değildir. Fakat problemi, kolay çözülebilir olan dual formuna dönüştürmek daha uygun olabilir. Optimizasyon teorisine göre eğer amaç fonksiyonu ve kısıtlar kesin konveks ise optimizasyon probleminin dual formunun mevcut olduğu söylenir. Buna göre primal problemin çözümü, dual problemin çözümüne denktir. (3.10) ile verilen optimizasyon problemi, bu kriterleri sağlar ve bir 47 dual forma sahiptir. Bu durumda, problemi dualine dönüştürmek üzere Kuhn-Tucker teoremi kullanılır (Strang 1986). Problemin duali, Şekil 3.7’de gösterildiği gibi bir geometrik yoruma da sahiptir. Bir kümenin konveks gövdesi, sınıftaki veri noktalarını içerecek şekilde oluşturulan en küçük geometrik konveks küme biçiminde tanımlansın ve her bir sınıftaki veri noktaları için konveks gövde oluşturulsun. Geometrik yoruma göre optimum hiperdüzlem, iki konveks gövdenin birbirine olan en yakın uzaklığını ikiye böler. Bu dual problemi çözmek, iki destek yüzeyi arasındaki maksimum payı bulmaya denktir (Şekil 3.3.a). Destek vektörler olarak adlandırılan az sayıdaki eğitim örneği, problemin hem primal hem de dual formu için çözümü belirler. Primal problemde, payın sınırında bulunan, dolayısıyla payı belirleyen veri noktalarına destek vektörler denir (Cherkassky ve Mulier 2007). Dual problemde ise bu aynı destek vektörler, her bir konveks gövde içerisinde en yakın noktaları belirler. Ayrıca, Şekil 3.7’de görüldüğü gibi « vektörü, ayırma hiperdüzlemine olan normal yönü belirler. ! 1 için konveks gövde ! 71 için konveks gövde « Şekil 3.7 Dual problemde optimum hiperdüzlem (3.10) ile verilen primal problemi dualine dönüştürmek üzere iki adım mevcuttur. İlk adımda, È Lagrange çarpanları kullanılarak, 48 # '«, ­, È ! 6 µ«µ6 7 ∑%B# È . iª«, ¬ ­j 7 11 (3.11) kısıtsız optimizasyon problemi oluşturulur. Bu fonksiyonun eyer (saddle) noktası, problemin çözümünü verir. Fonksiyon, « ve ­ katsayılarına göre minimum, È 0 için maksimum yapılmalıdır. İkinci adımda ise « ve ­ parametrelerini, sadece È parametrelerine göre ifade etmek üzere Karush-Kuhn-Tucker (KKT) koşulları kullanılır. Buna göre (3.11) fonksiyonu, È Lagrange çarpanlarına göre maksimum yapılması gereken amaç fonksiyonunu belirler. KKT koşullarına göre «, ­ ve È için çözümler, ÉÊ«,¸,Ë É¸ ÉÊ«,¸,Ë É« !0 (3.12) !0 (3.13) biçiminde olşturulur. Bu kısmi türevlerin çözümü ise optimum hiperdüzlemlerin, 1. È , c ! 1, … , katsayıları, ∑%B# È ! 0, È 0, c ! 1, … , (3.14) kısıtlarını sağlamalıdır, 2. « vektörü, « ! ∑%B# È , È 0, c ! 1, … , ile eğitim kümesindeki vektörlerin doğrusal bir bileşimidir 49 (3.15) biçimindeki özelliklerini verir (Cherkassky ve Mulier 2007). Ayrıca KKT koşullarına göre her È parametresi; eğer karşılık gelen , veri örneği, (3.10) ile verilen problemdeki kısıtları eşitlik durumunda sağlıyorsa sıfırdan farklıdır. Bu durum, È i ª«, ¬ ­ 7 1j ! 0, c ! 1, … , (3.16) koşulu ile açıklanır. Kısıtları eşitlik durumunda (È sıfırdan farklı olduğunda) sağlayan veri örnekleri aynı zamanda destek vektörlerdir. Dual problemi oluşturmak amacıyla; (3.14) ve (3.15) ifadeleri, (3.11) Lagrange fonksiyonunda yerine yazılır. Bu işlemin Lagrange fonksiyonunda etkisini daha açık görmek için (3.11) ifadesi, # '«, ­, È ! 6 µ«µ6 7 ∑%B# È ª«, ¬ 7 ­ ∑%B# È ∑%B# È (3.17) biçiminde tekrar yazılabilir. (3.14) koşulu altında Lagrange fonksiyonundaki üçüncü terim sıfırdır. (3.15) ile verilen ifade Lagrange fonksiyonunda yerine konulduğunda, # 'È ! 7 6 ∑%,B# È È ª , ¬ ∑%B# È (3.18) elde edilir. (3.18) denklemi, dual optimizasyon probleminde amaç fonksiyonunu belirler ve È# , … , È% parametrelerine göre maksimum yapılmalıdır. (3.3) hiperdüzlem karar fonksiyonunun È# , … , È% ve ­ parametrelerine göre gösterimi, eşitlik (3.15)’in (3.3) denkleminde yerine konulması ile belirlenir. Böylece, ° ! ∑%B# È ª , ¬ ­ (3.19) formunda bir hiperdüzlem elde edilir. Daha sonra ­ parametresi, destek vektörler üzerindeki koşullardan faydalanılarak hesaplanır. Destek vektörlerinden biri olan } , } verildiğinde bu destek vektör, } iª«, } ¬ ­j ! 1 (3.20) 50 eşitliğini sağlar. Bu denklemde, eşitlik (3.15) yerine konulup ­ için çözüldüğünde, ­ ! } 7 ∑%B# È ª , } ¬ (3.21) elde edilir (Cherkassky ve Mulier 2007). Böylece, Lagrange fonksiyonu ve KKT koşulları kullanılarak dual problem formülasyonu tamamlanmış olur. Buna göre, , , c ! 1, … , eğitim verisi mevcut olmak üzere dual problem, Amaç fonksiyonu: maksÌ § # Æ∑%B# È 7 ∑%,B# È È ª , ¬Ç Kısıtlar: 6 ∑%B# È ! 0 (3.22) È 0, c ! 1, … , ile belirlidir (Burges 1998). È , c ! 1, … , dual problemin çözümü olmak üzere ve ­, eşitlik (3.21) ile hesaplandığında optimum hiperdüzlem, (3.19) fonksiyonu ile verilir. Burada, (3.22) optimizasyon probleminde ve (3.19) fonksiyonunun yapısında, girdi vektörleri arasında ª, ´¬ gibi bir iç çarpım işlemine ihtiyaç duyulmaktadır. Bu durumdan daha sonra, yüksek boyutlu nitelik uzayında optimum hiperdüzlemlerin belirlenmesinde faydalanılacaktır. È ’lerin sıfırdan farklı olduğu veri örnekleri destek vektörlerdir. Uygulamada eğitim verisinin sadece küçük bir kısmı destek vektör olarak ortaya çıkar ve optimizasyon problemi, klasik karesel programlama yöntemleri kullanılarak çözülebilir. 51 ®# ! 1 7 °# # ®6 ! 1 7 °6 6 Í ®Í ! 1 °Í ° ! 1 ° ! 0 ° ! 71 Şekil 3.8 Ayrılabilir olmayan veri durumunda optimum esnek pay hiperdüzlemi Optimum ayırma hiperdüzlemi formülasyonunda; eğitim verisinin, geçerli modellerin bir kümesi tarafından çok iyi açıklanabildiği (verinin doğrusal ayrılabilir olduğu) gibi güçlü bir varsayımda bulunulur. Fakat birçok durumda deneysel risk, minimumu sıfır olacak biçimde belirlenemez. Buna göre iyi bir tümevarımsal model, deneysel riskin minimizasyonu (eğitim verisine uyum) ile payın maksimizasyonu arasında bir denge arar. Şekil 3.8’de görüldüğü üzere ayrılabilir olmayan eğitim verisinin sınıflandırılması durumunda bu sorun, bazı eğitim örneğinin pay içerisine düşmesine izin verilmesiyle aşılır. (3.7)’de gösterilen bir kanonik hiperdüzlem için eşitlik (3.1)’de verilen pay tabanlı kayıpta olduğu gibi '∆ (, , ) ! maks1 7 , , 0 fonksiyonuyla deneysel risk, # &=>? , <% ! % ∑%B# '∆ ( , , ) (3.23) ile belirtilir. Pay tabanlı kayıp, ® ! maks1 7 , , 0 , c ! 1, … , gevşek değişkenleri ile ifade edilen pay sınırlarından sapmaların bir göstergesidir. Diğer benzer sınıflandırma yöntemlerinde olduğu gibi DVM’de, sayısal optimizasyona uygun bir kayıp fonksiyonu kullanarak sınıflandırma hatasını tahmin etmeye çalışır. Bu nedenle, ayrılabilir olmayan noktaların sayısından ziyade, ayrılabilir olmayan noktalar için 52 sapmaların toplamı minimum yapılır. Esnek pay hiperdüzleminin belirlenmesi problemi de bir karesel optimizasyon problemidir. Buna göre, o yeterince büyük bir sabit olmak üzere programlama problemi, Amaç fonksiyonu: min« Kısıtlar: # 6 Å,¸ § Æ6 µ«µ Î % ∑%B# ® Ç (3.24) i« · ­j 1 7 ® , c ! 1, … , biçiminde oluşturulur (Cherkassky ve Mulier 2007). Bu yapıda kullanıcı tarafından belirlenmesi gereken o katsayısı, karmaşıklık ile ayrılabilir olmayan örneklerin miktarı (oranı) arasındaki değişimi kontrol eder. Verilen bir o değeri, (3.24) formülasyonu aracılığıyla dolaylı olarak, ∆-pay boyutunda belirleyicidir. Böylece, (3.24) probleminde amaç fonksiyonunu minimum yapan parametrelere göre optimum esnek pay hiperdüzlemi, ∆! 1⁄µ«µ olan ∆-pay hiperdüzlemidir. Bu optimizasyon problemi yüksek boyutlu uzaylar için çözümlenecekse yine dual formuna dönüştürülmesine ihtiyaç duyulur. Bu işlem ise optimum ayırma hiperdüzleminde kullanılan yöntem ile benzerlik gösterir. Buna göre, (3.24) ile verilen dual karesel optimizasyon problemi tekrar formüle edilir (Vapnik 1995). , , c ! 1, … , eğitim verisi ve o de bir düzenleme sabiti olmak üzere dual problem, Amaç fonksiyonu: maksÌ Kısıtlar: § # Æ∑%B# È 7 ∑%,B# È È ª , ¬Ç 6 ∑%B# È ! 0 0 S È S o ⁄ , c ! 1, … , 53 (3.25) biçimindedir. È , c ! 1, … , dual problemin çözümü olmak üzere ve ­ ise (3.21) ile belirlendiğinde, hiperdüzlem karar fonksiyonu, ° ! ∑%B# È ª , ¬ ­ (3.26) dir ve ayrılabilir veri durumuyla aynıdır. Burada, È parametrelerinin sıfırdan farklı olduğu veri örnekleri, destek vektör olarak adlandırılır. 3.3 Çekirdek Gösterimi ile Nitelik Uzayları Doğrusal öğrenme makinelerinin hesaplama gücünün sınırlılığı günümüze kadar birçok çalışmada vurgulanmıştır. Buna göre gerçek dünyanın karmaşık uygulamalarında genellikle doğrusal fonksiyonlardan daha açıklayıcı olan modeller tasarlanmalıdır. Problemin çözümünde belli bir yaklaşıma göre kavramlar, mevcut özelliklerin basit doğrusal bileşimi ile sıklıkla açıklanamasa da veriden elde edilen daha özet niteliklere her zaman ihtiyaç duyulabilir. Bu yaklaşım, çok katmanlı sinir ağlarının ve bu sistemlerin eğitimi için geri yayılımlı öğrenme algoritmalarının gelişimine öncülük etmiştir. Çekirdek (kernel) gösterimleri, doğrusal öğrenme makinelerinin hesaplama gücünü artırmak için veriyi yüksek boyutlu bir nitelik uzayına eşleyerek alternatif bir çözüm sunmaktadır. Problemin dual gösteriminde doğrusal makinelerin kullanımı da bu adımın dolaylı olarak gerçekleştirilmesini sağlamaktadır. Dual gösterimde makinelerin kullanımının avantajı, bu gösterimde parametrelerin sayısının kullanılan niteliklerin sayısına bağlı olmamasından ileri gelmektedir. Seçilen uygun bir çekirdek fonksiyonunun iç çarpım ile yer değiştirilmesiyle, yüksek boyutlu bir nitelik uzayına doğrusal olmayan bir dönüşüm; parametre sayısı artırılmaksızın dolaylı olarak gerçekleştirilebilir. Bu kesimde, destek vektör makinelerinin temel yapı taşlarından birini oluşturan çekirdek tekniği incelenecektir. 54 3.3.1 Nitelik uzayında öğrenme Öğrenilen bir fonksiyonun karmaşıklığı, fonksiyonun yapısına bağlıdır ve öğrenme sürecinin zorluğu da bu duruma göre değişebilir. Bu nedenle öğrenme problemine uygun, ideal bir fonksiyon yapısının seçimi oldukça öneme sahiptir. Makine öğrenmesinde yaygın bir strateji verinin, girdi uzayından nitelik uzayına tanımlı Φ: Å Ò Ó fonksiyonu yardımıyla bir önişleme tabii tutulmasıdır. Örnek 3.1 Newton’un yerçekimi yasasına göre Ô# ve Ô6 kütlelerine sahip cisimler arasındaki yerçekimi kuvvetini açıklayan Ô# , Ô6 , ! >Õ > (3.27) s fonksiyonu göz önüne alınsın. Bu yasa, kütle ve uzaklık gibi gözlenebilir iki değere göre açıklanır. Doğrusal bir öğrenme makinesinin, bu fonksiyon yapısına uygun olamaması dolayısıyla koordinatlar üzerinde Ô# , Ô6 , Ö ±, , × ! ln Ô# , ln Ô6 , ln (3.28) biçiminde basit bir değişiklik yapılırsa doğrusal makine tarafından öğrenilebilen ر, , × ! ln Ô# , Ô6 , ! ln ln Ô# ln Ô6 7 2 ln ! o ± 7 2× yapısına ulaşılır. 55 (3.29) Φ Å Ú Ú Ó Φ Ú Ú Φ Φ ΦÚ Ú ΦÚ Φ Ú Φ Φ Şekil 3.9 Sınıflandırma probleminde nitelik dönüşümü Eğitim verisinin başka bir uzayın altkümesi olacak biçimde dönüştürülmesi makine öğrenmesi alanında uzun zamandır bilinen ve uygulanan bir yaklaşımdır. Burada Å girdi uzayı, Ó ! .Φ: Å1 ise nitelik uzayı olarak adlandırılır. Şekil 3.9’da iki boyutlu girdi uzayından iki boyutlu nitelik uzayına dönüşümün bir örneği gösterilmiştir. Bu örnekte girdi uzayında veri, doğrusal fonksiyon ile ayrılamaz iken nitelik uzayında doğrusal bir fonksiyon ile ayrılabilir hale gelmektedir. Doğrusal olmayan DVM’nin tasarlanmasındaki esas düşünce Å girdi vektörlerini, daha yüksek boyutlu bir Ó nitelik uzayından : vektörlerine dönüştürmek (: ! Φ) ve daha sonra bu nitelik uzayında bir doğrusal sınıflandırma problemini çözmektir. Burada Φ fonksiyonu önceden belirlenmiş olan bir fonksiyondur ayrıca girdi uzayı, vektörlerinin ± bileşenleri tarafından ve Ó nitelik uzayı ise : vektörünün Ù bileşenleri tarafından gerilmektedir. Örnek 3.2 Üçüncü dereceden polinomiyaller kullanılarak dönüştürülen ! i±# ±6 j biçiminde iki boyutlu girdi vektörü göz önüne alınsın. Bu durumda, dönüşüm fonksiyonlarının bir kümesi veya nitelikler, 56 Ù# ! 1, Ù6 ! ±# , ÙÍ ! ±6 , Ù ! ±#6 , ÙÛ ! ±66 , ÙÜ ! ±#Í , ÙÝ ! ±6Í , ÙÞ ! ±# ±6 , Ù#Í ! ±#Í ±66 , Ù# ! ±#6 ±6Í , Ù#Û ! ±#6 ±66 , Ù#Ü ! ±#Í ±6Í Ùß ! ±#6 ±6 , Ù#- ! ±# ±66 , Ù## ! ±#Í ±6 , Ù#6 ! ±# ±6Í , biçimindedir (Cherkassky ve Mulier 2007). Burada iki boyutlu girdi uzayı, 16 boyutlu bir nitelik uzayına dönüştürülmüştür. Buna göre bir DVM sınıflandırma probleminde optimum hiperdüzlem, girdi uzayında üçüncü dereceden polinomiyal karar sınırına göre bulunur. Bu örnekten, küçük boyutlu problemler için bile nitelik uzayının boyutunun büyük olabileceği açıkça görülür. 3.3.2 Nitelik uzayına örtülü dönüşüm Doğrusal bir makine ile doğrusal olmayan bağıntıların öğrenilmesi amacıyla doğrusal olmayan niteliklerin bir kümesinin seçilmesi ve verinin yeni gösterimi ile tekrar ele alınması gerekir. Bu işlem, doğrusal bir öğrenme makinesinin uygulanabileceği bir nitelik uzayında verinin doğrusal olmayan dönüşümünün kullanılmasına denktir. Burada, Φ: Å Ò Ó girdi uzayından nitelik uzayına doğrusal olmayan bir dönüşümü göstermek üzere, ! ∑%B# á Ù ­ (3.30) biçiminde fonksiyonlar göz önüne alınacaktır. Buna göre doğrusal olmayan bir makine iki adımda oluşturulur: ilk adımda belirli bir doğrusal olmayan dönüşüm ile veri Ó nitelik uzayına eşlenir ve sonraki adımda ise bu örüntüler doğrusal bir makine kullanılarak öğrenilir. Doğrusal öğrenme makinesinin önemli bir özelliği problemin dual gösterimi ile de açıklanabilmesidir. Bu durum ayrıca modelin, eğitim noktalarının doğrusal bileşimi ile ifade edilebileceği anlamına gelmektedir. Böylece, sonraki kesimlerde de açıklanacağı 57 üzere, destek vektör regresyon yaklaşımında eğitim noktaları ile test noktası arasındaki iç çarpım kullanılarak fonksiyonu, ! ∑%B#È 7 Èr ªΦ , Φ¬ ­ biçiminde belirlenir. Burada È , Èr , c ! 1, 2, … , (3.31) Lagrange katsayılarını göstermektedir. Ayrıca, Ô nitelik uzayının boyutunu belirlemek üzere Φ ! iÙ# Ù6 … Ù> j’dir. Orijinal girdi noktalarının bir fonksiyonuna göre nitelik uzayında ªΦ , Φ¬ iç çarpımı direkt hesaplanabiliyorsa doğrusal olmayan bir öğrenme makinesinin tasarlanması için gerekli, bahsedilen iki adımın birleşmesi mümkün hale gelir. Böyle bir direkt hesaplama yöntemi ise çekirdek gösterimi olarak adlandırılır. Tanım 3.3 Çekirdek Fonksiyonu Her , â Å için ve Φ: Å Ò Ó girdi uzayından nitelik uzayına doğrusal olmayan bir dönüşümü göstermek üzere çekirdek, ¦, â ! ªΦ, Φ⬠(3.32) biçiminde tanımlı bir fonksiyondur. Bu yaklaşımda esas, etkili bir biçimde kullanılabilecek bir çekirdek fonksiyonunun bulunmasıdır. Böyle bir çekirdek fonksiyonuna sahip olunduğu zaman ise destek vektör regresyonu, gözlem için çekirdeğin hesabı ile ! ∑%B#È 7 Èr ¦ , ­ (3.33) biçiminde belirlenir. 58 ¦ , â çekirdek fonksiyonu girdi uzayında tanımlı bir fonksiyondur. Çekirdek fonksiyonunun kullanımındaki esas avantaj, Φ dönüşümünün dolaylı olarak gerçekleştirilmesidir. Başka bir ifade ile nitelik uzayında ihtiyaç duyulan ªΦ, Φ⬠iç çarpımı, girdi uzayında mevcut eğitim veri vektörleri kullanılarak ¦, â çekirdekleri ile direkt olarak hesaplanır. Bu yol ile Ó nitelik uzayının aşırı yüksek boyutlu olma durumu göz ardı edilmiş olur. Böylece, seçilen bir ¦, â çekirdeği yardımıyla sonsuz boyutlu bir uzayda da çalışabilecek biçimde bir DVM oluşturulmuş olur. Ayrıca çekirdeğin gösteriminin kullanımı ile gerçek Φ dönüşümünün ne olduğunun bilinmesine de gerek yoktur. Çekirdek fonksiyonlarının kullanımında esas soru: “Hangi tür çekirdek fonksiyonu kabul edilebilirdir?” ve “DVM uygulaması için uygun çekirdek fonksiyonunun türü için herhangi bir kısıt var mıdır?” biçimindedir. Sorunun çözümü ise girdi uzayında herhangi bir simetrik ¦, â fonksiyonunun, ã ¦ , âØØâ + +â K 0, JØ '6 §% (3.34) olmak üzere nitelik uzayında bir iç çarpımı temsil edebileceği ile ilişkilidir. Burada Ø·, sınırlı bir '6 normu ile girdi uzayında tanımlı yani * Ø6 + N ∞ olacak biçimde bir fonksiyondur. ä ! [¦( , )\ % ,B# pozitif tanımlı bir simetrik matrisin özdeğerleri , c ! 1, 2, … , ile gösterilmek üzere Ó uzayında nitelikler, * ¦ , âÙ + ! Ù (3.35) biçiminde oluşturulur ve ¦ çekirdek fonksiyonu, Ù ’ye göre ¦, â ! ∑U B# Ù Ù â (3.36) 59 açılımına sahiptir. Sonuç olarak, (3.35) denklemi sağlanacak biçimde .Ù 1U B# fonksiyonlar kümesi mevcut ise åæ# Ù# æ6 Ù6 … æ6 Ù> … ç nitelikleri, iç çarpımın ªΦ, Φ⬠! ∑U B# Ù Ù â ! ¦ , â (3.37) biçiminde hesaplanabilmesi bakımından kabul edilebilirdir. Smola ve Schölkopf (1998) ve Vapnik (1998)’de ayrıntıları bulunan Hilbert-Schmidt teorisine göre; (3.34) eşitsizliği ile verilen Mercer koşulları, ¦, â kabul edilebilir simetrik fonksiyonlarını (kernel) belirler. Bu nedenle, (3.34) eşitsizliğini sağlayan herhangi bir ¦ , â simetrik fonksiyonu, girdi uzayında bir iç çarpıma karşılık gelmektedir (Kecman 2001). Öğrenme makinesi için kullanılan dönüşüm fonksiyonunun türü, iç çarpımın hesaplanması amacıyla çekirdek fonksiyonlarının farklı seçimlerine göre değişiklik gösterir. Çizelge 3.1 ile makine öğrenmesi ve sinir ağları alanlarında sıklıkla uygulanan iç çarpım çekirdekleri verilmiştir (Kecman 2001). Çizelge 3.1 Klasik çekirdek fonksiyonları Çekirdek Fonksiyonları Sınıflandırma Türü ¦, ! i è 1jé # ¦, ! exp W7 6 i 7 è Σ # 7 j] ¦, ! tanhi è ­j* * Belirli bir ­ değeri için e derecesinden polinomiyal Gauss radyal tabanlı fonksiyon Çok tabakalı sinir ağı 3.4 Doğrusal Olmayan Sınıflandırıcılar Sınıflandırma problemlerinde doğrusal olmayan sınıflandırıcılar da göz önüne alınabilir. Doğrusal olmayan bir DVM (sınıflandırıcısı) için öğrenme algoritması, nitelik uzayında optimum ayırma hiperdüzleminin tasarlanması ile ortaya çıkar. Bu işlem, girdi uzayında bir pay hiperdüzleminin oluşturulmasına benzerdir. 60 , , c ! 1, … , eğitim verisi, ¦ iç çarpım çekirdeği ve o de bir düzenleme sabiti olmak üzere karesel optimizasyon problemi, Amaç fonksiyonu: maksÌ Kısıtlar: § # Æ∑%B# È 7 ∑%,B# È È ¦( , )Ç 6 ∑%B# È ! 0 (3.38) 0 S È S o ⁄ , c ! 1, … , biçimindedir (Kecman 2001). Burada, È , c ! 1, … , değerleri ile problemin çözümü belirlidir. Böylece, ° karar hiperdüzlemi, ° ! ∑%B# È ¦ , ­ (3.39) ve + K 3 için aynı zamanda bir hiperdüzlem olan destek vektör sınıflandırıcısı, sign ° ! sign∑%B# È ¦ , ­ (3.40) dir. Burada, } , } destek vektörlerden biri olmak üzere ­ parametresi, ­ ! } 7 ∑%B# È ¦ , } (3.41) ile elde edilir. 3.5 Destek Vektör Makineleri ile Regresyon Klasik regresyon çözümlemesi, tüm eğitim örnekleri için deneysel olarak gözlenmiş yanıtlar ile kestirimleri arasında en küçük sapmaya sahip olan fonksiyonunun belirlenmesi süreci olarak açıklanır. Genelleştirilmiş bir performans elde etmek üzere destek vektör regresyonunun esas karakteristiklerinden biri, gözlenen eğitim hatasının 61 minimum yapılması yerine, genelleştirilmiş hata sınırının minimum yapılmaya çalışılmasıdır. Bu genelleştirilmiş hata sınırı ise eğitim hatasının ve fonksiyonlar kümesinin karmaşıklığını kontrol eden bir düzenleme teriminin kombinasyonu ile belirlenir. Destek vektör regresyonu (DVR), destek vektör makinelerinin en yaygın uygulanan bir formudur. Regresyon model kestirimi için DVM temelindeki belli başlı düşünceler, Smola ve Schölkopf (2004) tarafından yapılan çalışmada bulunabilir. Ayrıca bu çalışmada, DVM’nin eğitimi için kullanılan, hem karesel (konveks) programlamayı hem de büyük veri setleri için çözüm sağlayan gelişmiş yöntemleri içeren son algoritmaların bir özeti de yer almaktadır. Son olarak, standart destek vektör algoritması için bazı değişiklikler ve genişlemeler de ele alınmıştır. Çalışmada, destek vektör bakış açısına göre düzenleme ve kapasite kontrol terimleri tüm boyutlarıyla tartışılmıştır. 3.5.1 Doğrusal regresyon Å girdi örüntülerinin uzayını (örneğin §¯ ) göstermek üzere; eğitim verisi .# , # , … , % , % 1 £ Å ì § biçiminde ele alınsın. – destek vektör regresyonunda amaç, tüm eğitim verisi için elde edilen gerçek hedeflerinden en çok sapmaya sahip olacak biçimde bir fonksiyonunun bulunmasıdır. ª. , . ¬, Å uzayında iç çarpımı göstermek üzere doğrusal fonksiyonun tahmini, ! ª«, ¬ ­ , « Å, ­ § (3.42) formu ile açıklanır. DVR çözümlemesinde kullanılan pay tabanlı kayıp fonksiyonu, eşitlik (3.2) ile verilen -duyarsız kayıp fonksiyonudur. Regresyon modelinin bilinen bir yapısına göre; eğitim örneği, <% ! .# , # , … , % , % 1 için deneysel risk, # &=>? , <% ! % ∑%B# '~ ( , , ) 62 (3.43) dir ve burada '~ (, , ) ! maks| 7 , | 7 , 0 olarak tanımlanır (Cherkassky ve Mulier 2007). Sonlu sayıda veri ile (3.43) deneysel riskinin minimizasyonu, pay tabanlı karmaşıklık kontrolünün de kullanılmasıyla (-duyarsız bölgesinin genişliğinin ayarlanması) daha iyi model tahminleri üretebilir. Kesim 3.1’de tartışıldığı üzere verilen bir veri seti için değerinin farklı seçimleri, sınıflandırma probleminde pay büyüklüğünün ayarlanmasına karşılık gelmektedir. Ancak (3.43) ile verilen risk fonksiyonu, pay büyüklüğüne ve model seçimine bağlı karmaşıklık kontrolünün esnek bir kombinasyonuna olanak vermez. Bunu gerçekleştirmek üzere; DVM regresyon çözümlemesinde risk fonksiyonuna bir terim daha eklenir. Böylece, , ! ª«, ¬ ­ biçiminde doğrusal bir model göz önüne alındığında risk fonksiyonu, # &îïð «, ­, <% ! 6 µ«µ6 o · &=>? , <% (3.44) formuna sahiptir. DVM risk fonksiyonu, model karmaşıklığını kontrol eden ve o değerlerine bağlıdır. Teknik olarak, o değerinin büyük olacak biçimde seçilmesi ile (3.43) pay tabanlı deneysel riskinin minimizasyonu sağlanır. -duyarsız bölgesinin dışında bulunan eğitim örneklerinin, pay sınırından sapmalarını (Şekil 3.4.b) tanımlamak üzere negatif olmayan ® ve ®r , c ! 1, … , gevşek değişkenleri kullanılır ve -duyarsız kaybın minimizasyonu da böylece açıklanmış olur. , , c ! 1, … , eğitim verisi için destek vektör regresyonunda « parametrelerinin tahmini problemi, Amaç fonksiyonu: min« Å, ñr § ,¸ § # Î Æ6 µ«µ6 % ∑%B#® ®r Ç (3.45) Kısıtlar: 7 ª«, ¬ 7 ­ S ® ª«, ¬ ­ 7 S ®r ® , ®r 0, c ! 1, … , 63 biçiminde oluşturulur (Cherkassky ve Mulier 2007). Bu problem, doğrusal kısıtlar ile tanımlı bir karesel optimizasyon problemidir. Burada o parametresi ile model karmaşıklığı ve pay tabanlı hata arasındaki değişim kontrol edilir. Problemin dual formülasyonu, DVM’nin doğrusal olmayan fonksiyonlara genişletilmesi için bir yol temin eder. Lagrange çarpanlarını kullanarak standart dual alma işlemi, # Î µ«µ6 ∑%B#® ®r ∑%B# È 7 ª«, ¬ 7 ­ 7 7 ® % '!ò % r ª ∑B# È «, ¬ ­ 7 7 7 ®r 7 ∑%B# ® r ®r 6 ó (3.46) biçiminde açıklanır. (3.46) denklemindeki dual değişkenler È , Èr , , r 0 pozitif olma kısıtlarını sağlaması gerekmektedir. Eyer (saddle) noktası koşulundan á, ­, ® , ®r primal değişkenlerine göre '’nin kısmi türevleri, ÉÊ É¸ ÉÊ É« ! ∑%B#È 7 Èr ! 0 ÉÊ ! « 7 ∑%B#È 7 Èr ! ô r Éõ· (3.47) Î r ! % 7 È r 7 (3.48) !0 (3.49) biçiminde sıfıra eşitlenmelidir. (3.47), (3.48) ve (3.49) eşitlikleri, (3.46) denkleminde yerine konulursa, Amaç fonksiyonu: maksÌr Kısıtlar: § # 7 ∑%,B#È 7 Èr (È 7 Èr )ª , ¬ ö 6 ÷ 7 ∑%B#È Èr ∑%B#È 7 Èr ∑%B#È 7 Èr ! 0 È , Èr Î Æ0, %Ç , c ! 1, … , 64 (3.50) dual optimizasyon problemi elde edilir. (3.50) ile verilen programlama problemini oluşturmak üzere ve r dual değişkenleri, (3.49) koşulu gereği dışta bırakılır. Buna göre (3.48) denklemi, « ! ∑%B#È 7 Èr (3.51) olarak yazılır ve bunun sonucunda ! ∑%B#È 7 Èr ª , ¬ ­ (3.52) dır. Eşitlik (3.51)’da görüldüğü üzere « parametresi, destek vektör yardımıyla eğitim örüntülerinin bir doğrusal bileşimi olarak tamamen açıklanabilir. ­’nin hesaplanması, Karush-Kuhn-Tucker (KKT) koşullarından faydalanılarak gerçekleştirilir (Smola ve Schölkopf 2004). Buna göre, optimum çözümde dual değişkenler ile kısıtların çarpımı sıfıra eşittir. Destek vektör durumunda bu, c ! 1, 2, … , için È 7 ª«, ¬ 7 ­ 7 7 ® ! 0 ve Èr ª«, ¬ ­ 7 7 7 ®r ! 0 (3.53) Î [% 7 È \ ® ! 0 Î (3.54) [% 7 Èr \ ®r ! 0 anlamına gelir. Buna göre, r i. È Î ! % olan , örnekleri, -duyarsız bölgesinin dışında yer alırlar, ii. È Èr ! 0’dır yani her ikisi birden sıfırdan farklı olan È , Èr dual değişkenlerinin bir kümesi olamaz bu da her yönde sıfırdan farklı gevşek değişkenlerin varlığını gerektirir. 65 Sonuç olarak, È} , Èar Î [0, %\; ø, q ! 1, 2, … , için ®} , ®ar ! 0’dır. Bu durumda, eşitlik (3.53) ile verilen eşitliklerdeki ikinci faktör sıfıra eşit olur ve ­ ! } 7 ª«, } ¬ 7 , ­ ! a 7 ª«, a ¬ , È} Èar Î [0, %\ Î [0, \ (3.55) % elde edilir. Lagrange katsayıları üzerinde benzer bir çözümleme ile bağlantılı olarak È} Î [0, \ ve Èar % Î [0, \; ø, q ! 1, 2, … , için % min.} 7 ª«, } ¬ 7 , a 7 ª«, a ¬ 1 S ­ S maks.} 7 ª«, } ¬ 7 , a 7 ª«, a ¬ 1 (3.56) dır. ­’nin seçimi için farklı yollar Keerthi vd. (2001)’de verilmiştir. (3.53)’deki eşitliklere göre sadece | 7 | için Lagrange çarpanları sıfırdan farklı olabilir yani ile belirli sınırların içinde kalan tüm örnekler için È , Èr sıfıra eşittir. | 7 | N için (3.53) eşitliklerindeki ikinci faktör sıfırdan farklıdır. Buna göre, È ve Èr katsayıları, KKT koşulları sağlanacak biçimde sıfıra eşit olacaktır. Sonuç olarak, örneklerine göre «’nin sade bir açılımı elde edilmiş olur («’nin açıklanmasında tüm örneklerine ihtiyaç duyulmaz). Burada, sıfırdan farklı È , Èr için belirlenen örnekler ise destek vektörler olarak adlandırılır. 3.5.2 Doğrusal olmayan regresyon Destek vektör algoritması, girdi uzayından nitelik uzayına tanımlı Φ: Å Ò Ó fonksiyonu yardımıyla eğitim örneklerini bir önişleme tabii tutarak doğrusal olmayan bir yapıya dönüştürülür ve daha sonra yine standart DVR algoritması kullanılarak çözümlenebilir. Destek vektör algoritması, örneklerinin sadece iç çarpımlarına bağlı olarak tanımlıdır. Böylece, destek vektör optimizasyon problemini yeniden ifade 66 edilmesine olanak veren, Φ fonksiyonundan ziyade, ¦ , ´ ! ªΦ, Φ´¬ iç çarpım çekirdeğinin bilinmesi yeterlidir. Doğrusal olmayan DVR için dual optimizasyon problemi, Amaç fonksiyonu: maksÌr Kısıtlar: ∑%B#È È , Èr # 7 ∑%,B#È 7 Èr (È 7 Èr ) ¦( , ) 6 ÷ § ö 7 ∑%B#È Èr ∑%B#È 7 Èr 7 Èr Î Æ0, %Ç !0 (3.57) biçiminde tanımlanır. Doğrusal olmayan DVR için (3.51) ve (3.52) denklemlerinin genişlemesi, « ! ∑%B#È 7 Èr Φ (3.58) ! ∑%B#È 7 Èr ¦ , ­ (3.59) olarak yazılır. Bu yapının doğrusal durumdan farkı «’nin bundan böyle açıkça verilememesidir. Ayrıca burada, doğrusal olmayan durumda optimizasyon probleminin, girdi uzayında değil de nitelik uzayında uygun fonksiyonu bulmaya karşılık geldiğini belirtmek gerekir. 3.5.3 -Destek vektör regresyonu -duyarsız kayıp fonksiyonunda parametresi, eğer yaklaşımdan istenen doğruluk düzeyi baştan belirlenebiliyor ise oldukça kullanışlıdır. Ancak bazı durumlarda, önceden özel bir doğruluk düzeyi belirlemeksizin mümkün olduğunca doğru tahminler üretilmesi istenir. Bu problem, değerini kendiliğinden hesaplayan -destek vektör regresyonu (-DVR) olarak adlandırılan yeni bir algoritma ile kısmi olarak çözüme kavuşturulur (Schölkopf vd. 2000). 67 .# , # , … , % , % 1 £ Å ì § eğitim verisinden, (3.42) ile verilen fonksiyonu tahmin etmek üzere, her bir noktası için kadar hataya izin verilir. ’un üstünde hataya sahip her örnek, önceden seçilmiş bir o düzenleme sabiti ile amaç fonksiyonunda r cezalandırılan ® gevşek değişkenlerinde tutulur. değeri, model karmaşıklığına ve bir 0 sabiti ile gevşek değişkenlere karşı bir değişim ölçüsüdür. Buna göre, -DVR için primal problem, Amaç fonksiyonu: min« Å, ñr § ,¸ § # # Æ6 µ«µ6 o ù [ % ∑%B#® ®r \Ç (3.60) Kısıtlar: 7 ª«, ¬ 7 ­ S ® ª«, ¬ ­ 7 S ®r 0, ® , ®r 0, c ! 1, … , r r olarak yazılır. Kısıtlar için È , , L 0 çarpanları tanımlanır ve Lagrange fonksiyonu, '!ò # 6 Î µ«µ6 o ∑%B#® ®r ∑%B# È 7 ª«, ¬ 7 ­ 7 7 ® % ∑%B# Èr ª«, ¬ ­ 7 7 7 ®r 7 L 7 ∑%B# ® r ®r ó (3.61) biçiminde elde edilir. (3.60) problemindeki amaç fonksiyonunu minimum yapmak r r r üzere; «, , ­, ® primal değişkenlerine göre minimum, È , , L dual değişkenlerine göre maksimum olacak biçimde '’nin eyer (saddle) noktasının bulunması gerekmektedir. Lagrange fonksiyonunun primal değişkenlere göre türevlerinin sıfıra eşitlenmesi sonucunda, « ! ∑%B#È 7 Èr (3.62) ∑%B#È 7 Èr ! 0 (3.64) o ù 7 ∑%B#È Èr 7 ! 0 (3.63) 68 Î % r 7 È r 7 !0 (3.65) eşitlikleri elde edilir. Dört koşulun ' fonksiyonunda yerine konulması ile dual optimizasyon problemi (Wolfe duali olarak da adlandırılır) elde edilmiş olur. Klasik olarak problem, çekirdek gösterimi kullanılarak da ifade edilebilir. Bu amaçla iç çarpım yerine doğrusal olmayan bir Φ fonksiyonu aracılığıyla, girdi uzayı ile ilişkili nitelik uzayında bir iç çarpıma karşılık gelen ¦, ´ ! ªΦ, Φ´¬ ! ª, ´¬ (3.66) çekirdeği kullanılır. Kısıtların yeniden yazılması ile 0 ve o K 0 için Amaç fonksiyonu: maksÌr § # W7 6 ∑%,B#È 7 Èr (È 7 Èr )¦( , ) ∑%B#È 7 Èr ] (3.67) Kısıtlar: ∑%B#È 7 Èr ! 0 È , Èr Î Æ0, %Ç ∑%B#È Èr S o · -DVR dual optimizasyon problemine ulaşılır (Smola ve Schölkopf 2004). 3.6 Toplam Hasar Ödeme Tutarlarının Kestiriminde DVR Yaklaşımı Sigorta şirketlerinin, sigortalanan bireylerin hasar tutarı ödeme taleplerinin karşılanması ile sonuçlanan tüm belirsiz olaylara karşı hazır olması beklenir. Bundan dolayı sigorta şirketi gelecek hasar ödemelerinin kestiriminde farklı modelleri göz önünde bulundurmalıdır. Doğrusal regresyon çözümlemesi, uygulamada sıklıkla kullanılan istatistiksel yöntemler arasındadır. Klasik regresyon çözümlemesinde, hatanın genellikle sabit varyans ve sıfır ortalama ile normal dağılıma uygun olduğu varsayımı yapılır. Bu 69 anlamda, temel varsayımların sağlanamaması durumunda regresyon modelinin geçerliliği olumsuz yönde etkilenebilmektedir. Literatürde genelleştirilmiş doğrusal modeller gibi klasik regresyon çözümlemesine alternatif yaklaşımlar bulunmaktadır. Bu kesimde, DVM ile regresyon çözümlemesi toplam hasar miktarının belirlenmesi amacıyla uygulanacaktır. Buna göre, Rousseeuw vd. (1984) tarafından yapılan çalışmada da kullanılan, Belçika’da bir sigorta şirketi tarafından gözlenmiş hasar tutarı ödemelerine ilişkin veriler ele alınacaktır. Çizelge 3.2 Toplam hasar tutarlarının değişimi Ay Ödeme 1 2 3 4 5 6 7 8 9 10 11 12 3.22 9.62 4.50 4.94 4.02 4.20 11.24 4.53 3.05 3.76 4.23 42.69 1979 yılında sigorta şirketinin hayat sigortası sözleşmelerine ilişkin aylık toplam ödemelerinin değişimi Çizelge 3.2’de sunulmuştur. Ödemeler ilgili yılda toplam ödeme tutarları içindeki yüzde hesaplanılarak verilmiştir. Şekil 3.10 incelendiğinde, Aralık ayında tamamlayıcı emeklilik sisteminden kaynaklanan bir aşırı yüksek ödeme miktarının gerçekleştiği görülmektedir. 70 Şekil 3.10 Doğrusal regresyon modelleri Klasik en küçük kareler regresyon çözümlemesi sonucunda, Şekil 3.10’da kesikli çizgi ile gösterilmiş olan , ! 70.294 1.327± modeline ulaşılmıştır. Bu yöntemde, eğimi büyük olan regresyon doğrusunun, aykırı bir değer olan Aralık ayı ödemesinden büyük ölçüde etkilendiği görülmektedir. Diğer taraftan, DVR çözümlemesi ile ! 1 ve o ! 200 için doğrusal model, , ! 4.119 0.101± biçiminde belirlenmiştir. Şekil 3.10’da da gösterildiği gibi DVM sonucunda elde edilen modelde, aykırı değerin modele olan etkisinin giderildiği görülmektedir. 71 e!2 e!3 e!4 Şekil 3.11 Polinomiyal regresyon modelleri DVR algoritmasının avantajı, doğrusal olmayan regresyon denkleminin, girdi vektörlerinin yüksek boyutlu bir nitelik uzayına eşlenmesi sonucunda kolaylıkla elde edilebilmesidir. Böylece, çekirdek fonksiyonunun seçimine bağlı olarak doğrusal olmayan regresyon için farklı öğrenme makineleri oluşturulabilmektedir. Çizelge 3.3 ile farklı çekirdek fonksiyonlarının kullanımı ile doğrusal ve doğrusal olmayan DVR çözümlemesine ilişkin bulgular sunulmuştur. Çizelgede, hata kareler ortalaması (HKO) kriterine göre elde edilen model sonuçları da görülmektedir. Ayrıca; ikinci, üçüncü ve dördüncü dereceden polinomiyal regresyon modellerinin grafikleri Şekil 3.11 ile verilmiştir. 72 Çizelge 3.3 Doğrusal ve doğrusal olmayan DVR çözümlemesi sonuçları Doğrusal Model Polinomiyal Model (e ! 2 Polinomiyal Model (e ! 3 Polinomiyal Model (e ! 4 Gauss Radyal Tabanlı Fonksiyon 1 9 8 3 1 73 o 200 300 300 2000 30000 HKO 11.082 8.166 6.460 4.593 3.503 4. BULANIK REGRESYON FONKSİYONLARI YAKLAŞIMI Zadeh (1965, 1975), kesin olmayan önermeler, bulanık kümeleme ve bulanık mantık ile matematiksel modelleme kavramlarını ileri sürmüştür. Bundan sonra ise bulanık kümeler ve bulanık mantık, belirsiz bilgiyi kontrol etmek ve belirsiz bilgi mevcut olduğunda çıkarımların nasıl yapılacağını açıklamak üzere birçok alanda uygulanmaya başlamıştır. Herhangi bir veritabanı sisteminden gürültü (noise) ve belirsizliklerin hiçbir zaman bütünüyle yok edilemeyeceği bilinmektedir. Genel olarak bu tür belirsizlikleri daha fazla açıklamak için yaygın bir yol bulanık mantık ve teorisini kullanmaktır. Bulanık kümeleme algoritmaları, her bir nesnenin kümelere hangi derece ile ait olduğunu belirleyen üyelik fonksiyonlarını hesaplarken, veri seti içerisindeki örtüşen kümeleri de saptayabilir. Bir sonraki kesimde ilk olarak, bulanık kümeleme yöntemine ilişkin terminoloji ve bulanık küme analizinin bir genel sınıflandırması üzerinde durulacaktır. Sistem modelleme yaklaşımlarından olan “Bulanık Regresyon Fonksiyonları”, yapı tanımlanmasında Bulanık c-Ortalama (BCO) kümeleme yöntemi (Bezdek 1981) olarak adlandırılan bir tür algoritmadan faydalanmaktadır. Bundan dolayı, bu kesimde BCO kümeleme yönteminin matematiksel temeli üzerinde durulacaktır. 4.1 Bulanık Kümeleme Algoritmaları Esnek hesaplama ile sistem modelleme, global ve lokal sistem modelleme olmak üzere iki kısma ayrılmaktadır (Babuška ve Verbruggen 1997). Global modellemede sistem, mevcut ilişkileri ortaya koymak üzere bir bütün olarak çözümlenir. Lokal modellemede ise sistem, öncelikle anlamlı kısımlara ayrıştırılır ve sonra doğrusal veya doğrusal olmayan yöntemler kullanılarak alt modeller oluşturulur. Bu lokal modellerin özelliklerini belirlemek için de bulanık kümeleme algoritmalarının sınıfı kullanılır. Bulanık kümeleme algoritmalarını geliştirmek üzere gerçekleştirilmiş birçok araştırma vardır. Bu çalışmalar kümeleme yapısına göre, 74 • Bulanık ilişkiye dayanan bulanık kümeleme • Bir amaç fonksiyonu ve kovaryans matrisine dayanan bulanık kümeleme • Parametrik olmayan sınıflayıcılar • Sinir-bulanık kümeleme biçiminde sınıflandırılabilir (Celikyilmaz ve Türksen 2009). Bu çalışmada, mümkün küme parçalanmaları için bir değerlendirme fonksiyonunun kullanımıyla belirlenen sayısal ölçüyü ve aynı zamanda da toplam hatayı minimum yapmaya çalışan “amaç” tabanlı bulanık kümeleme algoritmaları üzerinde durulacaktır. Amaç fonksiyonu en iyi değerine ulaşınca, küme parçalanmaları da ideal durumuna ulaşmıştır denilir. Dolayısıyla amaç tabanlı kümeleme algoritmaları bir optimizasyon probleminin çözümüne bağlıdır. Tanım 4.1 Amaç Fonksiyonu ý veya ý ile gösterilen amaç fonksiyonu esasında bir hata ölçüsüdür. Bulanık kümeleme algoritmalarında amaç, kümeleme algoritmasının yapısına bağlı olarak ý’nin global minimum veya maksimumunu belirlemektir. ý fonksiyonu genellikle aynı kümeleme probleminde elde edilen farklı çözümleri kıyaslamak amacıyla kullanılır (Celikyilmaz ve Türksen 2009). þ ! .# , 6 , … , % 1 nesneler kümesini göstermek üzere; her bir c nesnesi (c ! è 1, 2, … , ), + boyutlu ! å±#, ±6, … ±¯, ç §¯ vektörü ile temsil edilsin. Buna göre, vektörlü bu küme, ì + boyutlu veri matrisi ile ±#,# ±6,# X! ±%,# ±#,6 ±6,6 ±%,6 … ±#,¯ … ±6,¯ … ±%,¯ (4.1) biçiminde verilir. 75 Bir bulanık kümeleme algoritması þ veri kümesini, U parçalanma matrisi tasarımıyla sayıda örtüşen kümeye parçalar. Tanım 4.2 Bulanık Parçalanma Matrisi Bulanık parçalanma matrisi, U, her ¦ (¦ ! 1, 2, … , ) kümesinde yer alan (c ! 1, 2, … , ) nesnelerinin üyelik derecelerinden oluşan bir matristir. ¦ kümesindeki c. vektörün üyelik derecesi _, #,# #,6 U! #,% 6,# 6,6 6,% … … … U ile gösterilir. Buna göre de parçalanma matrisi, ,# ,6 ,% (4.2) ile verilir. Bulanık kümeleme algoritmasında her bir küme, küme merkez vektörü veya küme prototip vektörü ile temsil edilirler (Celikyilmaz ve Türksen 2009). Tanım 4.3 Küme Merkez/Prototip Vektörü + boyutlu veri vektörlerinden oluşan bir X matrisi için bulanık kümeleme algoritması , ¦ ! 1, 2, … , küme merkez vektörlerini belirler. ! .# , 6 , … , 1 üzere her bir küme merkezi, ì¯ olmak §¯ , + boyutlu bir vektördür. Bu küme merkezleri genellikle, + sayıda nesnenin ağırlık merkezi olarak ifade edilir (Celikyilmaz ve Türksen 2009). Bu çalışmada, bulanık kümeleme algoritmalarının farklı türleri arasından amaç fonksiyonu tabanlı noktasal (uzaklık ölçütlü) kümeleme algoritmaları üzerinde durulacaktır. Sistem modelleme yaklaşımlarının bir genişlemesi olan Bulanık Regresyon Fonksiyonlarının (BRF), Bulanık c-Ortalama (BCO) kümeleme algoritmasını kullanmasından dolayı; bir sonraki kesimde bu algoritma detaylı bir biçimde incelenecektir. 76 4.1.1 Bulanık c-ortalama kümeleme algoritması BCO kümeleme algoritması (Bezdek 1981) basit ve kullanışlı bir yöntemdir. Bu yöntemde, þ ! .# , 6 , … , % 1 veri setinin kaç kümeye parçalanacağını belirten sayısının bilindiği veya en azından belirlenebilir olduğu varsayılır. Birçok veri çözümleme probleminde bu varsayımın gerçekçi bulunmamasından dolayı, BCO kümeleme algoritmasında küme sayısının belirlenmesinde Küme Geçerlilik İndeksi analizi gibi yöntemler geliştirilmiştir. BCO kümeleme algoritması, küme sayısı ve bulanıklık parametresi Ô gibi iki önsel bilgi ile min ý X; U, V ! ∑_B# ∑%B#(_, ) +6 , _ > (4.3) amaç fonksiyonunu minimum yapmaya çalışır. Burada her bir küme bir prototip ile temsil edilir. (4.3) denkleminde Ô 1, ∞ değeri, bulanık kümeleme algoritmasında bir bulanıklık derecesi veya bulanıklaştırıcı (fuzzifier) olarak ifade edilir ve kümelerin örtüşme derecesini belirler. “Ô ! 1” durumu kümelerin örtüşmemesi anlamına gelip bir kesin (crisp) kümeleme yapısını temsil etmektedir. Burada +6 , _ ise c. nesne ile ¦. küme merkezi arasındaki bir uzaklık ölçüsüdür. Karesel uzaklık, amaç fonksiyonunun negatif tanımlı olmamasını, ý K 0, sağlamaktadır. Bütün veri nesneleri, örtüşmeyen kümelerde birer merkez olarak belirlendiği zaman ( ! ), amaç fonksiyonunun değeri sıfır olacaktır. Ayrıca veri nesneleri, küme merkezi ’lerden uzaklaştıkça da amaç fonksiyonunun değeri büyüyecektir. Yani küme merkezlerinin sayısı ve yeri, amaç fonksiyonunun değerini etkilemektedir. Optimum çözüme ulaşıldığında amaç fonksiyonu minimum olmalı ve global minimum için çözüm aranmalıdır. Problemde ulaşılabilecek gereksiz çözümlerden kaçınmak amacıyla U parçalanma matrisine, 77 ∑_B# _, ! 1 , Jc K 0 (4.4) 0 N ∑%B# _, N , J¦ K 0 (4.5) gibi iki kısıt daha eklenir. Eşitlik (4.4) ile verilen kısıt parçalanma matrisindeki her bir satırın toplamının 1’e eşit olduğu anlamına gelmektedir. Krishnapuram ve Keller (1993) tarafından yapılan çalışmaya göre (4.4) denklemi kümelemeye olabilirlik yaklaşımı olarak açıklanır. Eşitlik (4.5) ile verilen kısıt ise yine parçalanma matrisindeki her bir sütunda üyelik değerleri toplamının, veri vektörü sayısı ’yi aşamayacağı ve sıfırdan da büyük olması gerektiğini belirtmektedir. Bu da her bir kümeye en azından bir elemanın atanmasını sağlamaktadır. Bu yaklaşımda üyelik değerlerinin belirli bir dağılıma sahip olması gibi bir kısıt yoktur. Uzaklık ölçüsü için genel formül ise +6 , _ ! 7 _ è A_ 7 _ 0 (4.6) biçimindedir. Çizelge 4.1 Bazı uzaklık ölçüleri Uzaklık Ölçüsü Fonksiyon +6 , ! Æ∑¯B#( 7 ­ ) Ç 6 #⁄6 Öklid Uzaklığı Minkowski Uzaklığı Maksimum Uzaklık Mahalanobis Uzaklığı +? , ! å∑¯B#l 7 ­ l ç ? # ⁄? , K0 +U , ! maks l 7 ­ l, ! 1, 2, … , + + , ! æ 7 è A 7 (4.6) eşitliğinde A_ , ¦ ! 1, 2, … , norm matrisi, pozitif tanımlı simetrik bir matristir. Bulanık kümeleme algoritmalarında diğer başka uzaklık ölçüleri de kullanılabilir. Çizelge 4.1’de uzaklık ölçülerinin bazılarından oluşan bir liste verilmiştir (Celikyilmaz 78 ve Türksen 2009). BCO kümeleme algoritması, özel olarak Öklid uzaklığını kullanmaktadır. Buna bağlı olarak, A_ norm matrisi birim matrise eşit olarak seçilir (A ! I) çünkü girdi matrisi ortalaması 0 ve varyansı 1 olacak biçimde ölçeklendirilir. (4.3) – (4.6) denklemlerinden BCO kümeleme algoritmasının, optimum çözüme amaç fonksiyonunun minimumu ile ulaşan bir kısıtlı optimizasyon problemi olduğu söylenilir. Buna göre, BCO kümeleme algoritması bir optimizasyon problemi olarak; min ýX; U, V ! ∑_B# ∑%B#(_, ) +6 7 _ > 0 S _, S 1 , Jc, ¦ ∑_B# _, ! 1 , Jc K 0 0 N ∑%B# _, N , J¦ K 0 (4.7) matematiksel modeli ile tanımlanır (Bezdek 1981). Bu problem Lagrange Çarpanları yöntemi ile çözülebilir (Khuri 2003) ve böylece model bir amaç fonksiyonu ile kısıtsız optimizasyon problemi halini alır. Eşitlik kısıtlı bir optimizasyon problemi elde etmek amacıyla ilk olarak; (4.7) ile verilen primal problem Lagrange çarpanları () olarak bilinen parametreler yardımıyla kısıtsız problem biçimine dönüştürülür: maks U, V ! ∑_B# ∑%B#(_, ) +6 _ , 7 (∑_B# _, 7 1). > (4.8) Lagrange Çarpanları yöntemine göre Lagrange fonksiyonunun primal parametrelere göre enküçüklenmesi ve dual parametrelere göre ise enbüyüklenmesi gerekir. Lagrange fonksiyonunun orijinal model parametrelerine göre türevinde U ve V yok edilmelidir. Buna göre, (4.8) ile verilen amaç fonksiyonunun, küme merkezleri (V) ve üyelik değerlerine (U) göre türevi alınırsa optimum üyelik değerleri ve küme merkezleri, Õ ¯[ · , \ Õ Õ ¯[ · , \ _, = ∑{B# a # (4.9) 79 _ = a ∑ ·Õ[,· \ · ∑ ·Õ[,· \ , J¦ ! 1, 2, … , (4.10) biçiminde belirlenir (Celikyilmaz ve Türksen 2009). (4.9) denkleminde _ a# , q 7 1. iterasyonda ¦. küme için elde edilen küme merkez vektörünü göstermektedir. (4.9) ve (4.10) denklemlerinde birlikte görülen _, ise q. iterasyonda hesaplanılan optimum a üyelik değerlerini ifade etmektedir. Bu işlemlere göre üyelik değerleri ve küme merkezlerinin birbirlerine bağımlı olduğu görülmektedir. Bundan dolayı; Bezdek (1981), üyelik değerlerinin ve küme merkezlerinin belirlenmesi için bir iteratif formül önermiştir. Buna göre her bir q iterasyonunda, ý a amaç fonksiyonu, ýa ! ∑_B# ∑%B#[_, \ +6 [ , _ \ K 0 a > a (4.11) ile belirlenir. BCO algoritması, belirli bir iterasyon sonunda veya iki en yakın kümenin ayrılma büyüklüğünün gibi bir değerden küçük olması biçiminde tanımlanan bir durdurma kuralına göre son bulur. BCO kümeleme algoritması iteratif olarak aşağıda verilmiştir (Celikyilmaz ve Türksen 2009). þ ! .# , 6 , … , % 1 bir veri vektörü; c, küme sayısı; m, bulanıklık derecesi ve , bir durdurma sabiti (burada maksimum iterasyon sayısı olarak alınmıştır) olarak tanımlansın. Ayrıca başlangıçta, U parçalanma matrisine ilişkin üyelik değerleri de rasgele seçilsin. Adım 1. Başlangıç parçalanma matrisinin üyelik değerleri kullanılarak (4.10) ile verilen denklem yardımıyla başlangıç küme merkezleri belirlenir. 80 Adım 2. İterasyon, q ! 1’den maksimum iterasyon sayısına kadar sürecek biçimde başlatılır. a# Adım 2.1. girdi veri vektörünü ve q 7 1. iterasyonda elde edilen _ küme merkezlerini kullanarak, (4.9) ile verilen denklem yardımıyla, ¦. kümede her bir c girdi veri nesnesinin üyelik değeri, _, hesaplanır. a Adım 2.2. _, üyelik değeri ve girdisi kullanılarak, (4.10) ile verilen küme a merkez fonksiyonu yardımıyla, q iterasyonunda her bir ¦ kümesinin küme merkezleri hesaplanılır. Adım 2.3. _ 7 _ a a# S gibi bir durdurma kuralı sağlandığı zaman durulur. Sağlanmaz ise Adım 2’ye dönülür. BCO kümeleme algoritmasına bulanıklık derecesinin (Ô) etkisi, (4.9) ile verilen üyelik değeri hesaplama denkleminin sınırlar için limitleri alınarak aşağıdaki gibi incelenilebilir: lim>CU _, = lim>CU ∑!!1 1 71 Ô71 + (c , ¦ ) " = 2 + (c , ! ) 2 # , J¦, ! ! 1, 2, … , . (4.12) Ayrıca, hiçbir küme merkezinin birbirinin aynı olmadığı varsayımı altında, lim>C# _, ! # 1, +6 , _ N +6 , { ; J¦, ! ! 1, 2, … , ; ¦ 3 ! 0, +cğp p!p+p 4 (4.13) olarak elde edilir. Buna göre Ô değeri arttıkça; _, üyelik değeri sıfıra yakınsayacaktır. Burada Ô parametresi kümelerin örtüşme derecesini göstermesinden dolayı, Ô değeri 81 büyüdükçe elde edilen sonuçlar daha bulanık ve kümelerdeki örtüşme daha fazla olacaktır. Ô küçüldüğünde ise bulanık kümeleme sonuçları bir kesin kümeleme modeline daha yakın olacaktır. Ô ! 1 olması durumu kümeler arasında hiçbir şekilde örtüşmenin olmadığı bir kesin kümeleme yöntemi ile aynıdır ve bütün üyelik değerleri _, .0, 11’dir. Turksen (1999) tarafından yapılan çalışmada sistem modelleme analizinde Ô ! 2 olarak kullanılmasının uygun olduğu savunulmuştur. Optimum küme sayısının belirlenmesinde ise bir Küme Geçerlilik İndeksi kullanılması önem arz etmektedir. Çizelge 4.2’de literatürde mevcut bazı önemli küme geçerlilik göstergeleri sunulmuştur. Genel olarak, bu küme geçerlilik göstergelerinden birisini minimum yapan değeri, uygun küme sayısı olarak değerlendirilir (Celikyilmaz ve Türksen 2009). Çizelge 4.2 Bazı önemli küme geçerlilik göstergeleri 6 ⁄ %E& ! ∑%B# ∑_B# _, Bezdek’in Parçalanma Katsayısı Bezdek’in Parçalanma Entropisi Xie – Beni İndeksi Fukuyama – Sugeno İndeksi %E¼ ! %()r ! 6 6 å∑%B# ∑_B# _, log | (_, )ç' â¿Õ,…,*k∑ ·Õ ,· µ · µ m %. 1 ,¦3! > µ 7 _ µ 7 µ_ 7 -µ %+, ! ∑%B# ∑_B# _, - ! (1⁄∑%B# ∑_B# (_, ) ) ∑%B# ∑_B#(_, ) > > BCO kümeleme algoritması (Bezdek 1981), standart bir bulanık kümeleme algoritması olarak değerlendirilir. Literatürde mevcut BCO kümeleme algoritmasının genişlemeleri üzerine yapılan çalışmalar birçok farklı amaç doğrultusunda önerilmişlerdir. Bu yöntem aynı zamanda geliştirilmiş kümeleme algoritmasının da temelini oluşturmaktadır. 82 4.2 Bulanık Regresyon Fonksiyonları Klasik bulanık sistem modellerinde uzman bilgisi, bulanık kümeler ile sözel nitelikleri tanımlamak üzere kullanılır. Fakat bu yöntemler öznel olma ve genelleştirilememe gibi eksikliklere sahiptir. Uzman bilgi müdahalesini azaltmak üzere kendi kendine öğrenen ve daha nesnel bulanık sistem modelleri geliştirilmiştir. Bu yöntemlerde bulanık kümeler, bulanık kümeleme gibi bir optimizasyon algoritması ile veriden öğrenirler. Son yıllarda yapılan çalışmalarda; sinir-bulanık algoritmalardan ve genetik bulanık sistemler gibi daha karmaşık optimizasyon algoritmalarından performans artırmak üzere faydalanılmaktadır. Klasik bulanık sistem modelleme yaklaşımları, bulanık sistemleri etkinlik açısından geliştirse de göz ardı edilmemesi gereken çeşitli sorunlara sahiptir (Türkşen ve Celikyilmaz 2006). Bulanık kural tabanlarına dayanan bu standart bulanık sistemlere ilişkin yöntemlerdeki bazı zorluklar aşağıda verilmiştir: • Öncül ve soncul üyelik fonksiyonlarının ve parametrelerinin tanımlanması • Öncüllerin ve soncullara ilişkin bileşke işlemi sürecinde en uygun bileşke işlemcisinin seçiminin (t-norm, t-conorm vd.) tanımlanması • Kuralların temsili ve bu kurallarla çıkarım yapmak amacıyla “h”, “h.R”, “h” sözel bağlaçlarına ilişkin belirsizliğin çözümlenmesi için gerektirme işlemci türünün tanımlanması • Durulaştırma yönteminin seçimi Yıllar içerisinde, belirtilen bu sorunlar incelenmiş ve uzman müdahalelerini azaltan birçok farklı yöntem sistem model parametrelerini eniyilemek üzere kullanılmıştır. Buna göre, bu kesimde bulanık kural tabanlı yaklaşımlar yerine Türkşen (2008) çalışmasında önerilmiş olan Bulanık Regresyon Fonksiyonları (BRF) yaklaşımı ele alınacaktır. Bu yöntemde amaç; bulanıklaştırma, öncüllerin ve sonculların bileşkesi (aggregation), gerektirme, öncül ve soncul üyelik fonksiyonlarının eniyilenmesi gibi bulanık işlemlerin sayısının indirgenmesidir. BRF yöntemi, bu bahsedilen birçok 83 işlemciyi kullanmaması dolayısıyla bulanık kural tabanlı sistemlerden daha az karmaşıktır. Tip-1 BRF çözümlemesi sade bir biçimde aşağıda anlatılmıştır: • þ / §¯ olmak üzere + boyutlu girdi uzayı; _ , ¦ ! 1, 2, … , küme merkezleri ile temsil edilen örtüşen kümeye parçalanır. • Belirlenen her bir bölgeye (kümeye), _ : _ C § olacak biçimde bir lokal bulanık model atanır. Sistem, þ girdisi için her bir bulanık modelden bir bulanık çıktı belirler ve sonra bu çıktılar, girdi vektörünün kümelere ait olma derecesine (üyelik derecesi) bağlı olarak ağırlıklandırılır. Burada daha az sayıda bulanık işlemci gerektiren ve iyi kestirim performansına sahip bir bulanık sistem elde etmek amacıyla sağlanması gereken iki koşulun açıklanması gerekmektedir (Celikyilmaz ve Türksen 2009). (i) Parçalanma: Parçalanma, çıkarım sürecinde lokal ilişkileri mümkün olduğunca doğru açıklayan lokal fonksiyonları tanımlamalıdır. Fakat gerçek hayat uygulamalarına ilişkin veri setlerinde, değişkenler arasında yüksek dereceden ilişki ve/veya etkileşim ile karşılaşılmasından dolayı değişkenlerin ayrıştırılması genellikle mümkün olamamaktadır. Bu nedenle, BRF sistemlerinde kuralların öncül kısımları, etkileşimli üyelik değerleri ile temsil edilerek değişkenler birlikte çözümlenir. Örnek olarak; değişkenleri {“enlem” ve “boylam”} yerine “konum” biçiminde veya benzer olarak {“uzaklık” ve “yolculuk zamanı”} yerine “hız” biçiminde ele almak daha uygun olacaktır. (ii) Lokal modellerin karmaşıklığı: Lokal modellerin gerçek lokal ilişkilere yakın olması ve iyi bir genelleme kapasitesine sahip olması amacıyla model kestirim performansı artırılmalıdır. Ayrıca lokal fonksiyonlar aşırı uyuma (over-fitting) neden olacak biçimde karmaşık da olmamalıdır. Birçok durumda basit modellerin küçük bir kümesi çıkarım için yeterli olmaktadır. Bu yöntemde, bulanık kümeleme algoritması, BRF yaklaşımında sistem modellerini biçimlendirmek ve gizli lokal yapıları tanımlamak üzere uygulanmıştır. BRF, üyelik değerlerinin bulanık kümelemeden elde edilmesi ve lokal bulanık ilişkileri açıklamak 84 üzere kullanılmasından dolayı özgün bir yaklaşımdır. Bulanık sistem modelleme çalışmaları içerisinde değerlendirildiğinde, bu yaklaşımda üyelik değerleri farklı bir biçimde kullanılmaktadır. Bu doğrultuda; kümeleme algoritmaları, lokal bulanık regresyon fonksiyonlarının kestirim performansını artırmak amacıyla, geliştirilmiş üyelik değerlerini bulmalıdır. Bundan dolayı, BRF sistem modellerinin performansı, girdi/çıktı davranışının lokal bulanık regresyon fonksiyonları ile açıklanabilir olmasına bağlıdır. Bu da aşağıda verilen üçüncü koşulun sağlanmasını gerektirmektedir. (iii) Üyelik değerlerinin davranışı: BRF ile sistem modellemede, her bir kümede çıktı değişkeninin davranışını açıklamak üzere nesnelerin kümelere olan üyelik dereceleri hesaplanır. Bu nedenle, geliştirilmiş üyelik değerleri, geliştirilmiş bulanık kümeleme algoritması ile elde edilmelidir. Her bir modelin kestirim gücünün artırılması, uzman bulanık kümeleme algoritmasının kullanımı ile mümkündür. Bulanık Fonksiyonlar ile Çıkarım Girdi Değişkenleri ve Üyelik Değeri Yapı Tanımlama Bulanık Fonksiyonlar ile Bulanık Sistem Modelleme Bulanık Fonksiyonlar ile Kural Üretimi Sistem Tanımlama ve Eğitim Motoru Parametre Tanımlama Çıkarım Motoru Şekil 4.1 Bulanık regresyon fonksiyonları yaklaşımı ile bulanık sistem modelleme BRF sistem modelleri ile bulanık kural tabanlı yapılar veya bunların genişlemelerine ilişkin klasik bulanık sistem modelleri, Şekil 4.1’de gösterildiği gibi benzer sistem tasarım adımlarına sahiptir. Ancak bu modeller, tanımlı her bir örüntü ve çıkarım yöntemleri için bulanık modellerin (kuralların) geliştirilmesi olarak adlandırılan yapı tanımlama teknolojilerine göre farklılaşmaktadır. BRF yaklaşımına göre; veriler ilk olarak örtüşen çeşitli bulanık kümelere ayrılır. Bu kümelerin her biri farklı karar 85 kuralını tanımlamak üzere kullanılır. Başlangıçta bu yöntemde, bulanık parçalanmaları belirlemek üzere BCO kümeleme algoritması kullanılmaktaydı. BRF yaklaşımındaki yenilik; üyelik değerleri ve bunların dönüşümlerinin ilave bulanık tanımlayıcılar olarak kullanılmasıyla nesneler arasındaki belirsizliğin daha açık bir biçimde ortaya konulmasıdır. Burada üyelik değerleri ve dönüşümleri, orijinal girdi değişkenleri ile birlikte girdi-çıktı verilerinin lokal ilişkilerini tahmin etmek için ilave kestirimciler olarak kullanılmaktadır. Buna göre, her bir küme için farklı veri setlerinin yapısını çözümlemek üzere üyelik değerleri ve bunların mümkün (kullanıcı tanımlı) dönüşümlerinin listesi orijinal veri setine yeni kestirimciler olarak eklenilir. Lokal fonksiyonlar, her bir kümeye ilişkin veri setlerini kullanarak lokal girdi-çıktı ilişkilerini açıklamak için belirlenir. Bu yaklaşım ilk olarak Türkşen (2008) tarafından önerilmiş ve “Bulanık Regresyon Fonksiyonları” olarak adlandırılmıştır. Benzerliklerin vektör nesneleri arasındaki uzaklıklara bağlı olarak açıklandığı sistem modelleme yaklaşımlarında üyelik değerleri önemli rol oynamaktadır (Çelikyılmaz ve Türkşen 2007). Türkşen ve Celikyilmaz (2006) tarafından yapılan çalışmada da üyelik değerlerinin bulanık modeller üzerinde öneme sahip olduğu vurgulanmıştır. BRF tekniğinin, klasik bulanık kural tabanlı yaklaşımlara göre sistem çıktısı ve model çıktısı arasındaki hatayı enküçükleyebilmesi açısından daha iyi sonuçlar verdiği belirlenmiştir. Bu sistemler, yapı tanımlamada ise BCO kümeleme algoritmasını (Bezdek 1981) uygulamaktadır. 4.2.1 Bulanık regresyon fonksiyonları ile yapı tanımlama BRF sistemlerinin, eğitim ve çıkarım olmak üzere iki farklı bileşeni vardır. Eğitim sürecinde, tüm veri seti içerisinden rasgele seçilen bir eğitim veri seti ile sistem modeli çözümlenir. Model parametreleri, geçerlilik veri seti olarak adlandırılan başka bir örnek veri seti yardımıyla eniyilenir. Çıkarım algoritmasında ise yine tüm veri seti içerisinden rasgele seçilen bir test veri seti kullanılarak model performansı ölçülür. Böylece veriler üç parçaya bölünmüş olur. 86 Bu çalışmada çoklu girdili – tek çıktılı problemler ele alınacaktır. Buna göre, 0, ! .# , # , 6 , 6 , … , % , % 1 girdi-çıktı veri setini göstermek üzere × , £ §¯# ise eğitim veri setinden herhangi bir veri noktası (vektör) olsun. Burada her (+ 1) boyutlu veri noktası; ! å±#, ±6, … ±¯, ç è §¯ , c ! 1, 2, … , veri vektörü ve § çıktısından oluşmaktadır. Ayrıca bu yaklaşımda 0, ( ì + 1) boyutlu girdi-çıktı matrisi; , veri vektörlerinin sayısı; , küme sayısı ve Ô, bulanık c-ortalama kümeleme yöntemine göre bulanıklık derecesi (örtüşme derecesi) olarak tanımlanır. _, i0, 1j, k. kümede c. verinin üyelik derecesini temsil etmek üzere; eğitim algoritmasına ilişkin parametrelerin listesi, • Sistem modelinde küme sayısı , tarafından belirlenen bir değer) • .2, 3, … , 1⁄11. (0 N 1 N kullanıcı Sistem modelinin bulanıklık derecesi Ô, Ô i1.1, ∞ • Modellenen sistemin tipi (doğrusal veya doğrusal olmayan) • Fonksiyon tahminlerine ilişkin ilave başlangıç parametreleri biçiminde verilir (Celikyilmaz ve Türksen 2009). Buna göre, standart BCO kümeleme algoritması kullanılarak Tip-1 BRF yaklaşımı için geliştirilmiş eğitim algoritması aşağıda verilmiştir (Celikyilmaz ve Türksen 2009): Adım 1. Ô 1.1 (bulanıklık derecesi), K 1 (küme sayısı) ve 2 (durdurma eşiği) olmak üzere BCO kümeleme yöntemi için parametreler seçilir. Adım 2. 0, veri seti kullanılarak BCO’ya göre , küme merkezleri ve etkileşimli (girdi-çıktı) üyelik değerleri, _, 5 = 3∑{B# 4 +_, 5+ 6 {, 6' ># 7 # +_, ! µ , 7 , µ; c ! 1, 2, … , ; ¦ ! 1, 2, … , 87 (4.14) (4.15) biçiminde bulunur. Adım 3. Girdi uzayına ilişkin üyelik değerleri, + _, = 3∑{B# 4 _, 5+ 6 {, 6' ># 7 # +_, ! µ 7 _ µ; c ! 1, 2, … , ; ¦ ! 1, 2, … , (4.16) (4.17) yardımıyla belirlenir. Adım 4. Her ¦ kümesi için; Adım 4.1. Girdilere ilişkin _, üyelik değerleri ve bunların §¯> uzayındaki istenilen dönüşümleri orijinal girdi ile birleştirilir. Böylece her ¦ kümesi için §¯¯> nitelik uzayı üzerinde tanımlı Γ_ , _ matrisleri elde edilir. 9_ ) bulanık fonksiyonlarına ilişkin 9_ ! k 9- , 9# , … , 9¯¯> m Adım 4.2. _ (Γ_ , parametreleri tahmin edilir. Verilen bu algoritma, , üyelik değerlerini ve _ , , ¦ ! 1, 2, … , küme merkezlerini üretmek üzere; × , , c ! 1, 2, … , girdi-çıktı verisi üzerinde standart BCO kümeleme yöntemini (Bezdek 1981) uygulamaktadır. Algoritmanın 3. adımında girdi uzayına karşılık gelen _ üyelik değerleri ve _ küme merkezleri elde edilmektedir. Adım 4’de, _ üyelik değerleri ve/veya dönüşümleri ilave boyut olarak kullanılarak her ¦ kümesi için farklı bir veri seti oluşturulur. Böylece her bir veri vektörü + boyutlu orijinal girdi değişkenleri, üyelik değerleri ve üyelik değerlerinin (+Ô) mümkün dönüşümlerinden oluşan bir matris olan Γ_, §¯¯> matrisi ile temsil edilir. Burada, nitelik uzayı boyutu (+ +Ô, kullanıcı tarafından belirlenir ve 88 optimum boyut ise kapsamlı arama yöntemine dayalı olarak araştırılabilir. Bunun sonucunda da optimum regresyon fonksiyon parametreleri araştırılır. BRF yaklaşımına göre; + girdili – tek çıktılı bir model için +Ô ! 1 olacak biçimde bir modeli ele alalım. Burada üyelik değerlerinin sadece kendisi modele ilave bir boyut olarak eklensin. Buna göre her bir küme için yeni girdi matrisi, Γ_ , _ _,# _,6 Γ_ , _ ! _,? ±#,# ±6,# ±?,# ±#,6 ±6,6 ±?,6 … … … ±#,¯ ±6,¯ , ±?,¯ ¦ ! 1, 2, … , c ! 1, 2, … , 0NS _, K È 7 kesim §¯# , (4.18) biçiminde oluşturulur. Eşitlik (4.18)’de görüldüğü üzere, _, K È–kesim, ¦ ! 1, 2, … , ; c ! 1, 2, … , ; N (4.19) kısıtı ile È–kesimin farklı seçimleri için farklı bir alt küme elde edilebilmektedir. Burada È–kesimK 0’ın kullanılmasıyla birlikte küme merkezlerinden uzak olan ve karar yüzeylerini etkilemeyen vektörler dikkate alınmamış olur. Uygulamalardan elde edilen sonuçlara göre bir kümedeki gözlem sayısı ⁄ ’nin altında kalıyorsa È–kesim! 0 olarak kullanılır (Celikyilmaz ve Türksen 2009). BRF yaklaşımının en önemli özelliği, girdi ve çıktı değişkenleri arasındaki ilişkinin orijinal girdi değişkenleri ile açıklamanın yetersiz olduğu durumlarda; üyelik değerleri ve dönüşümleri ile belirlenen ilave bilgilere de modelde yer verilmesidir. 9_ ) Algoritmada, 4.2 ile verilen adımda, her ¦, ¦ ! 1, 2, … , kümesi için bir _ (Γ_ , regresyon modeli tanımlanır. Bu fonksiyonlar, Tip-1 Bulanık Regresyon Fonksiyonları olarak adlandırılır (Türkşen 2008, Çelikyılmaz ve Türkşen 2007). Girdilere eklenen üyelik değerlerinin çeşitli formları ile birlikte belirlenen modelin, doğrusal veya doğrusal olmama durumlarına göre model parametreleri tahmin edilebilir. Ô bulanıklık 89 > 6 derecesini göstermek üzere _, , _, , p±(_, ), !((1 7 _, )'_, ) gibi matematiksel dönüşümler kullanılabilmektedir. Celikyilmaz ve Türksen (2009) tarafından yapılan çalışmada, üyelik değerlerinin üstel ve çeşitli logaritmik dönüşümlerinin diğerlerine göre model performansını daha çok artırdığı belirtilmektedir. Burada, regresyon model parametrelerinin tahmini, en küçük kareler yöntemi gibi bir regresyon çözümlemesinin kullanımı ile gerçekleştirilir. Bu çalışmada, her bir kümede bulanık regresyon fonksiyonu katsayılarının tahmininde, en küçük kareler regresyon çözümlemesinin yanı sıra, farklı çekirdek fonksiyonlarının seçimi ile Destek Vektör Regresyon (DVR) çözümlemesinden de faydalanılacaktır. 9_,- , 9_,# , … , 9_,¯¯> m ile ¦ kümesi için belirli _ (Γ_ , 9_ ) bulanık 9_ ! k Burada, regresyon fonksiyonunun parametreleri ifade edilmektedir. Buna göre, her bir kümenin (¦ ! 1, 2, … , ) bulanık regresyon fonksiyonu için DVR optimizasyon modeli, (3.57) programlama problemi tekrar düzenlenerek, Amaç fonksiyonu: maks_ ' ! maksÌr r r 7 6 ∑%,B#(È_, 7 È_, )(È_, 7 È_, ) ¦ [Γ( , _, ), Γ( , _, )\ # : § r r 7 ∑%B#(È_, È_, ) ∑%B#(È_, 7 È_, ) # (4.20) Kısıtlar: r ∑%B#(È_, 7 È_, )!0 r È_, , È_, Î Æ0, %Ç biçiminde oluşturulur. (4.20) probleminde DVR optimizasyon algoritması, destek vektörleri ve karşılık gelen r (È_, , È_, ) Lagrange çarpanlarını belirlemek üzere her bir ¦ kümesi için ayrı ayrı uygulanır. DVR çözümlemesinin uygulanmasından önce her bir kümeye düşen eğitim veri seti içerisinden bazı veri vektörleri, (4.19) kriterine bağlı olarak yani, _, K È– 90 kesim olacak biçimde çıkarılabilir. Bu durumda, her bir kümedeki vektörlerin toplam sayısı, eğitim vektörlerinin toplam sayısından az olur. DVR, fonksiyon parametrelerinin tahmini için kullanıldığında, her bir bulanık regresyon fonksiyonu, r _ Γ¢ ! ∑%B#(È_, 7 È_, ) ¦ [Γ( , _, ), Γ, _ \ ­_ (4.21) olarak ifade edilir. 4.2.2 Bulanık regresyon fonksiyonları ile çıkarım BRF ile çıkarım yöntemi, yeni örnekler için çıktı değerlerinin kestiriminde, önceden seçilmiş eğitim örneklerini kullanır. Standart kapsamlı arama yöntemlerinde optimum modelin parametreleri, parametrelerin farklı değerleri için belirli bir metodolojinin iteratif olarak uygulanmasıyla aranır. BRF yaklaşımına göre sistem modellerinin öğrenilmesi için yapı tanımlaması, eğitim veri seti üzerinden gerçekleştirilmektedir. Doğrulama veya test verisi gibi veri setleri kullanılarak gerçekleştirilen çıkarım işlemi, yapı tanımlama esnasında belirlenen modellerin performansının hesaplanması için kullanılır. Doğrulama veri seti, yapı tanımlama yönteminin bir parçası olan çapraz doğrulama (cross validation) esnasında model parametrelerinin eniyilenmesi amacıyla kullanılır. Optimum modele ise kapsamlı arama sonucunda ulaşılır. Optimum modelin seçimi, çıkarım metodolojisinden elde edilen en iyi performansa dayalıdır. Daha sonra, optimum modelin parametreleri kullanılarak, test veri seti ile modelin genelleme kapasitesi test edilir. X ; , + ì + boyutlu girdi matrisi; +, doğrulama veri vektörlerinin toplam sayısı; , toplam küme sayısı; Ô, BCO kümeleme yönteminde kullanılan bulanıklık derecesi olmak üzere, ; 1: Doğrulama veri seti þ ; ! .#; , 6; , … , %¯ ; ; ; ; ! å±#, ±6, … ±¯, ç ; : Çıktı değişkeni è §¯ : + boyutlu girdi vektörü, c ! 1, 2, … , 91 biçiminde ifade edilsin. Diğer taraftan, X a=}a , q ì + boyutlu girdi matrisi; q, test veri vektörlerinin toplam sayısını göstermek üzere, a=}a 1: þ a=}a ! .#a=}a , 6a=}a , … , %a Test veri seti è a=}a a=}a a=}a ±6, … ±¯, ç a=}a ! å±#, a=}a : Çıktı değişkeni §¯ : + boyutlu girdi vektörü, c ! 1, 2, … , q olarak ifade edilsin. BRF çıkarım mekanizmasında, model tahmininden kesin çıktı değerlerinin kestirimi gerçekleştirilir. Kestirilen bu çıktı değerleri, karşılık gelen gerçek çıktı değerleriyle birlikte modelin performansının hesaplanması amacıyla kullanılır. Standart BCO kümeleme yöntemi kullanılarak, Tip-1 BRF yaklaşımının çıkarım algoritması aşağıda sunulmuştur (Celikyilmaz ve Türksen 2009). Adım 1. ; , c ! 1, 2, … , kullanılarak her bir doğrulama örneği için girdi üyelik değerleri ; J #y_y _, #yy%; !< ¯ ∑{B# ,· " ¯= = ,· 6⁄># # > , ¦ ! 1, 2, … , ; +_, ! µ; 7 _ µ (4.22) (4.23) ile belirlenir. ; Adım 2. Doğrulama verisinin üyelik değerleri, _, ve bunların çeşitli dönüşümleri orijinal doğrulama verisi ile birleştirilir. Böylece her ¦ kümesi için §¯¯> nitelik uzayı üzerinde tanımlı Γ_ ; , _; matrisleri elde edilir. Adım 3. Belirlenmiş olan BRF parametreleri kullanılarak ve (4.21) ile verilen modelden 9_ ) kestirilir. faydalanarak yeni veri vektörlerinin çıktı değerleri, ,_, ! (Γ_, , 92 Adım 4. Her bir kümede, kestirilen bulanık çıktı değerleri karşılık gelen üyelik değerleri ile ağırlıklandırılır ve doğrulama veri örnekleri için tek çıktı değeri, , ! ∑*Õ ¶,,· ,· ∑*Õ ,· , ¦ ! 1, 2, … , ; c ! 1, 2, … , (4.24) biçiminde hesaplanır. Tip-1 BRF sisteminin çıkarım algoritmasının ilk adımında bulanıklaştırma işlemi gerçekleştirilir. Burada, her bir ; doğrulama veri örneğinin üyelik değeri, küme merkezleri kullanılarak hesaplanır. ! .# , … , 1 küme merkezleri de belirli bir Ô ve değeri için standart BCO kümeleme algoritması ile elde edilir. Bu işlem, öğrenme esnasında her bir kümedeki test örneklerinin üyelik değerlerinin belirlenmesi olarak ifade edilir. Bu üyelik değerleri ise orijinal doğrulama girdi matrisine ilave boyutlar olarak kullanılır. Böylece, her ¦ kümesi için §¯¯> nitelik uzayı üzerinde tanımlı, Γ_ ; , _; matrisleri elde edilmiş olur. Eğitim algoritması sonucunda 9_ ), ¦ ! 1, 2, … , ; doğrulama belirlenmiş olan bulanık regresyon fonksiyonları, (Γ_ , örnekleri için çıktı değerlerini kestirmek üzere kullanılır. Buna göre, mevcut örnekler için her bir kümeden bir ,_ ! Γ_ bulanık model çıktısı elde edilir. Kesin çıktının belirlenmesi amacıyla ise her bir bulanık çıktı, üyelik değerleriyle, eşitlik (4.24)’deki bulanık ağırlıklı ortalama formülüne göre ağırlıklandırılır (Celikyilmaz ve Türksen 2009). 4.3 Sigorta Hasar Tutarlarının Kestiriminde Bulanık Regresyon Fonksiyonları Yaklaşımı Çalışmanın bu kesiminde, otomobil maddi zarar sigortalama sürecinde, hasar tutarlarının kestirimi için Türkşen (2008), Çelikyılmaz ve Türkşen (2007) tarafından önerilen, destek vektör makineleri ve en küçük kareler prensibi ile BRF yaklaşımının bir uygulaması gerçekleştirilecektir. 93 Uygulamada kullanılan veriler, Türkiye’de faaliyet gösteren bir sigorta şirketinden alınmıştır. Bu amaçla, 01 Ocak 2007 – 31 Aralık 2007 tarihlerinde, 360 adet otomobil maddi zarar sigorta poliçesine ilişkin veriler derlenmiştir. BRF yaklaşımına göre veri seti, yapı tanımlama ve çıkarım aşamasında kullanılmak üzere; eğitim, doğrulama ve test biçiminde toplam 3 parçaya ayrılmıştır. Modelde yer alan değişkenlerin listesi Çizelge 4.3 ile verilmiştir. Burada hasarsızlık indirimi, sigorta şirketinin mevcut politikası gereği 5 basamaktan oluşmaktadır. Sigortalı aracın poliçe süresindeki hasar durumuna göre, bir sonraki poliçe döneminde uygulanacak hasarsızlık indirimi oranları; 1. basamak için %30, 2. basamak için %40, 3. basamak için %50, 4. basamak için %60, 5. basamak için %65 biçimindedir. Çizelge 4.3 Modelde yer alan girdi ve çıktı değişkenleri Girdi Değişkenleri þ# þ6 þÍ þ þÛ Çıktı Değişkeni Hasarsızlık İndirim Düzeyi Hasar Adedi Yürürlük Sigorta Bedeli İl Trafik Yoğunluğu Araç Yaşı Hasar Tutarı Çizelge 4.4 Hasar tutarlarının dağılımı ve betimleyici istatistikler Hasar Tutarı Toplam Tutar İçindeki Pay (%) Ortalama Medyan Std. Sapma 8.9 15.76 0 452.56 0 0 0.8 8.10 Frekans (%) 0 84.4 1000, 2000j 3.1 0, 1000j 2000, 3000j K 3000 Toplam 2.8 100 0 468.00 188.43 2489.45 369.45 15.68 1309.94 1258.00 60.46 5555.36 4679.50 100 2480.06 255.24 0 222.99 2457.54 1035.95 Çizelge 4.4 ile verilen hasar tutarlarının dağılımına ilişkin frekanslar incelendiğinde; hasar tutarı sıfır olan poliçe sahipleri, toplam bireyler içerisinde %84.4 gibi bir oran ile 94 temsil edilmektedir. Bu sonuç, hasar tutarlarının çarpık bir dağılıma sahip olduğunu göstermektedir. Hasar tutarlarının %2.8’i ise 3000 TL’nin üzerindedir. Burada önemli olan bir diğer husus ise bu hasarların toplam hasar tutarı içindeki ağırlığının %60.46 olarak gerçekleşmesidir. Çizelge 4.5 Küme geçerlilik göstergelerine göre optimum küme sayısı ve bulanıklık derecesi Küme Geçerlilik Göstergeleri Bezdek’in Parçalanma Katsayısı Bulanıklık Derecesi (?r ) 2.2 Küme Sayısı (@r ) 4 1.7 3 2.1 Xie – Beni İndeksi (XB*) Geliştirilmiş Bulanık Kümeleme (IFC) 3 Şekil 4.2 Küme geçerlilik göstergelerinin küme sayılarına göre değişimi 95 BRF yaklaşımının ilk aşamasında; BCO kümeleme algoritması kullanılarak Çizelge 4.3’de verilen risk faktörlerine göre kümeleme işlemi gerçekleştirilir. Uygun küme sayısının belirlenmesinde; Bezdek’in Parçalanma Katsayısı, Xie – Beni (XB*) İndeksi ve Celikyilmaz ve Turksen (2008) tarafından önerilen Geliştirilmiş Bulanık Kümeleme (IFC) yöntemlerinden yararlanılmıştır. Belirtilen küme geçerlilik göstergelerinin kullanılması sonucu elde edilen optimum küme sayıları ve bulanıklık dereceleri Çizelge 4.5’te gösterildiği gibi elde edilmiştir. Küme geçerlilik göstergelerinin küme sayılarına göre değişimi ise Şekil 4.2’de gösterilmiştir. BCO kümeleme yönteminin kullanılarak poliçe sahiplerini çeşitli risk gruplarına ayrılmasının ardından, her bir risk grubu için bulanık regresyon fonksiyonlarının tahmin edilmesi gerekmektedir. Bulanık regresyon fonksiyonlarında katsayıların tahmininde, Türkşen (2008), Çelikyılmaz ve Türkşen (2007) çalışmalarında olduğu gibi en küçük kareler yönteminden ve klasik destek vektör regresyon çözümlemesinden yararlanılmıştır. BCO kümeleme algoritması sonucunda elde edilen üyelik değerleri ve > 6 _, , _, , p±(_, ), !((1 7 _, )'_, ) gibi matematiksel dönüşümleri, orijinal girdi matrisine ilave boyutlar olarak kullanılmıştır. Celikyilmaz ve Türksen (2009) tarafından yapılan çalışmada vurgulandığı gibi bu işlem, lokal bulanık regresyon fonksiyonlarının kestirim performansının artırılması amacıyla gerçekleştirilmiştir. Küme sayılarının ve bulanıklık derecelerinin farklı değerlerine göre oluşturulan bulanık regresyon fonksiyonları için en küçük kareler regresyon çözümlemesi sonucunda elde edilen bulgular Çizelge 4.6 ile sunulmuştur. Buna göre, optimum küme sayısı r ! 3 ve bulanıklık derecesi Ôr ! 1.7 olarak seçildiğinde hata kareler ortalaması ve belirleme katsayılarına (& 6 ) göre daha iyi bir model tahmine ulaşıldığı görülmüştür. DVR çözümlemesinde, çekirdek fonksiyonunun seçimine bağlı olarak doğrusal olmayan regresyon için farklı öğrenme makineleri de oluşturulabilmektedir. Çizelge 4.7’de farklı çekirdek fonksiyonlarının kullanımı ile doğrusal ve doğrusal olmayan DVR çözümlemesine ilişkin bulgular sunulmuştur. Hata kareler ortalaması (HKO) ve belirleme katsayıları (& 6 ) incelendiğinde; r ! 3, Ôr ! 1.7 için üçüncü dereceden polinomiyal regresyon modelinin daha iyi sonuç verdiği gözlenmiştir. 96 Çizelge 4.6 Bulanık regresyon fonksiyonlarında en küçük kareler yöntemi sonucunda elde edilen bulgular1 &6 HKO Doğrusal Model ( r ! 4, Ô r ! 2.2) 205.77 0.748 Doğrusal Model ( r ! 3, Ô r ! 1.7) 199.63 0.763 Doğrusal Model ( r ! 3, Ô r ! 2.1) 204.16 0.752 Çizelge 4.7 Bulanık regresyon fonksiyonlarında klasik DVR yöntemi sonucunda elde edilen bulgular2 o HKO &6 Doğrusal Model ( r ! 4, Ô r ! 2.2) 150 22500 251.43 0.629 Doğrusal Model ( r ! 3, Ô r ! 1.7) 150 35000 250.55 0.632 Doğrusal Model ( r ! 3, Ô r ! 2.1) 150 Polinomiyal Model (e ! 2, r ! 4, Ô r ! 2.2) 100 Polinomiyal Model (e ! 2, r ! 3, Ô r ! 2.1) 100 Polinomiyal Model (e ! 2, r ! 3, Ô r ! 1.7) 100 Polinomiyal Model (e ! 3, r ! 4, Ô r ! 2.2) 10 Polinomiyal Model (e ! 3, r ! 3, Ô r ! 2.1) 20 Polinomiyal Model (e ! 3, r ! 3, Ô r ! 1.7) 10 25000 14500 12000 10000 10 10 10 251.79 209.96 167.53 201.53 161.32 158.79 155.48 0.628 0.738 0.833 0.759 0.843 0.850 0.874 Optimum küme sayısı r ! 3 ve bulanıklık derecesi Ôr ! 1.7 olarak seçildiğinde; BCO sonucunda belirlenen her bir kümeye ilişkin bulanık doğrusal regresyon fonksiyonlarında, en küçük kareler yaklaşımı ve DVR çözümlemesi ile elde edilen katsayı tahminleri Çizelge 4.8 ve Çizelge 4.9 ile verilmiştir. Burada üyelik değerleri ve > 6 _, , _, , p±(_, ), !((1 7 _, )'_, ) gibi matematiksel dönüşümleri, orijinal girdi matrisine ilave boyutlar olarak kullanılmıştır. Çizelge 4.9’da verilen doğrusal destek vektör regresyon modeline ilişkin katsayı tahminleri, (4.20) programlama probleminin çözümünden elde edilmiştir. 1 Her bir kümeye ilişkin bulanık regresyon fonksiyonlarında parametre tahminleri, Türkşen (2008) çalışmasında önerilen yaklaşımdan yararlanarak elde edilmiştir. 2 Her bir kümeye ilişkin bulanık regresyon fonksiyonlarında parametre tahminleri, Çelikyılmaz ve Türkşen (2007) çalışmasında önerilen yaklaşımdan yararlanarak elde edilmiştir. 97 Çizelge 4.8 Bulanık doğrusal regresyon fonksiyonlarında en küçük kareler yöntemi sonucunda belirlenen katsayılar Katsayı Küme 1 Küme 2 773.61 750.54 9834.43 Sabit (- ) (Õ ( 810.41 (A 17.58 Küme 3 1564.26 74966.84 585.48 665.94 7.71 773.24 26.21 (B 72.88 730.96 718.57 72.97 9.35 25753.33 (C = D 37.87 35.99 57.05 740677.34 75365.51 747855.44 78761.79 71654.76 958.35 #⁄ Hata Kareler Ortalaması (HKO) 75.21 18.02 376.74 199.63 0.763 Belirleme Katsayısı (& 6 ) Çizelge 4.9 Bulanık doğrusal regresyon fonksiyonlarında DVR yöntemi sonucunda belirlenen katsayılar Katsayı Küme 1 Küme 2 Küme 3 (Õ 739.24 734.63 722.24 (A 0.13 0.93 2.99 Sabit (- ) ( (B (C = D #⁄ Hata Kareler Ortalaması (HKO) 98.94 297.94 79.85 293.11 10.53 313.67 70.27 72.75 77.58 0.66 11.92 712.60 17.63 717.06 70.18 71.14 70.35 73.47 71.18 9.35 749.71 73.80 77.81 42.78 250.55 0.632 Belirleme Katsayısı (& 6 ) 98 5. MELEZ BULANIK DESTEK VEKTÖR REGRESYON ÇÖZÜMLEMESİ 5.1 Bulanık Sayılar ve Ağırlıklı Bulanık Aritmetik Bulanık mantık, Aristo mantığına karşı geliştirilmiş olan ve uygulamada ortaya çıkan olayların hangi oranlarda gerçekleştiğini belirlemeye çalışan bir çoklu mantık sistemidir. Belirsiz bilgiyi temsil edebilme yeteneği önemli bir özelliğidir. Bulanık teori, uygun ve güvenilir veriler elde olmadığı zaman pratiklik sağlar. Bulanık mantığın ardındaki temel fikir, bir önermenin doğruluğunun, kesin doğru ve kesin yanlış arasındaki sonsuz sayıda doğruluk değerlerini içeren bir kümedeki değerler ya da sayısal olarak i0, 1j reel sayı aralığıyla ilişkilendiren bir fonksiyon olarak kabulüdür. Bu, Zadeh’in bulanık kümeler üzerindeki ilk çalışmasının bir sonucudur (Zadeh 1965). Bulanık mantık yaklaşık akıl yürütmenin mantığıdır. Sözel olarak değişik sıfat dereceleri ile ifade edilen (ya da sayısal olarak i0, 1j reel sayı aralığında yer alan) doğruluk değerlerine sahip oluşu ve geçerliliği kesin olmayan ancak yaklaşık olan çıkarım kurallarına sahip oluşu ayırt edici özellikleridir. Bulanık mantığın geçerli olduğu durumlardan ilki, incelenen olayın çok karmaşık olması ve bununla ilgili yeterli bilginin bulunmaması durumunda kişilerin görüş ve değer yargılarına yer verilmesi, ikincisi ise insan kavrayış ve yargısına gerek duyan hallerdir. İnsan düşüncesinde sayısal olmasa bile belirsizlik, yararlı bir bilgi kaynağıdır. Bu tür bilgi kaynaklarının, olayların incelenmesinde özgün bir biçimde kullanılmasına bulanık mantık ilkeleri yardımcı olmaktadır (Baykal ve Beyan 2004). 5.1.1 Bulanık kümeler ve temel kavramlar þ, elemanları ±’ler ile gösterilen bir evrensel küme ve R kümesi de þ’in bir klasik alt kümesi olsun. Üyelik fonksiyonu kavramı, ± elemanlarının R kümesine olan üyelik derecelerini belirler. Eğer üyelik dereceleri, .0, 11 kümesinden alınıyor ise R’ya klasik (kesin) bir küme denir. Ancak üyelik derecelerinin i0, 1j aralığında olmasına izin 99 veriliyor ise R, bulanık küme olarak adlandırılır ve genellikle R ile gösterilir. ± þ ve R / þ için bu bulanık kümeye ilişkin üyelik fonksiyonu g ± : þ C i0, 1j biçiminde gösterilir. Bulanık küme teorisi klasik kümelerin genel bir biçimidir (Lai ve Hwang 1992). Tanım 5.1 Destek Kümesi Bulanık bir kümenin sıfırdan büyük üyelik derecelerine sahip elemanlarının oluşturduğu kümeye destek kümesi denir ve matematiksel olarak, Destek(R) ! .± þ, g ± K 01 (5.1) biçiminde ifade edilir. Tanım 5.2 -Kesim Kümesi R bulanık kümesinin, üyelik dereceleri ’ye eşit veya büyük olan elemanlarından oluşturulan klasik kümeye -kesim kümesi denir. R bulanık kümesi için -kesim kümesi, FG ! .±|g± , ± þ1 (5.2) biçiminde tanımlanır. Tanım 5.3 Yükseklik R bulanık kümesinin yüksekliği, üyelik fonksiyonunda en büyük üyelik derecesine sahip olan değerdir. Yükseklik matematiksel olarak Yük(R) ! sup(g ±) , J± þ (5.3) 100 biçiminde ifade edilir. Tanım 5.4 Normallik R bulanık kümesinin yüksekliği 1 ise bu kümeye “normaldir” denir. Diğer bir ifade ile sup(g ± ) ! 1 ise R bulanık kümesi normaldir. Verilen bir bulanık küme boş değilse (R 3 I) tüm elemanlar yüksekliğe bölünerek normal hale getirilebilir. Tanım 5.5 Dışbükeylik Klasik kümeler için dışbükeylik tanımı bulanık kümeler içinde genişletilebilir ve klasik kümelerde geçerli olan birçok özellik korunur. R bulanık kümesi için g±# 1 7 ±6 min.g±# , g±6 1 (5.4) koşulunu sağlayan üyelik fonksiyonu dışbükeydir. 5.1.2 Bulanık sayılar R bulanık sayısı, §’nin bir bulanık altkümesi olarak tanımlanır. Normal ve konveks bir bulanık küme için g ± üyelik fonksiyonu, i0, 1j için sürekli ve sınırlı ise R bir bulanık sayı olarak adlandırılır (Bector ve Chandra 2005). R bulanık sayısı, üyelik değeri 1 olan bir reel sayı, merkez olmak üzere; sol ve sağ genişliklere sahiptir. Bu genişlikler bulanık sayının bulanıklığını temsil eder ve böylece bulanık sayı simetrik veya asimetrik hale gelir. Eğer genişlikler sıfıra eşitse sayının bulanıklığı yoktur ve bu durumda sayı bir reel sayıdır. Bulanık sayıların özel türü olan üçgensel ve yamuksal bulanık sayılar uygulamada sıklıkla kullanılmaktadır. 101 Tanım 5.6 Üçgensel Bulanık Sayı ÔF merkez, !F sol genişlik, F sağ genişlik olmak üzere R üçgensel bulanık sayısı R ! ÔF , !F , F biçiminde tanımlanır. Şekil 5.1 ile gösterilen üçgensel bulanık sayının üyelik fonksiyonu, M K 17 >N O {N N ! g ± ! 1 7 s N L K J 0 O> , , , ÔF 7 !F S ± N ÔF ÔF S ± N ÔF F ± ÔF F p ± N ÔF 7 !F 4 (5.5) biçimindedir. g ÔF ! 1 olacak biçimde ÔF değerine üçgensel bulanık sayının merkezi denir. R üçgensel bulanık sayısı için -kesim kümesi, FG ! åFP , FQ ç ! iÔF 7 !F 1 7 , ÔF F 1 7 j (5.6) olarak ifade edilir (Kaufmann ve Gupta 1991). g ± 1 ÔF 7 !F ÔF ÔF F Şekil 5.1 Üçgensel bulanık sayı 102 ± F ! !F ! F olduğunda bir üçgensel bulanık sayı simetrik üçgensel bulanık sayı olarak adlandırılır. Bu durumda R ! ÔF , F simetrik üçgensel bulanık sayısının üyelik fonksiyonu ve -kesim kümesi, ! g ± ! # 17 |>N O| 0 , N ÔF 7 F S ± S ÔF F , ± K ÔF F p ± N ÔF 7 F FG ! åFP , FQ ç ! iÔF 7 F 1 7 , ÔF F 1 7 j 4 (5.7) (5.8) olarak tanımlanır. Tanım 5.7 Yamuksal Bulanık Sayı Yamuksal bulanık sayı dört parametre ile belirlenir. ÔF¹ , ÔF¹¹ merkezleri, !F sol genişliği ve F sağ genişliği göstermek üzere R yamuksal bulanık sayısı, R ! ÔF¹ , ÔF¹¹ , !F , F biçiminde tanımlanır. Şekil 5.2’de gösterilen yamuksal bulanık sayının üyelik fonksiyonu ve -kesim kümesi, ! g± ! 0 M R K K 1 7 >N O {N 1 L K RR K O>N 1 7 J sN , ± N ÔF¹ 7 !F p ± ÔF¹¹ F , ÔF¹ 7 !F S ± N ÔF¹ , ÔF¹¹ S ± N ÔF¹¹ F , ÔF¹ S ± N ÔF¹¹ FG ! åFP , FQ ç ! iÔF¹ 7 !F 1 7 , ÔF¹¹ F 1 7 j olarak gösterilir (Kaufmann ve Gupta 1991). 103 4 (5.9) (5.10) Üçgensel bulanık sayılar, yamuksal bulanık sayıların özel bir halidir. Şekil 5.2’den de anlaşılacağı üzere ÔF¹ ve ÔF¹¹ değerlerinin birbirine eşit olduğu durumlarda yamuksal bulanık sayı, üçgensel bulanık sayı haline dönüşmektedir. g ± 1 ÔF¹ 7 !F ÔF¹ ÔF¹¹ ÔF¹¹ F ± Şekil 5.2 Yamuksal bulanık sayı 5.1.3 Ağırlıklı bulanık aritmetik Bulanık regresyon çözümlemesinde fazla veri çok sayıda aritmetik işlem gerektirir ve bu durumda klasik bulanık aritmetik kullanıldığı zaman genişlikler, gerçekçi olmayan bir büyük sayı haline gelebilir. Klasik bulanık aritmetikteki bu sakıncaları ortadan kaldırmak üzere ağırlıklı bulanık aritmetik Chang (2001) tarafından önerilmiştir. Özel bir değerleme yönteminin kullanımına dayanan ağırlıklı bulanık aritmetik, bulanık küme işlem sonuçlarını, kesin reel sayılara dönüştürmek üzere durulaştırma (defuzzification) yaklaşımından yararlanır. Kesin sayı işlem sonuçları, bulanık aritmetik işlemlerinin ortalama değeri şeklinde yorumlanabilir. Bunun aksine bulanık aritmetiğin klasik tanımlaması, bulanık aritmetik işlemlerde muhtemel tüm değerleri bir bulanık küme şeklinde tasarlar (Chang 2001). 104 Ağırlıklı bulanık aritmetik temelindeki düşünce esasında Yager (1981) tarafından önerilmiştir. Buna göre, FG ! .±|g± , ± üzere R bulanık kümesi, þ1, R’nın -kesim kümesini göstermek # %(R) ! *- Sq!ÔFG + (5.11) ile durulaştırılır. Burada eğer R normal değil ise maksimum üyelik derecesine göre ölçeklendirilerek normal hale getirilebilir. Yager ve Filev (1999), çalışmalarını ilgili olasılık dağılımı aracılığıyla (Yager ve Filev 1998) bir bulanık altkümenin dönüştürülmesi üzerine dayandırarak bu formülasyonu, * Tsa|{|>|(N U ) ¯ %(R) ! V Õ Õ *V ¯ (5.12) biçiminde genişletmişlerdir. Bu kesimde, ağırlıklı bulanık aritmetik tanımına (Chang 2001) göre asimetrik (simetrik) üçgensel bulanık sayılar ile bulanık aritmetik işlemler için formüller üretilecektir. ÔF merkez, !F sol genişlik, F sağ genişlik olmak üzere R asimetrik üçgensel bulanık sayısı R ! ÔF , !F , F biçiminde tanımlansın. Diğer bir asimetrik üçgensel bulanık sayıda TG ! Ô) , !) , ) biçiminde gösterilsin. üyelik derecesinde R ve TG ’nin kesimleri, FG ! åFP , FQ ç ! iÔF 7 !F 1 7 , ÔF F 1 7 j )G ! å)P , )Q ç ! iÔ) 7 !) 1 7 , Ô) ) 1 7 j biçiminde tanımlanır. 105 (5.13) (5.14) Tanım 5.8 Ağırlıklı Bulanık Toplama Ağırlıklı bulanık aritmetik tanımına göre, R ve TG ’nın ağırlıklı bulanık toplamı, R TG ! Õ Æ*D(NP WP ) ¯*D(NQ WQ ) ¯Ç *D ¯ (5.15) biçimindedir. Burada payda, * + ! *- + ! Æ6 6 Ç ! 6 # # # - # (5.16) ile hesaplanabilir. FP , FQ , )P ve )Q değerleri (5.15) eşitliğinde yerine konulursa *(FP )P ) + ! *- .iÔF 7 !F 1 7 j iÔ) 7 !) 1 7 j1 + # ! *- iÔF Ô) 7 1 7 !F !) j + # ! 6 ÔF Ô) 7 Ü !F !) # # (5.17a) *(FQ )Q ) + ! *- .iÔF F 1 7 j iÔ) ) 1 7 j1 + # ! *- iÔF Ô) 1 7 F ) j + # # # ! ÔF Ô) F ) 6 Ü (5.17b) elde edilir. (5.17a) ve (5.17b) eşitliklerinin toplamından # R TG ! ÔF Ô) iF ) 7 !F !) j Ü olarak bulunur. 106 (5.18) R ve TG bulanık sayısı simetrik üçgensel bir bulanık sayı ise F ! !F ! F ve ) ! !) ! ) olacağından toplam, R TG ! ÔF Ô) (5.19) biçiminde elde edilir. Tanım 5.9 Ağırlıklı Bulanık Çıkarma R ve TG iki üçgensel bulanık sayı olmak üzere ağılıklı bulanık çıkarma, # R 7 TG ! ÔF 7 Ô) Ü iF 7 ) 7 !F 7 !) j R 7 TG ! ÔF 7 Ô) , simetrik R ve TG için (5.20) (5.21) biçiminde belirlenir. Tanım 5.10 Ağırlıklı Bulanık Çarpma R ve TG iki üçgensel bulanık sayı olmak üzere ağılıklı bulanık çarpma, # R · TG ! ÔF Ô) iÔ) F ÔF ) 7 Ô) !F ÔF !) j # #6 Ü !F !) F ) # R · TG ! ÔF Ô) Ü F ) , simetrik R ve TG için (5.22) (5.23) biçiminde belirlenir. Tanım 5.11 Ağırlıklı Bulanık Bölme R ve TG iki üçgensel bulanık sayı olmak üzere ağırlıklı bulanık bölme ise benzer olarak, 107 # > { # # > s # R/TG ! *- >N{N # + *- >NsN # + W W W (5.24) W eşitliğinden elde edilir. (5.18) – (5.24) eşitliklerinde tüm bulanık sayılar, kesin (crisp) hale geldiği zaman ağırlıklı bulanık aritmetik, klasik aritmetik ile aynı sonuçları vermektedir (Chang 2001). 5.1.4 Bulanık sayıların ağılıklı fonksiyonu Bu kesimde, bulanık fonksiyonlara ilişkin bazı temel kavramların verilmesinin ardından Apaydin ve Baser (2010) tarafından önerilen bulanık sayıların ağırlıklı fonksiyonları üzerinde durulacaktır. Tanım 5.12 Bulanık Fonksiyon Her R £ § bulanık sayısı, TG £ § ile birebir eşleme oluşturacak biçimde, Şekil 5.3 ile de gösterilmiş olan §’den §’ye tanımlı (R) bulanık fonksiyonu, )G ! FG , J i0, 1j (5.25) ile açıklanır (Kaufmann ve Gupta 1991). § FG )G Şekil 5.3 Bulanık fonksiyonlar 108 § Tanım 5.13 Düzenli Fonksiyon FG åFP , FQ ç için eğer J i0, 1j ve FG å(FP ), (FQ )ç geçerli ise , R £ § bulanık sayısı için bir düzenli fonksiyondur (Kaufmann ve Gupta 1991). Bu tanım, ± fonksiyonunun åFP , FQ ç aralığında monoton artan olmasını gerektirmektedir. Şekil 5.4’te, her FG için FG å(FP ), (FQ )ç olacak biçimde bir tek FG fonksiyonunun olduğu görülmektedir. FG (FQ ) FP 0 FG FQ (FP ) Şekil 5.4 Düzenli fonksiyon Tanım 5.14 Düzenli Olmayan Fonksiyon FG åFP , FQ ç için eğer J i0, 1j ve FG å(FQ ), (FP )ç geçerli ise , R £ § bulanık sayısı için düzenli olmayan fonksiyondur (Kaufmann ve Gupta 1991). Bu tanımdan, ± fonksiyonunun åFP , FQ ç aralığında monoton azalan olduğu anlaşılmaktadır. Şekil 5.5’te, her FG için FG tek FG fonksiyonu olduğu görülmektedir. Bir ° £ § tanım kümesi göz önüne alınsın. J fonksiyonu, ° üzerinde düzenli bir fonksiyon ise 109 å(FQ ), (FP )ç olacak biçimde bir i0, 1j ve JåFP , FQ ç £ ° için FG ! åFP , FQ ç ! å(FP ), (FQ )ç dir. °´ £ § olmak üzere J (5.26) i0, 1j ve JåFP , FQ ç £ °´ için fonksiyonu, °´ üzerinde düzenli olmayan bir fonksiyon ise FG ! åFP , FQ ç ! å(FQ ), (FP )ç (5.27) dir (Kaufmann ve Gupta 1991). FG (FP ) (FQ ) FP 0 FQ FG Şekil 5.5 Düzenli olmayan fonksiyon Tanım 5.15 Bulanık Sayıların Ağırlıklı Fonksiyonu R £ § bir üçgensel bulanık sayı ve düzenli veya düzenli olmayan bir fonksiyon olmak üzere bulanık sayıların ağırlıklı fonksiyonu, Õ (R) ! Æ*D Y(NP ) ¯*D Y(NQ ) ¯Ç *D ¯ biçiminde tanımlanır (Apaydin ve Baser 2010). 110 (5.28) FG ! åFP , FQ ç olmak üzere; R ! ÔF , !F , F üçgensel bulanık sayısının üstel fonksiyonu, p FG göz önüne alınsın. Bu üstel fonksiyonun Taylor serisine açılımı, p NU ! i1, 1jåFP , FQ ç1⁄2!åFP , FQ ç 1⁄3!åFP , FQ ç 6 1⁄4!åFP , FQ ç … 1⁄!åFP , FQ ç … biçiminde yazılır. Í % (5.29) i0, 1j için (i) FP S FQ S 0 ise p NU ! i1⁄2 p NP 7 p NP p NQ p NQ ,4 4 ⁄2 p NQ 7 p NQ p NP p NP j 1 (5.30) (ii) FP S 0 S FQ , lFP l S lFQ l ise p NU ! å1 (FP ⁄FQ )p NQ 7 1, p NQ ç (5.31) (iii) FP S 0 S FQ , lFP l lFQ l ise p NU ! Æ[2(FP 7 FQ ) FQ p NP p NP FP p NP 7 p NP \'2FP ,4 (iv) 0 S FP S FQ ise 4[(F F )p NP (F 7 F )p NP \'2F Ç P Q P Q P p NU ! ip NP , p NQ j (5.32) (5.33) biçiminde verilen dört durum dikkate alınsın. p FG fonksiyonunun, § için düzenli olduğu görülmektedir. Buna göre, 0 S FP S FQ için 111 FG ! p NU ! ip NP , p NQ j Õ ÕD N N * = (R) ! p FG ! V (5.34) Õ ¯*V = N ÕD[N ¯ 6 *V ¯ Õ (5.35) olarak yazılır. Sonuç olarak, R ! ÔF , !F , F üçgensel bulanık sayısının üstel fonksiyonu, p FG = (R) ! p >N \[ N { {N N # \[ = [N sN # sN \] , !F , F K 0 (5.36) biçiminde elde edilir. Bu sonuç, bir bulanık sayının fonksiyonunun ortalama değeri olarak yorumlanabilir. Eğer R ! ÔF , F biçiminde bir simetrik üçgensel bulanık sayı kullanılsaydı, (5.33) denkleminin özel bir hali, = (R) ! p >N [ *N = *N 6 N \ , F K 0 (5.37) olarak belirlenirdi (Apaydin ve Baser 2010). 5.2 Melez Bulanık Destek Vektör Regresyonu Mevcut bilginin belirsiz ya da bulanık olduğu bazı sistemlerin modellenmesinde, sistemin bir bulanık yapısı mutlaka göz önüne alınmalı ve çözümlenmelidir. Bu yapılar; parametreleri, girdi veya çıktı değişkenleri bulanık kümelerle tanımlı bir bulanık fonksiyon ile temsil edilirler. Bulanık fonksiyonlar, Zadeh’in genişleme prensibi yardımıyla tanımlanır (Yager 1979, Dubois ve Prade 1978, Zadeh 1975). Bu kesimde, melez bulanık destek vektör regresyonu olarak adlandırılan yeni bir bulanık regresyon yöntemi önerilmiştir. Ele alınan bulanık regresyon modelinde, sabit (yan) terim ve eğitim örneklerinde girdi – çıktı değerleri, asimetrik (simetrik) üçgensel bulanık sayılar olarak tanımlanmıştır. Melez bulanık destek vektör algoritmasına göre parametre tahminleri, DVM’nin ve en küçük kareler prensibinin temelini oluşturan düşünceler 112 kullanılarak gerçekleştirilecektir. Önerilen yöntemin bir özelliği de oluşturulan karesel programlama problemlerine ilişkin bulanık işlemlerde, ağırlıklı bulanık aritmetikten faydalanılmasıdır. þG ! [Ô(·^ , !(·^ , (·^ \, c ! 1, 2, … , ; ! 1, 2, … , + asimetrik üçgensel bulanık sayısı U ! iþG# þG6 … þG¯ jè için _ `§¯ bulanık girdi vektörü ve .G ! (Ô· , !· , · ) ` § bulanık çıktısı göz önüne alınsın. Burada ` §¯ ile asimetrik üçgensel bulanık sayıların + boyutlu vektörlerinin bir kümesi gösterilmektedir. Ayrıca gözlenen bulanık girdilerden yararlanarak a(· ! åÔ(·Õ Ô(· … Ô(·b ç , d(· ! å(·Õ (· … (·b ç vektörleri oluşturulsun. è è c(· ! å!(·Õ !(· … !(·b ç è ve 5.2.1 Bulanık doğrusal regresyon U , .G ), c ! 1, … , bulanık eğitim örneklerinin bir kümesi için bulanık doğrusal (_ regresyon modelinin tahmini, U ¬ TG , .G ! ª«, _ « §¯ , TG `§ (5.38) biçiminde tanımlanır. Burada « ! iá# á6 … ᯠjè kesin (crisp) regresyon katsayıları ve TG ! Ô) , !) , ) asimetrik üçgensel bulanık sayı olarak tanımlanan sabit terimdir. Bu durumda her bir kestirim değeri, .G ! (Ô) ª«, a(· ¬, !) ª«, c(· ¬, ) ª«, d(· ¬) biçiminde asimetrik üçgensel bulanık sayılar ile ifade edilir. Önerilen melez bulanık DVR yaklaşımına göre regresyon katsayıları, 113 (5.39) Amaç fonksiyonu: min« §b, ñr § ,)G è§ # Î Æ µ«µ6 ∑%B#® ®r Ç Kısıtlar: 6 % (5.40) Ô· 7 Ô) 7 ª«, a(· ¬ å(· 7 ) 7 ª«, d(· ¬) 7 (!· 7 !) 7 ª«, c(· ¬)ç S ® # Ü Ô) ª«, a(· ¬ 7 Ô· Ü å() ª«, d(· ¬ 7 · ) 7 ( !) ª«, c(· ¬ 7 !· )ç S ®r # ® , ®r 0, c ! 1, … , biçiminde verilen doğrusal kısıtlı karesel optimizasyon problemi ile tahmin edilir. Burada o, fonksiyon karmaşıklığı ile -duyarsız eğitim hatası arasındaki değişimi kontrol eden bir sabittir. Önerilen yöntemde, gerçek çıktı ve model çıktısı arasındaki sapma ağırlıklı bulanık aritmetik kullanılarak hesaplanmaktadır. Lagrange çarpanlarının tanımlanması ile Lagrange fonksiyonu, # Î ' ! µ«µ6 ∑%B#® ®r 7 ∑%B# ® r ®r 6 % (5.41) ∑%B# È [Ô· 7 Ô) 7 ª«, a(· ¬ Ü å(· 7 ) 7 ª«, d(· ¬) 7 (!· 7 !) 7 ª«, c(· ¬)ç 7 7 ® \ # ∑%B# Èr [Ô) ª«, a(· ¬ 7 Ô· å() ª«, d(· ¬ 7 · ) 7 ( !) ª«, c(· ¬ 7 !· )ç 7 7 ®r \ # Ü biçiminde oluşturulur. Burada, È , Èr , , r 0, c ! 1, 2, … , Lagrange çarpanlarıdır. (5.41) fonksiyonunun «, Ô) , !) , ) ve ® r ÉÊ É« ÉÊ É ÔT ÉÊ É{W ÉÊ ÉsW ÉÊ değişkenlerine göre türevi alındığında ise ! ô e « ! ∑%B#È 7 Èr Æa(· Ü (d(· 7 c(· )Ç # ! 0 e ∑%B#È 7 Èr ! 0 ! 0 e ∑%B#È 7 Èr ! 0 ! 0 e % 7 È 7 Î r r (5.43) (5.44) ! 0 e ∑%B#È 7 Èr ! 0 r Éõ· (5.42) (5.45) !0 (5.46) 114 elde edilir. (5.42) – (5.46) denklemleri, (5.41) fonksiyonunda yerine yazıldığında, f ! a(· Ü (d(· 7 c(· ) ve × ! Ô· Ü (· 7 !· ) için # # Amaç fonksiyonu: maksÌr Kısıtlar: § 7 ∑%,B#È 7 Èr (È 7 Èr )ªf , f ¬ # ö 6 ÷ 7 ∑%B#È Èr ∑%B#È 7 Èr × (5.47) ∑%B#È 7 Èr ! 0 Î È , Èr Æ0, Ç % dual optimizasyon problemi elde edilir. Bu aşamada; Ô) , !) , ) parametrelerinin tahmin edilmesi gerekir. Karush-Kuhn-Tucker (KKT) koşullarından faydalanarak, ø, q ! 1, 2, … , için Ô) Ü ) 7 !) ! ×} 7 ª«, f} ¬ 7 , # Ô) Ü ) 7 !) ! ×a 7 ª«, fa ¬ , # olarak belirlenir. Buna göre, È} Lagrange katsayıları için È} Èar Î Î [0, %\ Î (5.48) [0, %\ [0, %\ ve Èar Î [0, %\; ø, q ! 1, 2, … , olan min.×} 7 ª«, f} ¬ 7 , ×a 7 ª«, fa ¬ 1 S Ô) ) 7 !) S maks.×} 7 ª«, f} ¬ 7 , ×a 7 ª«, fa ¬ 1 # Ü (5.49) dır. (5.49) ile elde edilen bilgi doğrultusunda Ô) , !) , ) değerlerinin seçimi için burada en küçük kareler yaklaşımının kullanımı önerilmiştir. Bunun için ise hata kareler toplamını minimum yapmak üzere; 115 Amaç fonksiyonu: min>W Kısıtlar: §, {W g-, sW g- # ∑B#(Ô· 7 Ô) 7 ª«, a(· ¬) 6 ∑B#(!· 7 !) 7 ª«, c(· ¬) ∑B#(· 7 ) 7 ª«, d(· ¬) 6 Ô) ) 7 !) min.×} 7 ª«, f} ¬ 7 , ×a 7 ª«, fa ¬ 1 # 6 : (5.50) Ü Ô) ) 7 !) S maks.×} 7 ª«, f} ¬ 7 , ×a 7 ª«, fa ¬ 1 Ü # !) 0, ) 0, Ô) § karesel programlama problemi çözülür. 5.2.2 Bulanık doğrusal olmayan regresyon Girdi ve çıktı değişkenleri arasında doğrusal olmayan bir ilişki mevcut olduğunda doğrusal olmayan DVR algoritması uygulanılabilir. Literatürde bulanık doğrusal olmayan regresyon üzerine yapılmış olan çalışmalar oldukça kısıtlıdır (Buckley ve Feuring 2000, Buckley vd. 1999, Celmins 1991). Mevcut çalışmalarda, modeldeki girdi ve çıktı değişkenlerinden birinin veya her ikisinin birden bulanık olarak ele alındığı görülmektedir. Çalışmanın bu aşamasında, bir önceki kesimde önerilen bulanık doğrusal DVR çözümlemesi, doğrusal olmayan regresyon modelleri için geliştirilecektir. Bunu gerçekleştirmek üzere de Kesim 3.5.2’de sunulan, kesin veriler ile doğrusal olmayan U bulanık girdi örüntülerinin, Φ: Å Ò Ó doğrusal olmayan regresyon fonksiyonu, _ regresyon için klasik destek vektör makinesi yaklaşımından yararlanılacaktır. Buna göre dönüşümü yardımıyla yüksek boyutlu bir Ó nitelik uzayına eşlenmesi ile tanımlanır ve bundan sonra nitelik uzayında standart doğrusal regresyon algoritması uygulanır. Sonuç olarak, farklı çekirdek fonksiyonlarının seçimi ile girdi uzayında doğrusal olmayan regresyon fonksiyonlarının türleri için farklı öğrenme makineleri düzenlenebilir. Bulanık doğrusal olmayan DVR için dual optimizasyon problemi, 116 Amaç fonksiyonu: maksÌr Kısıtlar: 7 6 ∑%,B#È 7 Èr (È 7 Èr ) ¦(f , f ) ö ÷ § 7 ∑%B#È Èr ∑%B#È 7 Èr × # (5.51) ∑%B#È 7 Èr ! 0 Î È , Èr Æ0, %Ç biçiminde oluşturulur. Buna göre, « ! ∑%B#(È 7 Èr )Φ(f ) (5.52) ∑%B#(È 7 Èr ) ¦(f , a(· ) , ∑%B#(È 7 Èr ) ¦(f , c(· ) , G G . ! T h i ∑%B#(È 7 Èr ) ¦(f , d(· ) (5.53) elde edilir. Bu aşamada; Ô) , !) , ) parametrelerinin tahmin edilmesi gerekir. KKT koşullarından faydalanarak, ø, q ! 1, 2, … , için Ô) Ü ) 7 !) ! ×} 7 ∑%B#(È 7 Èr ) ¦(f , f} ) 7 , # Ô) Ü ) 7 !) ! ×a 7 ∑%B#(È 7 Èr ) ¦(f , fa ) , # olarak belirlenir. Buna göre, È} Lagrange katsayıları için Î [0, %\ ve Èar 117 Î È} Èar Î [0, %\ Î [0, %\ (5.54) [0, %\; ø, q ! 1, 2, … , olan (×} 7 ∑%B#(È 7 Èr ) ¦(f , f} ) 7 ), # min ö ÷ S Ô) Ü ) 7 !) S % r (×a 7 ∑B#(È 7 È ) ¦(f , fa ) ) (×} 7 ∑%B#(È 7 Èr ) ¦(f , f} ) 7 ), maks ö ÷ (×a 7 ∑%B#(È 7 Èr ) ¦(f , fa ) ) (5.55) dır. Ô) , !) , ) parametrelerini tahmin etmek üzere; Amaç fonksiyonu: min>W Kısıtlar: % r M∑B#(Ô· 7 Ô) 7 ∑B#(È 7 È ) ¦(f , a(· )) K 6 % r §, {W g-, sW g- ∑B#(!· 7 !) 7 ∑B#(È 7 È ) ¦(f , c(· )) L K ∑ ( 7 7 ∑% (È 7 È r ) ¦(f , d ))6 ) (· B# · B# J (×} 7 ∑%B#(È 7 Èr ) ¦(f , f} ) 7 ), ÷ Ô) Ü ) 7 !) min ö (×a 7 ∑%B#(È 7 Èr ) ¦(f , fa ) ) 6 l K k K j (5.56) # (×} 7 ∑%B#(È 7 Èr ) ¦(f , f} ) 7 ), Ô) Ü ) 7 !) S maks ö ÷ (×a 7 ∑%B#(È 7 Èr ) ¦(f , fa ) ) # !) 0, ) 0, Ô) § karesel programlama problemi çözülür. 5.3 Melez Bulanık DVR’nin Diğer Bazı Bulanık Regresyon Yöntemleri ile Karşılaştırılması Bu kesimde, önerilen melez bulanık DVR yönteminin uygulaması dört farklı örnek üzerinde gerçekleştirilecektir. Hao ve Chiang (2008), Hong ve Hwang (2003), Diamond (1988), Tanaka vd. (1982)’nin çalışmalarında önerilen bulanık (destek vektör) regresyon yöntemleri ile karşılaştırmaya da olanak vermek amacıyla bu çalışmalarda kullanılan veri setleri tekrar ele alınmıştır. 118 Eğitim verilerine göre her bir yönteme ilişkin regresyon modelinde katsayı tahminleri belirlendikten sonra modeller, hata kareler ortalaması ölçütüne göre karşılaştırılacaktır. Ağırlıklı bulanık aritmetik kullanılarak tahminlere ilişkin hata kareler ortalaması, # G ! % ∑%B# [.G 7 .G \ 6 (5.57) biçiminde hesaplanır ve bulanık gözlemlerin, bulanık regresyon modeline uyumunu değerlendirmek amacıyla kullanılır (Chang 2001). i. Kesin girdi – bulanık çıktı durumu Birinci örnekte, Tanaka ve Lee (1998)’nin çalışmasında bulunan ve Hao ve Chiang (2008) tarafından bir bulanık DVR çözümlemesinde kullanılmış olan veriler ele alınmıştır. Çizelge 5.1 ile sunulan bu veriler için melez bulanık DVR çözümlemesinin uygulanması ile .G ! 1.041, 1.300, 1.356 8.375 þ bulanık doğrusal regresyon modeli elde edilmiştir. Bu uygulamada, iteratif arama sonucunda ! 0.15 ve o ! 1200 olarak seçilmiştir. Çizelge 5.1 Kesin girdi – bulanık çıktı verisi c 1 2 3 4 5 6 7 8 .G 2.25, 0.75, 0.75 2.875, 0.875, 0.875 2.5, 1.0, 1.0 4.25, 1.75, 1.75 4.0, 1.5, 1.5 5.25, 1.25, 1.25 7.5, 2.0, 2.0 8.5, 1.5, 1.5 119 þ 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 Doğrusal olmayan modeller için melez bulanık DVR yöntemi Çizelge 5.1 ile sunulan veri setinin çözümlenmesinde de kullanılmıştır. İlk olarak, ! 0.01 ve o ! 210 seçimiyle üçüncü dereceden polinomiyal bir çekirdek fonksiyonu kullanarak bulanık doğrusal olmayan model tahmini yapılmıştır. Daha sonra uygulama, ! 0.15, o ! 20000 ve Σ ! 0.06 için Gauss çekirdek fonksiyonu için de geliştirilmiştir. Çizelge 5.2 Kesin girdi – bulanık çıktı verisi ile çeşitli çekirdek fonksiyonları için belirlenen G değerleri Çekirdek Fonksiyonları Lineer Polinomiyal Gauss Melez Bulanık DVR Hao ve Chiang (2008)’ın Yöntemi 0.7437 0.7500 0.4235 0.4854 0.2927 0.4199 Melez bulanık DVR ve Hao ve Chiang (2008)’ın yönteminden elde edilen sonuçlar Çizelge 5.2’de verilmiştir. Çekirdek fonksiyonlarının ele alınan bütün farklı türleri için melez bulanık DVR’nin, hata kareler ortalaması kriterine göre daha iyi bir performansa sahip olduğu görülmüştür. ii. Simetrik üçgensel bulanık sayılar ile tanımlı bulanık girdi – çıktı durumu Simetrik üçgensel bulanık sayılar ile tanımlı bulanık girdi – çıktı veri durumunu örneklendirmek üzere Hong ve Hwang (2003)’ın çalışmasından veriler göz önüne alınmıştır. Çizelge 5.3 ile verilen veri seti için ilk olarak bulanık doğrusal regresyon model tahmini yapılmıştır. ! 0.0001 ve o ! 100 için melez bulanık doğrusal DVR modeli, .G ! 75.449, 0, 0 1.216 þ olarak elde edilmiştir. Doğrusal model için Hong ve Hwang (2003)’ın yöntemi ile melez bulanık DVR’den elde edilen karşılaştırma sonuçları Çizelge 5.4’de verilmiştir. 120 Bulanık doğrusal olmayan modeller için melez bulanık DVR yöntemi ile ulaşılan sonuçları değerlendirmek amacıyla farklı çekirdek fonksiyonları göz önünde bulundurulmuştur. Çizelge 5.5’de polinomiyal ve Gauss radyal tabanlı fonksiyonlara göre elde edilen sonuçlar listelenmiştir. Çizelge 5.3 Simetrik üçgensel bulanık sayılar ile tanımlı bulanık girdi – çıktı verisi m 1 2 3 4 5 6 7 8 9 .G þ 71.6, 0.5, 0.5 71.8, 0.5, 0.5 71.0, 0.5, 0.5 1.2, 0.5, 0.5 2.2, 1.0, 1.0 6.8, 1.0, 1.0 10.0, 1.0, 1.0 10.0, 1.0, 1.0 10.0, 1.0, 1.0 1.0, 0.5, 0.5 3.0, 0.5, 0.5 4.0, 0.5, 0.5 5.6, 0.8, 0.8 7.8, 0.8, 0.8 10.2, 0.8, 0.8 11.0, 1.0, 1.0 11.5, 1.0, 1.0 12.7, 1.0, 1.0 Çizelge 5.4 Simetrik üçgensel bulanık sayılar ile tanımlı bulanık girdi – çıktı verisi için bulanık doğrusal regresyon modeline dayalı karşılaştırma sonuçları TG á 75.449, 0, 0 Melez Bulanık DVR 1.216 72.457, 0.071, 0.071 Hong ve Hwang (2003)’ın Yöntemi 0.857 G 1.372 1.875 Çizelge 5.5 Simetrik üçgensel bulanık sayılar ile tanımlı bulanık girdi – çıktı verisi için melez bulanık doğrusal olmayan DVR sonuçları Melez Bulanık DVR Polinomiyal Çekirdek Gauss Çekirdek e 5 0.2 0.01 - 121 o 2600 7600 G 0.3676 0.3467 iii. Asimetrik üçgensel bulanık sayılar ile tanımlı bulanık girdi – çıktı durumu Diamond (1988) çalışmasında, bulanık sayılar için tanımlı bir uzaklık ölçüsüne bağlı olarak klasik en küçük karelerin bir bulanık genişlemesi olan bulanık en küçük kareler regresyon çözümlemesini önermiştir. Çalışmada kullanılan, öğrenci başarı düzeyi ve aile gelirlerinden oluşan veri seti Çizelge 5.6 ile verilmiştir. Önerilen melez bulanık DVR yaklaşımının uygulanması ile bulanık doğrusal regresyon modeli, .G ! 1.282, 0.151, 0.252 0.125 þ olarak elde edilmiştir. Bu örnekte ise ! 0.311, o ! 100 olarak belirlenmiştir. Bulanık doğrusal regresyon modeli için Diamond (1988)’ın yöntemi ve melez bulanık DVR ile ulaşılan sonuçlar Çizelge 5.7’de sunulmuştur. Çizelge 5.6 Asimetrik üçgensel bulanık sayılar ile tanımlı bulanık girdi – çıktı verisi m 1 2 3 4 5 6 7 8 .G þG 4.0, 0.6, 0.8 3.0, 0.3, 0.3 3.5, 0.35, 035 2.0, 0.4, 0.4 3.0, 0.3, 0.45 3.5, 0.53, 0.7 2.5, 0.25, 0.38 2.5, 0.5, 0.5 21, 4.2, 2.1 15, 2.25, 2.25 15, 1.5, 2.25 9, 1.35, 1.35 12, 1.2, 1.2 18, 3.6, 1.8 6, 0.6, 1.2 12, 1.8, 2.4 Çizelge 5.7 Asimetrik üçgensel bulanık sayılar ile tanımlı bulanık girdi – çıktı verisi için bulanık doğrusal regresyon modeline dayalı karşılaştırma sonuçları Melez Bulanık DVR Diamond (1988)’ın Yöntemi TG 1.282, 0.151, 0.252 1.201, 0.180, 0.180 122 á 0.125 0.136 G 0.2937 0.2963 Çizelge 5.8 Asimetrik üçgensel bulanık sayılar ile tanımlı bulanık girdi – çıktı verisi için melez bulanık doğrusal olmayan DVR sonuçları Melez Bulanık DVR Polinomiyal Çekirdek Gauss Çekirdek e 3 0.15 0.1 - o 30 50 G 0.2654 0.2213 Polinomiyal ve Gauss radyal tabanlı çekirdek fonksiyonları için melez bulanık doğrusal olmayan DVR yaklaşımına göre elde edilen sonuçlar Çizelge 5.8 ile verilmiştir. iv. Ev değerleme modeli Bu örnekte, melez bulanık DVR yaklaşımı bir ev değerleme modeli üzerinde uygulanacaktır. Tanaka vd. (1982)’nin çalışmasından alınan kesin girdi – bulanık çıktı verisi Çizelge 5.9 ile verilmiştir. Modelde þ# malzeme kalite düzeyi, þ6 birinci katın alanı, þÍ ikinci katın alanı, þ oda sayısı, þÛ Japon tarzı oda sayısı ve .G evin satış değeridir. þ# değişkeni, 1-düşük, 2-orta ve 3-yüksek kalite olacak biçimde değerler almaktadır. Regresyon parametre tahminlerini elde etmek üzere bulanık regresyon çözümlemesi, her bir bağımsız değişken için standartlaştırma işleminin ardından gerçekleştirilmiştir. Önerilen melez bulanık regresyon yönteminin uygulanması sonucunda bulanık doğrusal regresyon modeli, .G ! 1107.9, 40.4, 39.6 183.758 þ# 191.859 þ6 89.840 þÍ 7 39.943 þ 5.001 þÛ olarak elde edilmiştir. Bu uygulamada, iteratif arama sonucunda ! 20 ve o ! 9000 olarak seçilmiştir. Ayrıca, Tanaka vd. (1982)’nin çalışmasında önerilen yöntem kullanılarak ise 123 .G ! 1104, 82, 82 181, 0, 0 þ# 214, 37, 37 þ6 87, 0, 0 þÍ 7 54, 0, 0 þ 7 18, 0, 0 þÛ bulanık doğrusal regresyon modeline ulaşılmıştır. Çizelge 5.10 ile hata kareler ortalaması kriterine göre Tanaka vd. (1982)’nin yönteminden ve melez bulanık DVR’den elde edilen karşılaştırma sonuçları verilmiştir. Çizelge 5.9 Ev değerlerine ilişkin kesin girdi – bulanık çıktı verileri m 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 .G 606, 55, 55 710, 5, 5 808, 40, 40 826, 15, 15 865, 75, 75 852, 45, 45 917, 70, 70 1031, 20, 20 1092, 60, 60 1203, 10, 10 1394, 35, 35 1420, 25, 25 1601, 30, 30 1632, 50, 50 1699, 65, 65 þ# 1 1 1 1 1 2 2 2 2 2 3 3 3 3 3 þ6 38.09 62.10 63.76 74.52 75.38 52.99 62.93 72.04 76.12 90.26 85.70 95.27 105.98 79.25 120.50 þÍ 36.43 26.50 44.71 38.09 41.40 26.49 26.49 33.12 43.06 42.64 31.33 27.64 27.64 66.81 32.25 þ 5 6 7 8 7 4 5 6 7 7 6 6 6 6 6 þÛ 1 1 1 1 2 2 2 3 2 2 3 3 3 3 3 Çizelge 5.10 Ev değerleme modeli için bulanık doğrusal regresyon çözümlemesine ilişkin karşılaştırma sonuçları G 31.349 33.122 Melez Bulanık DVR Tanaka vd. (1982)’nin Yöntemi Önerilen melez bulanık DVR algoritmasının bir avantajı, girdi vektörlerinin yüksek boyutlu bir nitelik uzayına eşlenmesi sonucunda doğrusal olmayan regresyon fonksiyonunun elde edilebilmesidir. Daha sonra ise çekirdek fonksiyonunun farklı 124 seçimlerine göre doğrusal olmayan bulanık regresyon modeli için farklı öğrenme makinelerinin tasarlanabilmesidir. Çizelge 5.11’de farklı çekirdek fonksiyonları ile melez bulanık doğrusal olmayan DVR çözümlemesi sonuçları sunulmuştur. Çizelge 5.11 Ev değerleme modeli için melez bulanık doğrusal olmayan DVR sonuçları Melez Bulanık DVR Polinomiyal Çekirdek Gauss Çekirdek e 2 25 12 - 125 o 5500 8000 G 23.804 11.917 6. SİGORTA HASAR REZERVLERİ Hesap döneminin sonunda, sigorta şirketinin portföyünde bulunan poliçeler kapsamı içinde meydana gelmiş birtakım hasarlar söz konusu olmakta; ancak bu hasarların varlığı ve maliyeti konusunda sigorta şirketinin herhangi bir bilgisi bulunmamaktadır. Primlerin ödenmesi sürecinde birçok alternatif olmasına rağmen genellikle prim ödeme süreci hasarların ödeme sürecinden çok önce biter. Bu aşamada, sigorta şirketinin gerçekleşmesini beklediği risklere ait hasarları ödemek için belli karşılıklar tutması ve bunları finansal tablolarına da yansıtması gerekmektedir (Boulter ve Grubbs 2000). Sigorta şirketlerinin, henüz ödenmemiş hasarlar ile meydana gelmiş ancak sigorta ve reasürans şirketinin bilgisi dahilinde olmayan hasarlar için tutulması gereken karşılıklar, şirket bilançosunun pasif bölümünde yer alır ve şirketin gideri olarak işlem görür. Bu durumda sigorta şirketi, geçmiş yıllardaki deneyimlerine dayanarak, bir miktarı Muallak Hasar Rezervi (Outstanding Claim Reserve) olarak belirlemektedir (Mutlu 2005). Muallak Hasar Rezervi, sigorta şirketi tarafından dönem sonu itibariyle henüz tasfiye edilmemiş, ancak eldeki bilgilere göre ödenmesi olası hasar miktarını, yaklaşık olarak yansıtacak şekilde ayrılmış karşılıklardır. Sigortacılık tekniğinde muallak hasar rezervi ile ilgili olan bir başka kavram ise "gerçekleşmiş ancak henüz bildirimi yapılmamış" (IBNR – Incurred But Not Reported) ve "gerçekleşmiş ancak bildirimi yetersiz veya eksik yapılmış" (IBNER – Incurred But Not Enough Reported) hasarlardır. Bu hasarlar bir mali yıl içerisinde gerçekleşmesine karşın ihbarı yapılmamış veya eksik yapılmış olan hasarlardır. Hasar rezervlerinin gerçeğe yakın bir biçimde belirlenebilmesi sigorta şirketinin finansal istikrarı için çok önemlidir. Buna göre, hasar rezervlerinin ayrılması sürecinde sigortanın istatistiksel yapısından doğan öncelikler, • İflas riskinin en aza indirgenmesi • Yükümlülükleri karşılayacak fonun tespiti 126 • Ayrılan fonun hasarların gerçekleşme beklentisindeki sapma nedeni ile yetersiz kalması durumunda farklı kaynakların hazır edilmesi biçiminde sıralanabilir (Yaman 2005). Tüm dünyadaki aktüerler, hasar rezervlerinin güvenilir ve doğru tespiti için yöntemler geliştirmek üzere senelerdir çalışmaktadırlar. Hasarların hesaplanmasında ve uygun rezervin belirlenmesinde kullanılabilecek birçok yöntem üretilmiştir. Yöntemlerin bazıları sıkça kullanılırken bazılarını sektörde nadiren görmek mümkün olmaktadır. Yöntemlerin çeşitliliğinin aksine rezerv tespitinde değişmez bir gerçek vardır ki o da ileri derecede matematiksel ve istatistiksel uygulamaların gerekliliğidir. England ve Verrall (2002) çalışmalarında belirttiği gibi, aktüeryal literatürde çok ilgi çeken bu yöntemler, son yıllarda, sadece en iyi tahminin değil aynı zamanda stokastik bakış açısından potansiyel zarar beklentisinin de belirlenmesi konularına yoğunlaşmıştır. Rezervlerdeki hatanın büyüklüğü iflas riskinin gerçekleşmesine kadar götürecek sonuçlar doğuracaktır. Bu nedenle, problemi genellikle istatistiksel bakış açısıyla ele alan aktüeryal literatürde, hasar rezervlerinin tahmini klasik bir konu halini almıştır. Ayrılacak rezerv tahmini hesaplamaları için kullanılan yöntemler iki başlık altında incelenebilir: ilki deterministik bakış açısını benimseyen klasik yöntemler, ikincisi ise klasik yöntemlerden daha kapsamlı tahminler veren stokastik yöntemler olarak ele alınabilir. Literatürde yer alan yöntemler arasından en yaygın kullanılanı Chain Ladder yöntemidir (Pinheiro vd. 2003). Bu durum esasında Chain Ladder yönteminin pratik bir yöntem olmasından kaynaklanmaktadır. Fakat Boulter ve Grubbs (2000) tarafından yapılan çalışmada da vurgulandığı gibi bu yöntem bazı sorunlara sahiptir. Belirtilen bu sorunlardan en önemlisi; Chain Ladder yönteminde, gelişme faktörü olarak adlandırılan bir değere göre kestirimlerin sadece kendisine en yakın periyottaki hasar tutarına bağlı olmasıdır. Benjamin ve Eagles (1986) ise Chain Ladder yönteminin bir gelişimi olan ve en küçük kareler regresyonunun kullanımına dayanan London Chain Ladder yöntemini önermiştir. 127 Taylor (1977) tarafından önerilen geometrik ayırma yöntemi, hasar tutarlarından enflasyon gibi dışsal etkenlerin etkisinin ayrılmasına dayanmaktadır. Bu yöntemle ilk önce, geçmiş periyotlara ilişkin hasar tutarlarına, dışsal faktörlerin etkisi tahmin edilir. Daha sonra, gelecek periyotlara ilişkin hasar tutarlarının kestirimi bir trend modeli yardımıyla gerçekleştirilir. Hasar rezervlerinin kestiriminde istatistiksel çözümlemelere dayalı birçok yöntem geliştirilmiş olsa da uygulamada ortaya çıkan ve belirsizliği artıran faktörlerin varlığı, istatistiksel yöntemlerin güvenilirliğinde dikkate değer kayıplara neden olmaktadır. Bu nedenle, birçok aktüeryal ve finansal problemin doğasında var olan belirsizlik durumunda; uygun ve güvenilir veriler elde olmadığı zaman daha gerçeğe yakın sonuçlar elde etmek için bulanık küme teorisi etkili bir araç haline gelmektedir. Bundan dolayı, Shapiro (2004)’nun sigortada bulanık mantık uygulamalarını incelediği çalışmasında da belirtildiği üzere; bulanık mantık, risk sınıflandırma, sigortalama ve yükümlülüklerin kestirimi gibi birçok sigorta problemine uygulanmaktadır. Sigorta araştırmalarında bulanık küme teorisi uygulamalarına temel teşkil edecek bazı çalışmalar; Ostaszewski (1993), Derrig ve Ostaszewski (1998), Yakoubov ve Haberman (1998), Andrés ve Terceño (2003) tarafından yapılmıştır. IBNR rezervlerinin hesaplanmasında bulanık küme teorisi ve bulanık regresyon çözümlemesini ilk olarak Andrés ve Terceño (2003) kullanmıştır. Önerilen yaklaşımda, Tanaka (1987) tarafından geliştirilen bulanık regresyon çözümlemesi, London Chain Ladder yöntemi ile birleştirilmiştir. Andrés (2007) tarafından önerilen yaklaşımda ise hasar rezerv hesaplamalarında geometrik ayırma yöntemi, Ishibuchi ve Nii (2001) tarafından önerilen bulanık regresyon çözümlemesi ile geliştirilmiştir. Bu bölümde, sigorta şirketinin tutması gereken hasar rezervinin kestiriminde, Taylor (1977) tarafından geliştirilen geometrik ayırma yönteminin genişlemesi olarak değerlendirilebilecek bir yaklaşım önerilmiştir. Bu yaklaşım, melez bulanık DVR çözümlemesinin kullanımına dayanmaktadır. Böylece, hasar tutarları üçgeninden sağlanan kısıtlı bilgiden daha etkili bir biçimde faydalanılması hedeflenmektedir. 128 6.1 Geometrik Ayırma Yöntemi Hasar rezerv hesabı için Çizelge 6.1 ile verilen ve periyot izlenmesi açısından ayrıntılı bilgi içeren hasar tutarları üçgeninden yararlanılır. Hasar tutarları üçgeninin kullanımı ve buna göre ilk tahmin yönteminin geliştirilmesi Verbeek (1972)’in makalesine dayanmaktadır. Çizelge 6.1 ile verilen hasar tutarları üçgeninde 0, , c. (c ! 0, 1, … , ) periyotta (yılda) meydana gelmiş hasarlara ilişkin , ( ! 0, 1, … , ) gelişme süreci sonunda belirlenmiş hasar tutarını ifade etmektedir (Hossack vd. 1999). c. (c ! 0, 1, … , ) gerçekleşme periyodu için çizelgenin üst üçgeni, sigorta şirketinin önceki yıllarda ödenen hasar tutarlarını; alt üçgeni (boş kalan kısmı) ise gelecekte ( ! 7 c 1, 7 c 2, … , ) ödenmek üzere kestirilmesi gereken hasar tutarlarını verir. Çizelge 6.1 Hasar tutarları üçgeni Gerçekleşme Yılı 0 1 c 71 Gelişme Süreci (yıl) 0 1 0-,0-,# 0#,0#,# 0,0,# 0%#,- 0%#,# 0%,- … … … … 0-, 0#, 0, … … … 71 0-,%# 0#,%# 0-,% Aktüeryal literatürde, muallak hasar rezervi belirleme yöntemleri arasındaki farklılık, verinin nasıl sunulduğundan değil de gelişme süreci içerisinde bilinmeyen hasar tutarlarının kestiriminin nasıl yapılacağından kaynaklanmaktadır (Andrés 2006). Ayırma yönteminde hasar tutarları, gelişme yıllarına göre belirli bir indeks ile orantılıdır. Bu indeks, özellikle yüksek enflasyon gibi dışsal etkenlerin etkisini hasar tutarlarına yansıtır. Burada, dışsal etkenler ile poliçe yıllarına göre risk grubunda işin 129 kapsamının değişmesi gibi etkenler kastedilmemektedir. Buna göre, veri üçgeni, ve parametreleri ile Çizelge 6.2’de gösterildiği gibi modellenebilir (Taylor 1977). parametresi, enflasyon gibi dışsal etkenlere bağlı bir indeks; ise . gelişme yılında kesinlik kazanan hasar tutarı biçiminde yorumlanabilir. Dolayısıyla, burada ve katsayılarının tahmin edilmesi gerekmektedir. Bunun için, Aritmetik Ayırma Yönteminde ∑ ! 1; Geometrik Ayırma Yönteminde ise ∏ ! 1 varsayımı yapılır (Goovaerts vd. 1990). Daha sonra parametreler regresyon çözümlemesi gibi bir yöntemle tahmin edilir. Çizelge 6.2 Ortalama hasar tutarları üçgeni Gerçekleşme Yılı 0 1 c 71 Gelişme Süreci (yıl) 0 1 - # # - # # 6 - # # - %# # %# - % … … … … # … … … 71 %# %# % % %# % d , gerçekleşme yıllarına (c ! 0, 1, … , ) göre hasar sayılarını göstermek üzere hasar tutarları üçgeninden faydalanarak ortalama hasar tutarları, , ! o·,^ (6.1) t· ile hesaplanır. Geometrik ayırma yöntemine göre , , ve parametrelerinin çarpımı ile belirlenir ve buna göre model, , ! (6.2) 130 biçiminde verilir (Taylor 1977). p, hata terimini göstermek üzere; eşitlik (6.2)’nin, , K 0 için logaritması alındığında, ln , ! ln ln p, , c S (6.3) doğrusal modeline ulaşılır. Bu doğrusal model matris notasyonu ile q ! Xr s (6.4) biçiminde gösterilir. Burada, r ! iln - , … , ln % , ln - , … , ln % jè q ! åln -,- , … , ln -,% , ln #,- , … , ln #,%# , … , ln %,- ç s ! åp-,- , … , p-,% , p#,- , … , p#,%# , … , p%,- ç è è (6.5) (6.6) (6.7) dır. Ayrıca, birim matrisi ve 0, tüm elemanları sıfırlardan oluşan bir matrisi göstermek üzere; 1 2⁄2 ì 2 2 boyutlu tasarım matrisi, v %#,%# %,% u u þ!u %#,%# u u #,# t 0%,# 0%#, 0#,% 0%,# 0%#, 0#,% %#,%# y %,% x x %#,%# x x x #,# w (6.8) biçiminde oluşturulur. Goovaerts vd. (1990)’nin çalışmasında da belirtildiği üzere; (6.3) ile verilen doğrusal modele klasik regresyon yönteminin uygulanması, çözüm tek olmayacağından dolayı bazı problemlere yol açar. Ancak yine aynı çalışmada, bu problemin, þ tasarım matrisinin ilk sütununun ve r vektörünün ilk elemanının çıkarılarak þ ve r’nın yeniden düzenlenmesiyle aşılabileceği vurgulanmıştır. 131 6.2 Sigorta Hasar Rezervlerinin Kestirimi için Önerilen Algoritma Bu kesimde, sigorta şirketinin tutması gereken hasar rezerv tutarının belirlenmesinde Taylor (1977) tarafından geliştirilen geometrik ayırma yöntemine ilişkin algoritmada melez bulanık DVR yönteminin kullanımı önerilmiştir. Önerilen yaklaşım beş adımdan oluşmaktadır: Adım 1. Veri üçgeninde mevcut hasar tutarları kullanılarak, (6.1) eşitliği yardımıyla ortalama hasar tutarları üçgeni oluşturulur. Adım 2. , değerlerinin logaritması hesaplanılır ve (6.3) ile verilen doğrusal regresyon modelinde ln ̂ ve ln regresyon katsayıları, en küçük kareler yöntemi ile tahmin edilir. Adım 3. Regresyon Katsayılarının Bulanıklaştırılması ln ̂ ve ln regresyon katsayılarının bulanıklaştırılması, istatistiksel güven aralığı tanımı kullanılarak gerçekleştirilebilir (Buckley 2006). (6.3) modelindeki regresyon parametreleri için güven aralığının oluşturulabilmesi amacıyla hataların birbirinden bağımsız ve normal dağılıma uygun olduğu varsayımı yapılır. Buna göre, ŝ ^ s^ | }~ |[ { ^ ve 9 ·^ ·^ | }~ 9 { ·^ nin dağılımı, 7 2 serbestlik derecesi ile q dağılımıdır (Ryan 1997). Dolayısıyla, ln ve ln regresyon parametreleri için 1 7 100% güven aralıkları sırasıyla V [ln ̂ 7 q%6,⁄6 , ŝ ^ S ln S ln ̂ q%6,⁄6 , ŝ ^ \ ! 1 7 V [ln 7 q%6,⁄6 , 9·^ S ln S ln q%6,⁄6 , 9·^ \ ! 1 7 132 (6.9a) (6.9b) olarak elde edilir. (6.9a) ve (6.9b)’de 1 7 : Güven düzeyi 7 2: Serbestlik derecesi q%6,⁄6: q dağılımı tablo değeri , ŝ ^ : ln ̂ için standart hata , 9·^ : ln için standart hata dır. Bu bilginin kullanımıyla ln ve ln için sırasıyla ln ̃ ve ln üçgensel bulanık sayıları oluşturulur. Böylece veri seti içerisinde barındırılan değişkenlik ölçüsü (standart sapma), üçgensel bulanık sayılar aracılığıyla hasar rezervlerinin kestirimine yansıtılmış olur. ln ̃ ve ln bulanıklaştırılmış regresyon katsayıları, ln ̃ ! [Ô ŝ^ , ! ŝ ^ , ŝ ^ \ ve ln ! [Ô 9·^ , ! 9·^ , 9·^ \ biçiminde üçgensel bulanık sayılardır. Burada, Ô ŝ ^ ve Ô 9·^ merkez; ! ŝ ^ , ! 9·^ , ŝ ^ , 9·^ ise aynı zamanda hata payı (margin of error) olarak da değerlendirilebilecek, bulanık sayılara ilişkin genişliklerdir. Eşitlik (6.9a) ve (6.9b)’ye göre ln ̃ ve ln bulanıklaştırılmış regresyon katsayılarının genişliklerini belirleyen hata payı sırasıyla, ! ŝ ^ ! ŝ ^ ! q%6,⁄6 · , ŝ ^ (6.10a) ! 9·^ ! 9·^ ! q%6,⁄6 , 9·^ (6.10b) biçiminde elde edilir. Adım 4. Dışsal Etkenlerin Etkisinin Bulanık Trend Modeli ile Çözümlenmesi Gelişme süreci içerisinde bilinmeyen hasar tutarlarının belirlenmesi amacıyla c ! 1, 2, … , 2 periyotları için ln değerlerinin kestiriminin yapılması gerekmektedir. Bunu gerçekleştirmek üzere; ln bulanık sayıları ile c S için bulanık doğrusal trend denklemi, 133 ln ! R TG c , c S (6.11) biçiminde oluşturulur. Önerilen yaklaşıma göre burada, R ve TG parametreleri, melez bulanık DVR çözümlemesi ile tahmin edilir. Dolayısıyla, her bir kestirim değeri, ln ! [Ô 9·^ , ! 9·^ , 9·^ \ ! ÔF , !F , F Ô) , !) , ) c (6.12) biçiminde üçgensel bulanık sayılar ile açıklanır. Adım 5. Gelecek Hasar Tutarlarının Kestirimi Bu aşamada, Çizelge 6.1’in, bilinmeyen hasar tutarlarından oluşan alt üçgenindeki öğelerin kestirimi yapılır. İlk olarak, ! 7 c 1, 7 c 2, … , gelişme sürecinde c. gerçekleşme yılı (c ! 1, 2, … , ) için ln , değerleri, ln , ! [Ô ,·,^ , ! ,·,^ , ,·,^ \ ! ln ̃ ln ! [Ô ŝ ^ , ! ŝ ^ , ŝ ^ \ [Ô 9·^ , ! 9·^ , 9·^ \ (6.13) biçiminde hesaplanır. Daha sonra, , değeri, , ! p ,·,^ (6.14) ile elde edilir. Bunun için ise burada, Kesim 5.1.4’de verilen bulanık sayıların ağırlıklı fonksiyonunun kullanımı önerilmektedir. Bu yaklaşımın sonucu olarak, her bir gerçekleşme periyodu için gelecek hasar tutarları, bir kesin değer olarak elde edilmiş olur. Böylece, esasında durulaştırma işlemi, eşitlik (5.36)’da olduğu gibi 134 , ! p >}~ 9 ·,^ 4 = }~ 9 ·,^ { {}~ 9 9 # }~ ·,^ ·,^ 6h = [}~ 9 i ·,^ s 9 # }~ ·,^ s}~ 9 ·,^ (6.15) biçiminde gerçekleştirilir. Daha sonra, c ! 1, 2, … , ve 7 c 1 için 0 , hasar tutarları hesaplanır. Dolayısıyla burada, 0 , ! , d kesin sayıdır. Son olarak, c. gerçekleşme periyoduna göre; bir kesin sayı olan toplam hasar rezerv miktarı, & ! ∑%B%# 0 , , c ! 1, 2, … , (6.16) biçiminde belirlenir. 6.3 Melez Bulanık DVR ile Sigorta Hasar Rezervlerinin Kestirimi Sigorta hasar rezervi kestiriminde melez bulanık DVR yaklaşımını, Andrés (2007) tarafından önerilen yöntem ile karşılaştırmaya da olanak vermek amacıyla; Andrés (2007)’in çalışmasında kullanılan veriler bu kesimde tekrar ele alınmıştır. Hasar tutarlarına ilişkin veri üçgeni Çizelge 6.3’de verilmiştir. Bir önceki kesimde önerilen algoritma kullanılarak uygulama adım adım sunulacaktır. Çizelge 6.3 Dört yıllık gelişme süreciyle hasar tutarları üçgeni Gelişme Süreci (yıl) Gerçekleşme Yılı 0 1 2 3 4 0 18040.00 8938.00 10455.00 11100.75 1 17894.40 8640.00 12326.40 10521.60 2 18857.00 11971.60 3 22154.40 11475.40 181 4 22572.00 165 9930.20 3198.00 Hasar Sayısı d 205 192 173 Çizelge 6.3’de verilen hasar tutarları, ilgili yılda meydana gelen hasar sayıları ile oranlanmasıyla, gerçekleşme yılı ve gelişme süreçlerine göre her bir ortalama hasar 135 tutarı Çizelge 6.4’de olduğu gibi elde edilir. Daha sonra, ortalama hasar tutarlarının logaritması alınarak (ln , ), Çizelge 6.5 oluşturulur. Çizelge 6.4 Uygulamaya ilişkin ortalama hasar tutarları (, ) üçgeni Gelişme Süreci (yıl) Gerçekleşme Yılı 0 1 2 3 4 0 88.00 43.60 51.00 54.15 15.60 1 93.20 45.00 64.20 54.80 2 109.00 69.20 57.40 3 122.40 63.40 4 136.80 Çizelge 6.5 ln , değerlerinden oluşan veri üçgeni Gelişme Süreci (yıl) Gerçekleşme Yılı 0 1 2 3 4 0 4.477 3.775 3.932 3.992 2.747 1 4.535 3.807 4.162 4.004 2 4.691 4.237 4.050 3 4.807 4.149 4 4.919 Geometrik ayırma yöntemine göre ln , ! ln ln p, , c S 4 doğrusal regresyon modelinde, ln ve ln parametreleri en küçük kareler yöntemi yardımıyla tahmin edilebilir. Burada, p, hata terimidir. Bu doğrusal model, matris notasyonu ile q ! Xr s biçiminde gösterilir. Çizelge 6.5 ile sunulan değerler kullanılarak çıktı değişkenine ilişkin gözlem vektörü, q ! i4.477 3.775 … 2.747 4.535 … 4.004 … 4.919jè 136 biçiminde oluşturulur. Regresyon parametre vektörü ise r ! iln # , ln 6 , ln Í , ln , ln - , ln # , ln 6 , ln Í , ln jè dır. Son olarak, X tasarım matrisi, 0 v1 u0 u 0 u u0 u0 u1 X ! u0 u0 u0 u1 u0 u0 u1 t0 0 0 1 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 1 0 1 0 0 0 0y 0x x 0 x 1x 0x 0x 0x 1x 0x 0x 1x 0x 1x 1w biçiminde belirlenir. Çizelge 6.6 ln ’nin en küçük kareler tahmini ve bulanıklaştırılmış katsayılar Katsayı Tahmini Standart Hata %95 Güven Aralığı Hata Payı Bulanıklaştırılmış Katsayı c 70.746 0.055 c 70.760 0.061 c 70.892 0.071 c 72.133 0.094 i70.880, 70.612j i70.910, 70.610j i71.066, 70.717j i72.363, 71.902j 0.134 70.746, 0.134 0.150 70.760, 0.150 0.175 70.892, 0.175 0.230 72.133, 0.230 En küçük kareler yöntemine göre ln ( ! 0, 1, 2, 3, 4) ve ln (c ! 0, 1, 2, 3, 4) parametrelerinin tahmini ve çeşitli istatistikler Çizelge 6.6 ve Çizelge 6.7 ile sunulmuştur. Regresyon parametreleri için %95 güven düzeyinde aralık tahminlerini kullanarak oluşturulan simetrik üçgensel bulanık sayılar da yine bu çizelgelerde 137 verilmiştir. Bu bulanıklaştırılmış katsayılarda merkez değerlerinin, parametrelerin en küçük kareler tahminleri; genişliklerin ise her bir güven aralığı için belirlenen hata payından elde edildiği kolayca görülmektedir. Çizelge 6.7 ln ’nin en küçük kareler tahmini ve bulanıklaştırılmış katsayılar c ô Katsayı Tahmini %95 Güven Aralığı Hata Payı Bulanıklaştırılmış Katsayı c c c 4.477 4.528 4.645 4.899 4.880 i4.288, 4.667j i4.378, 4.678j i4.509, 4.781j i4.769, 5.029j i4.750, 5.010j 4.477, 0.190 4.528, 0.150 4.645, 0.136 4.899, 0.130 4.880, 0.130 0.078 Standart Hata c 0.190 0.061 0.150 0.056 0.136 0.053 0.130 0.053 0.130 Bu aşamada, c ! 0, 1, 2, 3, 4 periyotları için Çizelge 6.7’deki bulanık katsayılar kullanılarak; c ! 5, 6, 7, 8 için dışsal etkenlerin etkisinin (ln ) kestirilmesi gerekmektedir. Bunu gerçekleştirmek üzere, bulanık doğrusal trend denklemi, ln ! R TG c ! ÔF , !F , F Ô) , !) , ) c , c S4 biçiminde oluşturulur. Burada, R ve TG parametreleri, melez bulanık DVR çözümlemesi ile tahmin edilir. ! 0.001 ve o ! 10 girdiler için melez bulanık DVR modeli, ln ! 4.4768, 0.1486, 0.1460 0.1006 c biçiminde elde edilir. Buradan, c ! 5, 6, 7, 8 için dışsal etkenlerin etkisinin (ln ) kestirimi, ln Û , ln Ü , ln Ý , ln Þ kolaylıkla hesaplanır. Uygulamanın bu aşamasında, c ! 1, 2, 3, 4 gerçekleşme periyodu için ! 4 7 c 1, 4 7 c 2, 4 7 c 3, 4 7 c 4 gelişme yıllarına bağlı hasar tutarlarının kestirimi 138 yapılır. İlk olarak, Çizelge 6.8 ile verilen, her biri üçgensel bulanık sayı olan ln , değerleri elde edilir. (6.15) eşitliğinde gösterilen ve bir durulaştırma aşaması olarak bulanık sayıların ağırlıklı fonksiyon tanımının kullanımı ile , değerleri Çizelge 6.9’da olduğu gibi hesaplanır. Son olarak, muallak hasar tutarları ve rezerv miktarı Çizelge 6.10’da gösterildiği biçimiyle belirlenir. Çizelge 6.8 Hasar tutarlarına ilişkin kestirimler, ln , Gerçekleşme Yılı Gelişme Süreci (yıl) 1 2 3 1 4 2.847, 0.379, 0.376 4.088, 0.323, 0.321 2.948, 0.379, 0.376 2 4.220, 0.299, 0.296 4.189, 0.323, 0.321 3.049, 0.379, 0.376 3 4.234, 0.283, 0.280 4.320, 0.299, 0.296 4.289, 0.323, 0.321 3.149, 0.379, 0.376 4 Çizelge 6.9 Hasar tutarlarına ilişkin kestirimler, , Gelişme Süreci (yıl) Gerçekleşme Yılı 1 2 3 1 17.440 2 3 4 4 69.417 Hasar Sayısı d 192 60.125 19.286 173 68.495 66.490 21.328 181 75.746 73.529 23.585 165 Çizelge 6.10 Uygulamaya ilişkin muallak hasar tutarı Gerçekleşme Yılı 1 (2001) 2 (2002) 3 (2003) 4 (2004) Toplam Muallak Hasar Rezervi 3348.42 10401.67 3336.46 ! 13738.13 12397.64 12034.74 3860.29 ! 28292.67 11453.75 12498.15 12132.31 3891.59 ! 39975.80 . ô 139 7. SONUÇ VE TARTIŞMA Destek vektör makineleri (DVM) yöntemi, fonksiyon tahmini ve sınıflandırma problemlerinin çözümü için önerilmiş olan bir istatistiksel öğrenme algoritmasıdır. Sinir ağları, bulanık modeller ve sinir-bulanık ortak sistemleri gibi geleneksel öğrenme ve sistem modelleme yöntemleriyle karşılaştırıldığında, DVM yüksek genelleme başarımı, eniyileme kapasitesi ve yüksek boyutlu az sayıda veri üzerinde dahi çalışabilme gibi özelliklere sahiptir. Sistem modellemelerinde belirsizliğin artmasına izin vermek, karmaşıklığı azaltırken; güvenilirliği arttırmaktadır. En uygun davranış tarzı her bir modelleme problemi için optimum düzeyde belirsizliğe izin veren yöntemler geliştirmektir. Bulanık sistem modelleme, belirsizlik içeren doğrusal veya özellikle doğrusal olmayan sistemlerin davranışını tanımlamak üzere yararlanılan önemli araçlardan biridir. Çözümleme, öngörü ve denetim gibi alanlarda farklı amaçlarla kullanılabilen bu yaklaşımların dayanıklılık ve şeffaflık gibi özellikleri başlıca yararları arasındadır. Bu çalışmada, doğrusal veya doğrusal olmayan bulanık regresyon modelleri için melez bulanık destek vektör regresyon çözümlemesi olarak adlandırılan yeni bir yaklaşım önerilmiştir. Bu yaklaşıma göre bulanık regresyon modelinde, her bir girdi bulanık olarak tanımlanabileceği gibi birer kesin (crisp) değişken olarak da modelde yer alabilirler. Önerilen yöntemin temel özelliği, melez bulanık destek vektör regresyon algoritmasında, asimetrik (simetrik) üçgensel bulanık sayılar biçiminde tanımlanmış girdi ve çıktılar arasındaki mevcut işlemlerin ağırlıklı bulanık aritmetik kullanılarak gerçekleştirilmesidir. Aynı zamanda bir durulaştırma yöntemi olan ağırlıklı bulanık aritmetiğin DVM regresyon algoritması ile bütünleştirilmesi, VC teorisine dayalı klasik destek vektör regresyon yönteminin tüm avantajlarının korunmasını sağlamaktadır. Böylece henüz gözlenmemiş veriler için iyi genelleme yeteneğine sahip ve sistemin bulanık yapısının çözümlenmesinde de kullanışlı bir yöntem geliştirilmiştir. Çalışmanın üçüncü bölümünde, sigorta toplam hasar miktarının kestiriminde, en küçük kareler regresyonu gibi klasik yöntemler 140 yerine destek vektör regresyon çözümlemesinin kullanımının önemi üzerinde durulmuştur. Uygulamadan elde edilen sonuçlara göre, DVM ile tahmin edilen doğrusal regresyon modelinde aykırı değerlerin modele olan etkisinin sınırlandırıldığı görülmektedir. Ayrıca, çalışmada farklı çekirdek fonksiyonlarına göre doğrusal olmayan destek vektör regresyon çözümlemesine ilişkin bulgular da sunulmuştur. Buna göre, daha küçük hata kereler ortalamasına sahip model tahminlerine ulaşılmıştır. Dördüncü bölümde, otomobil maddi zarar sigortalama sürecinde Bulanık Regresyon Fonksiyonları (BRF) yaklaşımından yararlanılmıştır. Risk sınıflandırma ve hasar tutarı kestirimi aşamalarıyla birlikte BRF yönteminin kullanımı, problemin niteliği göz önüne alındığında önemli faydalar sağlamıştır. Bulanık c-ortalama kümeleme algoritması sonucunda elde edilen üyelik değerleri, lokal bulanık regresyon fonksiyonlarının kestirim performansını artırmak amacıyla kullanılmıştır. Dağılımdan bağımsız, deneysel bir yaklaşım olan DVM’den, her bir kümeye ilişkin regresyon modellerinde katsayı tahmininde faydalanılmıştır. Bu yöntem sayesinde bulanıklıktan kaynaklanan belirsizliğinde değerlendirilmesiyle; hasar riskini etkileyen her bir faktörün etkisini doğru ölçen, birbirleri ile ilişkili veya çelişen faktörlerin birlikte etkileri değerlendirebilen bir model geliştirilmiştir. Beşinci bölümde, melez bulanık destek vektör regresyon yöntemi, Hao ve Chiang (2008), Hong ve Hwang (2003), Diamond (1988), Tanaka vd. (1982) tarafından yapılan çalışmalarda önerilen bulanık (destek vektör) regresyon yöntemleri ile karşılaştırılmıştır. Uygulamalardan elde edilen bulgular da değerlendirildiğinde önemli sonuçlar aşağıda özetlenmiştir. • Önerilen melez bulanık destek vektör regresyon yönteminin, karşılaştırılan diğer bulanık regresyon yöntemlerine göre daha küçük hata kareler ortalamasına sahip olduğu görülmüştür. • Literatürde yer alan bulanık destek vektör regresyon çözümlemelerinde ele alınan modellerde, girdi ve çıktı değişkenlerinin aldığı değerler simetrik üçgensel bulanık sayılara indirgenmiştir. Asimetrik üçgensel bulanık sayılar için 141 mevcut algoritmalar kullanışlı değildir. Bu eksiklik, bu çalışmada önerilen yaklaşımda yoktur. • Literatürde mevcut diğer yöntemlerde rastlanan, bir optimizasyon problemi çözümü sonucunda tahmin edilen bulanık regresyon katsayılarının genişliğinin negatif çıkması sorunu melez bulanık regresyon yönteminde yoktur. • Melez bulanık DVR algoritmasında her bir girdi-çıktı birer kesin değişken olarak tanımlandığında, klasik destek vektör regresyonu ile aynı sonuçlar elde edilmektedir. Dolayısıyla klasik DVM ile regresyon çözümlemesindeki tüm özellikler önerilen yöntemde de korunmaktadır. Çalışmanın altıncı bölümünde, sigorta hasar rezervi kestiriminde melez bulanık destek vektör regresyon çözümlemesinin kullanımına dayalı bir algoritma önerilmiştir. Böylece sigorta ortamında ve hesaplamalarda belirsizliği artıracak yönde gelişen iç ve dış faktörlerin etkisini değerlendirebilen bir model geliştirilmiştir. Başta enflasyon olmak üzere ekonomik etkiler, sigorta şirketindeki üretimin niteliği ve kapasitesi, mevzuat, sosyal ve politik etkenler, şirketin risk kabul politikaları, poliçe ve ürün özellikleri gibi faktörlerin etkisi ile hasar rezerv hesaplamaları karmaşık ve uzmanlık düzeyinde analiz gerektiren bir olgu haline gelmektedir. Bu nedenle, önemli ölçüde öznel yargılar gerektiren, bilginin yetersiz ve belirsiz olduğu problemlerin modellenmesinde bulanık teori uygun ve elverişli bir araçtır. Sonuç olarak; bulanık sistem modelleme çalışmaları içerisinde değerlendirildiğinde, Destek Vektör Makineleri ile BRF ve önerilen Melez Bulanık DVR çözümlemesinin, sistem çıktısı ve model çıktısı arasındaki hatayı enküçükleyebilmesi açısından iyi sonuçlar verdiği belirlenmiştir ancak her sistem modelleme yaklaşımında genel amaç, incelenen sistem tipine bağlı olarak değişir. BRF ve Melez Bulanık DVR yaklaşımlarında, ele alınan sistem girdi ve çıktı türleri farklılık göstermektedir. Bu iki yöntemin, problemin türüne göre bulanık regresyon modellerinin kestirim performansını artırmak üzere farklı amaçlarda kullanılması uygundur. 142 KAYNAKLAR Andrés, J.de and Terceño, A. 2003. Applications of fuzzy regression in actuarial analysis. Journal of Risk and Insurance, 70(4), 665–699. Andrés, J.de, 2006. Calculating insurance claim reserves with fuzzy regression. Fuzzy Sets and Systems, 157, 3091–3108. Andrés, J.de, 2007. Claim reserving with fuzzy regression and Taylor's geometric separation method. Insurance: Mathematics and Economics, 40, 145–163. Apaydin, A. and Baser, F. 2010. Hybrid fuzzy least-squares regression analysis in claims reserving with geometric separation method. Journal of Insurance: Mathematics and Economics, 47(2), 113–122. Babuška, R. and Verbruggen, H. B. 1997. Constructing Fuzzy Models by Product Space Clustering. In: Hellendoorn, H., Driankov, D. (eds.) Fuzzy Model Identification: Selected Approaches. Springer, pp. 53–90, Berlin. Baykal, N. ve Beyan, T. 2004. Bulanık Mantık İlke ve Temelleri. Bıçaklar Kitabevi, Ankara. Bector, C. R. and Chandra, S. 2005. Fuzzy Mathematical Programming and Fuzzy Matrix Games. Springer-Verlag, Berlin, Heidelberg. Benjamin, S. and Eagles, L. M. 1986. Reserves in Lloyd’s and the London market. Journal of the Institute of Actuaries, 113(2), 197–257. Bezdek, J. C. 1981. Pattern Recognition with fuzzy objective function. Plenum press, New York. Boser, B., Guyon, I., Vapnik, V. 1992. A training algorithm for optimal margin classifiers, Proceedings of the Fifth Annual Workshop on Computational Learning Theory. ACM, pp. 144–152, Pittsburgh. Boulter, A. and Grubbs, D., 2000. Late Claims Reserves in Reinsurance. Swiss Re Press, pp. 5–16, Zurich. 143 Bousquet, O., Boucheron, S., Lugosi, G. 2003. Introduction to statistical learning theory, In: Advanced Lectures on Machine Learning. Bousquet, O., Luxburg, U., Rätsch, G. (eds), Springer, pp. 169–207, Berlin. Buckley, J., Feuring, T., Hayashi, Y. 1999. Multivariate non-linear fuzzy regression: An evolutionary algorithm approach. Int. J. Uncertain., Fuzziness Knowl.-Based Syst., 7, 83–98. Buckley, J. and Feuring, T. 2000. Linear and non-linear fuzzy regression: Evolutionary algorithm solutions. Fuzzy Sets Syst., 112, 381–394. Buckley, J. J. 2006. Fuzzy Probability and Statistics. Springer-Verlag, pp. 171–175, New York. Burges, C. J. C. 1998. A tutorial on support vector machines for pattern recognition. Data Mining and Knowledge Discovery, 2, 121–167. Celmins, A. 1991. A practical approach to nonlinear fuzzy regression. SIAM J. Sci. Statist. Comput., 12(3), 521–546. Çelikyılmaz, A. and Türkşen, I. B. 2007. Fuzzy functions with support vector machines. Information Sciences, 177, 5163–5177. Celikyilmaz, A. and Turksen, I. B. 2008. Enhanced Fuzzy system models with improved fuzzy clustering algorithm. IEEE Transactions on Fuzzy Systems, 16(3), 779–794. Celikyilmaz A. and Türksen, I. B. 2009. Modeling Uncertainty with Fuzzy Logic: With Recent Theory and Applications. Springer-Verlag, pp. 11–119, Berlin Heidelberg. Chang, Y.-H.O. 2001. Hybrid fuzzy least-squares regression analysis and its reliability measures. Fuzzy Sets and Systems, 119(2), 225–246. Chen, R. C. and Hsieh, C. H. 2006. Web page classification based on a support vector machine using a weighted vote schema. Expert Systems with Applications, 31(2), 427–435. Chen, X., Li, Y., Harrison, R., Zhang, Y.Q. 2008. Type-2 fuzzy logic-based classifier fusion for support vector machines. Applied Soft Computing, 8(3), 1222–1231. 144 Cherkassky, V. and Mulier, F. 2007. Learning From Data: Concepts, Theory, and Methods. John Wiley & Sons, New Jersey. Chiu, D. Y. and Chen, P. J. 2009. Dynamically exploring internal mechanism of stock market by fuzzy-based support vector machines with high dimension input space and genetic algorithm. Expert Systems with Applications, 36(2), 1240–1248. Cortes, C. and Vapnik, V. 1995. Support vector networks. Machine Learning, 20, 1-25. Derrig, R. A. and Ostaszewski, K. 1998. Fuzzy sets methodologies in Actuarial Science. In: Practical Applications of Fuzzy Technologies. Kluwer, pp. 531–556, Heidelberg. Diamond, P. 1988. Fuzzy least squares. Information Sciences, 46, 141–157. Drucker, H., Burges, C. J. C., Kaufman, L., Smola, A. Vapnik, V. 1997. Support vector regression machines. In: Advances in Neural Information Processing Systems 9, Mozer, M., Jordan, M. and Petsche, T. (eds), MIT Press, Cambridge, MA. Dong, H., Yang, S., Wu, D. 2007. Intelligent prediction method for small-batch producing quality based on fuzzy least square SVM. Systems EngineeringTheory and Practice, 27(3), 98–104. Dubois, D. and Prade, H. 1978. Operations on fuzzy number. Int. J. Syst. Sci., 9, 613– 626. England, P. D. and Verrall, R. J. 2002. Stochastic claims reserving in general insurance. Institute of Actuaries, London. Web Sitesi. http://www.actuaries.org.uk/system /files/documents/pdf/sm0201.pdf Erişim Tarihi: 30.05.2013. Goovaerts, M. J., Kaas, R., Heerwaarden, A. E., Bauwelinckx, T. 1990. Effective Actuarial Methods. North-Holland, pp. 243–274, Amsterdam. Hao, P.-Y. and Chiang, J.-H. 2008. Fuzzy regression analysis by support vector learning approach. IEEE Trans. Fuzzy Syst., 16(2), 428–441. Hong, D. H. and Hwang, C. 2003. Support vector fuzzy regression machines. Fuzzy Sets Syst., 138, 271–281. Hong, D. H. and Hwang, C. 2005. Interval regression analysis using quadratic loss support vector machine. IEEE Trans. Fuzzy Syst., 13(4), 229–237. 145 Hossack, I. B., Pollard, J. H., Zehnwirth, B. 1999. Introductory Statistics with Applications in General Insurance. Cambridge University Press, pp. 206–241, USA. Ishibuchi, H. and Nii, M. 2001. Fuzzy regression using asymmetric fuzzy coefficients and fuzzified neural networks. Fuzzy Sets and Systems, 119, 273–290. Jayadeva Khemchandani, R. and Chandra, S. 2004. Fast and robust learning through fuzzy linear proximal support vector machines. Neurocomputing, 61, 401–411. Jeng, J.-T., Chuang, C.-C., Su, S.-F. 2003. Support vector interval regression networks for interval regression analysis. Fuzzy Sets Syst., 138, 283–300. Kaufmann, A. and Gupta, M. M. 1991. Introduction to Fuzzy Arithmetic. Van Nostrand Reinhold, New-York. Kecman, V. 2001. Learning and Soft Computing: Support Vector Machines, Neural Networks, and Fuzzy Logic Models. MIT Press, Cambridge, Massachusetts. Keerthi, S. S., Shevade, S. K., Bhattacharyya, C., Murty, K. R. K. 2001. Improvements to platt’s SMO algorithm for SVM classifier design. Neural Computation, 13, 637–649. Khuri, A. I. 2003. Advanced Calculus with Applications in Statistics. Wiley Interscience, Hoboken. Krishnapuram, R. and Keller, J. M. 1993. A possibilistic approach to clustering. IEEE Transactions on Fuzzy Systems, 1(2), 98–110. Lai, Y. J. and Hwang, C. L. 1992. Fuzzy Mathematical Programming. Springer – Verlag, Germany. Luxburg, U. and Schölkopf, B. 2011. Statistical Learning Theory: Models, Concepts, and Results, In: Handbook of the History of Logic Vol. 10: Inductive Logic. Gabbay, D.M. (ed), Elsevier North Holland, pp. 651–706, Amsterdam, Netherlands. Mangasarian, O. L. 1965. Multi-surface method of pattern separation. Operations Research, 13, 444–452. 146 Mendelson, S. 2003. A few notes on statistical learning theory. Advanced lectures in machine learning, Springer, pp. 1–40, Newyork. Min, R. and Cheng, H. D. 2009. Effective image retrieval using dominant color descriptor and fuzzy support vector machine. Pattern Recognition, 42(1), 147– 157. Mutlu, S. 2005. Hasar Karşılıkları ve IBNR. Sigorta Araştırmaları Dergisi, 1, 61–68. Ostaszewski, K. 1993. An Investigation into Possible Applications of Fuzzy Sets Methods in Actuarial Science. Society of Actuaries, Schaumburg, USA. Pinheiro, P. J. R., Andrade e Silva, J. M., Centeno, M. L. 2003. Bootstrap methodology in claim reserving. The Journal of Risk and Insurance, 70(4), 701–714. Rousseeuw, P., Daniels, B., Leroy, A. 1984. Applying robust regression to insurance. Insurance: Mathematics and Economics, 3, 67–72. Ryan, T. P. 1997. Modern Regression Methods. John Wiley & Sons, pp. 13–20, New York. Schölkopf, B., Smola, A. J., Williamson, R. C., Bartlett, P. L. 2000. New support vector algorithms. Neural Computation, 12, 1207–1245. Schölkopf, B. and Smola, A. J. 2002. Learning with Kernels. MIT Press, Cambridge, Massachusetts. Shapiro, A. F. 2004. Fuzzy logic in insurance. Insurance: Mathematics and Economics, 35, 399–424. Shieh, M. D. and Yang, C. C. 2008. Classification model for product form design using fuzzy support vector machines. Computers and Industrial Engineering, 55(1), 150–164. Smola, A. J. and Schölkopf, B. 1998. On a Kernel-Based Method for Pattern Recognition, Regression, Approximation, and Operator Inversion. Algorithmica, 22, 211–231. Smola, A. J. and Schölkopf, B. 2004. A tutorial on support vector regression. Statistics and Computing, 14, 199–222. 147 Strang, G. 1986. Introduction to Applied Mathematics. Wellesley-Cambridge Press, Wellesley. Tanaka, H., Uejima, S., Asai, K. 1982. Linear regression analysis with fuzzy model. IEEE Transactions on Systems, Man and Cybernetics, 12(6), 903–907. Tanaka H. 1987. Fuzzy data analysis by possibilistic linear models. Fuzzy Sets and Systems, 24, 363–375. Tanaka, H. and Lee, H. 1998. Interval regression analysis by quadratic programming approach. IEEE Transactions on Fuzzy Syst., 6(4), 473–481. Taylor, G. C. 1977. Separation of inflation and other effects from the distribution of non-life insurance claim delays. Astin Bulletin, 10(1), 219–230. Tsujinishi, D. and Abe, S. 2003. Fuzzy least squares support vector machines for multiclass problems. Neural Networks, 16(5–6), 785–792. Turksen, I. B. 1999. Type-1 and Type-2 fuzzy system modeling. Fuzzy Sets and Systems 106, 11–34. Türkşen, I. B. and Celikyilmaz, A. 2006. Comparison of fuzzy functions with fuzzy rule base approaches. International Journal of Fuzzy Systems, 8(3), 137–149. Türkşen, I. B. 2008. Fuzzy functions with LSE. Applied Soft Computing, 8, 1178–1188. Türkşen, I. B. 2009. Review of fuzzy system models with an emphasis on fuzzy functions. Transactions of the Institute of Measurement and Control, 31(1), 7– 31. Vapnik, V. and Lerner, A. 1963. Pattern recognition using generalized portrait method. Automation and Remote Control, 24, 774–780. Vapnik, V. and Chervonenkis, A. 1964. On one class of perceptron. Automation and Remote Control, 25, 821–837. Vapnik, V. and Chervonenkis, A. 1971. On the uniform convergence of relative frequencies of events to their probabilities. Theory of Probability and its Applications, 16, 264–280. 148 Vapnik, V. 1982. Estimation of Dependencies Based on Empirical Data. Springer, Berlin. Vapnik, V. and Chervonenkis, A. 1991. The necessary and sufficient conditions for the consistency of the method of empirical risk minimization. Pattern Recognition and Image Analysis, 1, 284–305. Vapnik, V. 1995. The Nature of Statistical Learning Theory. Springer, Newyork. Vapnik, V., Golowich S., Smola, A. 1997. Support Vector Method for Function Approximation, Regression Estimation, and Signal Processing. In: Neural Information Processing Systems 9, Mozer, M., Jordan, M., Petsche, T. (eds.), MIT Press, Cambridge, MA. Vapnik, V. 1998. Statistical Learning Theory. John Wiley & Sons, Newyork. Vapnik, V. 1999. An overview of statistical learning theory. IEEE Transactions on Neural Networks, 10(5), 988–999. Verbeek, H. G. 1972. An approach to the analysis of claims experience in motor liability excess of loss reassurance. Astin Bulletin, 6, 195–202. Wu, Q. 2009. The forecasting model based on wavelet m-support vector machine. Expert Systems with Applications, 36(4), 7604–7610. Wu, Q. 2010. Regression application based on fuzzy -support vector machine in symmetric triangular fuzzy space. Expert Systems with Applications, 37, 2808– 2814. Yager, R. R. 1979. On solving fuzzy mathematical relationships. Information and Control, 41(1), 29–55. Yager, R. R. 1981. A procedure for ordering fuzzy subsets of the unit interval. Information Sciences, 24, 143–161. Yager, R. R. and Filev, D. P. 1998. On the instantiation of possibility distributions. Technical Report # MII-1817. Machine Intelligence Institute, Iona College. New Rochelle. Yager, R. R. and Filev, D. P. 1999. On ranking fuzzy numbers using valuations. International Journal of Intelligent Systems, 14, 1249–1268. 149 Yaman, C. 2005. Hasar Karşılıkları ve Karşılık Ayırma Yöntemleri. TSRŞB I. Ulusal Sigorta Sempozyumu Kitabı, 539–554. Yang, C. H., Jin, L. C., Chuang, L. Y. 2006. Fuzzy support vector machines for adaptive Morse code recognition. Medical Engineering and Physics, 28(9), 925– 931. Yakoubov, Y. H. and Haberman, S. 1998. Review of actuarial applications of fuzzy set theory. Actuarial Research Paper n. 105. Department of Actuarial Science and Statistics of the City University, London. Zadeh, L. A. 1965. Fuzzy Sets. Information and Control, 8, 338–353. Zadeh, L.A. 1975. The concept of linguistic variable and its application to approximate reasoning–I. Information Sciences, 8(3), 199–249. 150 ÖZGEÇMİŞ Adı Soyadı : Furkan BAŞER Doğum Yeri : Ankara Doğum Tarihi : 27.04.1982 Medeni Hali : Evli Yabancı Dili : İngilizce Eğitim Durumu Lise : Batıkent Yabancı Dil Ağırlıklı Lisesi – 2000 Lisans : Ankara Üniversitesi, Fen Fakültesi, İstatistik Bölümü – 2004 Lisans : Anadolu Üniversitesi, İktisat Fakültesi, İktisat Bölümü – 2008 Yüksek Lisans : Ankara Üniversitesi, Fen Bilimleri Enstitüsü, İstatistik Anabilim Dalı – 2007 Çalıştığı Kurumlar ve Yıl Gazi Üniversitesi, İktisadi ve İdari Bilimler Fakültesi, Uluslararası Ticaret Bölümü, 2013 – … Gazi Üniversitesi, Ticaret ve Turizm Eğitim Fakültesi, Bilgisayar Uygulamaları Eğitimi Bölümü, 2006 – 2013 Yayınları Uluslararası Hakemli Dergilerde Yayınlanan Makaleler Apaydin, A. and Baser, F. 2010. Hybrid fuzzy least-squares regression analysis in claims reserving with geometric separation method. Journal of Insurance: Mathematics and Economics, 47(2), 113–122. 151 Başer, F. and Apaydın, A. 2010. Calculating insurance claim reserves with hybrid fuzzy least squares regression analysis. G. U. Journal of Science, 23(2), 163–170. Ulusal Hakemli Dergilerde Yayınlanan Makaleler Başer, F. ve Başçı, A. 2012. İnanç Turizmi Kapsamında Aziz Pavlus Evinin Önemi ve Tanıtım Faaliyetlerine İlişkin Ziyaretçi Görüşlerinin Değerlendirilmesi. MKÜ Sosyal Bilimler Enstitüsü Dergisi, 9(19), 423–443. Kurt, G., Okan, P., Başer, F. 2010. Muhasebe Meslek Mensubu Olabilecek Öğrencilerin Meslek Etiği Konusundaki Algılama ve Eğilimlerinin Belirlenmesi. Muhasebe ve Vergi Uygulamaları Dergisi, 3(1), 1–20. Apaydın, A., Başer, F., Tosunoğlu, N. 2009. Hayat Sigortalarında Bulanık Risk Sınıflandırma. S.Ü. Fen Fak. Fen Dergisi, 34, 79–91. Uluslararası Bilimsel Toplantılarda Sunulan ve Bildiri Kitabında Yayınlanan Bildiriler Tosunoğlu, N., Başer, F., Apaydın, A. 2012. An Evaluation Model for Health Insurance Rating Based on the Fuzzy Analytic Hierarchy Process. 8th International Symposium of Statistics, Octaber 11–13, Eskişehir, Turkey. Başer, F., Dalkılıç, T. E., Kula, K. Ş., Apaydın, A. 2010. An Approach of Adaptive Network Based Fuzzy Inference System to Risk Classification in Life Insurance. International Conference on Operations Research, September 01–03, Munich, Germany. Başer, F. and Apaydın, A. 2008. Hybrid Fuzzy Least-Squares Regression Analysis in Claim Reserving with Geometric Separation Method. The 12th International Congress on Insurance: Mathematics and Economics, July 16–18, Dalian, China. 152 Başer, F. and Apaydın, A. 2007. Hybrid Fuzzy Regression Approach to Claim Reserving. First International Conference on Soft Computing Technologies in Economy, November 19–21, Baku, Azerbaijan. Ulusal Bilimsel Toplantılarda Sunulan ve Bildiri Kitabında Yayınlanan Bildiriler Başer, F. ve Apaydın, A., 2013. Toplam Hasar Miktarının Belirlenmesinde Destek Vektör Regresyon Çözümlemesi. 1. Ulusal Sigorta ve Aktüerya Kongresi, Haziran 6–7, Ankara. Çınar, H. ve Başer, F. 2009. Kamu Yönetici Davranışlarının Çalışanların Motivasyonu Üzerindeki Etkisi. 8. Ulusal Büro Yönetimi ve Sekreterlik Kongresi, Ekim 14– 16, Ankara. Apaydın, A., Başer, F., Tosunoğlu, N. 2009. Bulanık Risk Sınıflandırma. 6. İstatistik Kongresi, Nisan 29–Mayıs 03, Antalya. Başer, F. ve Apaydın, A. 2008. Sigortada Bulanık Mantık. Bilimde Modern Yöntemler Sempozyumu, Ekim 15–17, Eskişehir. Başer, F. ve Apaydın, A. 2007. Sigorta Hasar Karşılıkları Hesaplamalarına Bulanık Regresyon Yaklaşımı. 5. İstatistik Kongresi, Mayıs 20–24, Antalya. Alanında Yayınlarla İlgili Etkinlikler - Reviewer, Journal of Insurance: Mathematics and Economics (SCI Expanded, SSCI), 2009 - ... - Reviewer, Journal of Computational and Applied Mathematics (SCI Expanded, SCI), 2011 - ... - Reviewer, Annals of Operations Research (SCI), 2010 - ... - Editor, Gazi Üniversitesi Ticaret ve Turizm Eğitim Fakültesi Dergisi, 2009 – 2010 153 Ödüller - Yayın Ödülü, Gazi Üniversitesi Rektörlüğü, 2011 - Uluslararası Bilimsel Yayınları Teşvik Ödülü, TÜBİTAK - Uluslararası Bilimsel Yayınları Teşvik Programı, 2010 - Yurt İçi Doktora Bursu, TÜBİTAK - Bilim İnsanı Destekleme Daire Başkanlığı, 2007 Alanında Yurtiçi Derneklere Üyelik - Türk İstatistik Derneği (Yönetim Kurulu Üyesi: 2012 - ...) - İstatistikçiler Derneği (Yönetim Kurulu Üyesi: 2006 - 2008; 2008 - 2010) - Türk Kooperatifçilik Kurumu 154