1 Veri Tabanı, Veri Ambarı, Veri Madenciliği Bilgi Keşfi Aşamaları Apriori Algoritması Veri Madenciliği Yöntemleri Problemler Veri Madenciliği Uygulama Alanları 2 Bir bilgisayarda sistematik şekilde saklanmış, programlarca istenebilecek veri yığınıdır. Veri Tabanı Yönetim Sistemi Information Science 3 4 Veri tabanında asıl önemli kavram, kayıt yığını ya da bilgi parçalarının tanımlanmasıdır. Buna ŞEMA adı verilir. Şema veri tabanında kullanılacak bilgi tanımlarının nasıl modelleneceğini gösterir. Buna DATA MODEL denir. En yaygın olan data model İLİŞKİSEL MODEL’dir. 5 6 Veri tabanı yazılımları ise verileri sistematik bir biçimde depolayan yazılımlardır. Birçok yazılım bilgi depolayabilir ancak aradaki fark ,veri tabanının bu bilgiyi verimli ve hızlı bir şekilde yönetip değiştirebilmesidir. 7 8 Veri ambarı ilişkili verilerin sorgulanabildiği ve analizlerin yapılabildiği bir depodur. Başlangıçta farklı kaynaklardan gelen verinin üzerinde daha etkili ve daha kolay sorguların yapılmasını sağlamaktadır. 9 10 Off-Line çalışır. Veri değişiminden çok sorgulama yapılır. Eski veriler saklandığı için veri miktarı çok. Üst yönetim ve analistler kullanır.(kullanıcı sayısı az) Veri madenciliği gibi uzun süreçler sonucunda analizler yapılır. On- Line çalışır. Veri değişimi işlemleri yoğunluktadır. Güncel veriler saklandığı için veri miktarı daha az. Veriye ulaşmak ve değiştirmek isteyen her kullanıcıya hitap eder.(kullanıcı sayısı çok) Sorgularla istenilen sonuçlara anında ulaşılabilir. 11 12 Veri madenciliği en basit şekilde büyük miktarda veri içerisinden gelecekle ilgili tahmin yapmamızı sağlayacak modellerin veya bağlantıların oluşturulmasıdır. 13 Riski az olan tüm kredi kartı başvurularını bul Harcama alışkanlığı benzer olan kredi kartı sahiplerini bul DVD ile birlikte sıkça satılan ürünü bul 14 Veri madenciliği yazılımı, genellikle ilgisiz olarak görülen çok büyük hacimlerdeki verilerden anlamlı örnekleri çıkarır. 15 1950 1960 1970 1980 1990 2000 • İlk bilgisayarlar • Veri tabanı ve verilerin depolanması • İlişkisel veri tabanı yönetim sistemleri • Basit kurallara dayanan uzman sistemler ve makine öğrenimi • Büyük miktarda veri içeren veri tabanları • Veri tabanlarında bilgi keşfi • Veri madenciliği için ilk yazılım • Tüm alanlar için veri madenciliği uygulamaları 16 17 Veri tabanlarında bilgi keşfi işlemleri, son yıllarda veri tabanına sahip çevrelerde büyük ilgi toplamaktadır. Bilgi keşfinin birkaç aşaması vardır. 18 Veri madenciliği Şekil 1 Veri madenciliği buradaki modelin kurulması ve modelin değerlendirilmesi aşamalarından meydana gelmektedir. 19 Problemin tanımlanması: Uygulamanın hangi işletme amacı için kullanılacağı belirlenir. Veri hazırlanması: Kendi içinde toplama ,değer biçme,birleştirme ve temizleme,seçme ve dönüştürme olarak ayrılır. 20 21 Model kurulması: Yapılacak uygulama için en güvenilir ve güçlü modeli bulmak gerekir. Model çeşitleri ; sınıflama, kümeleme, birliktelik kuralı. Modelin kullanılması: Modeller birçok alanda kullanılıyor. Modelin izlenmesi: Değişen şartlara göre güncelleme yapılmalıdır. 22 Veri madenciliğinde ,birliktelik kuralı çıkarım algoritmaları içerisinde en fazla kullanılan algoritmadır. 24 Bu algoritmada temel yaklaşım, “eğer k-öğe kümesi minimum destek kriterini sağlıyorsa, bu kümenin alt kümeleri de minimum destek kriterini sağlar. ” şeklindedir. Bir veya daha çok öğeden oluşan küme – köğe kümesidir. 25 Destek kriteri, veride öğeler arasındaki bağıntının ne kadar sık olduğunu belirtir. X ve Y için destek her alışverişte birlikte bulunmalarıdır. Güven kriteri ise Y ürününün hangi olasılıkla X ürünü ile beraber olacağını söyler. 26 Apriori algoritmasına örnek 27 Minimum destek ve güven değeri belirlenir Üçlü birliktelikler oluşturulur. Öğeler kümesi içerisindeki her öğenin destek değeri bulunur Minimum destek değerinden küçük öğe kümeleri çıkarılır Minimum değerden küçük olanlar alınmaz İkili birliktelikler oluşturulur Üçlü birlikteliklerden destek değerini geçenler çıkarılır. 28 *TAHMİNİ YÖNTEMLER *TAMAMLAYICI YÖNTEMLER Tamamlayıcı yöntemler Tahmini yöntemler Sınıflandırma En Yakın Komşu Yapay Sinir Ağları Karar Ağaçları 1. Kümeleme 2. Birliktelik Kuralı 3. Regresyon 30 Bellek tabanlı bir tekniktir. 1. 2. • Yeni gelen birey sınıfa eklenir. • k komşusuna bakılır. 3. • Çeşitli uzaklık fonksiyonları kullanılarak uzaklık hesaplanır. 4. • En yakın neresi ise birey oraya atanır. 31 *YSA ile basit biyolojik sinir sisteminin çalışma şekli taklit edilir. *Nöron sisteminin çeşitli şekilde bağlanarak oluşturduğu ağlar öğrenme, hafızaya alma ve veriler arasındaki ilişkiyi ortaya çıkarma kapasitesine sahiptirler. 32 Karar ağaçları ile ağaç oluşturulduktan sonra, kökten yaprağa doğru inilerek kurallar yazılabilir. 33 • Karar düğümü: Veriye uygulanacak test tanımlanır. • Dal: Testin sonucunu gösterir. • Yaprak: Dalın sonucunda bir sınıflandırma elde edilebiliyorsa yaprak elde edilmiş olur. 34 Regresyon analizi, iki ya da daha çok değişken arasındaki ilişkiyi ölçmek için kullanılan analiz metodudur. Örneğin; Bir ziraatçi için buğday verimi ve gübre miktarı arasındaki ilişki Bir mühendis için basınç ve sıcaklık ilişkisi 35 Amaç, küme üyelerinin birbirlerine çok benzediği, ancak özellikleri birbirlerinden çok farklı olan kümelerin bulunması ve veri tabanındaki kayıtların bu farklı kümelere bölünmesidir. 36 Veriler arasındaki ilginç birlikteliklerin, ilişkilerin ve bağıntıların kurallar halinde bulunması işlemidir. Numa ra Ürünler 1 Ekmek, kola, süt 2 Meyve suyu, ekmek 3 Meyve suyu, kola, çocuk bezi, süt 4 Meyve suyu, ekmek, çocuk bezi, süt 5 Kola, çocuk bezi, süt Bulunan Kurallar; Süt Kola Çocuk bezi, Süt Meyve suyu 37 1-)Riski az olan tüm kredi kartı başvurularını bul (sınıflandırma) 2-)Harcama alışkanlığı benzer olan kredi kartı sahiplerini bul (kümeleme) 3-)DVD birlikte sıkça satın alınan ürünü bul (birliktelik kuralı) 38 PROBLEMLER Artık Veri Belirsizlik Boş Veri Dinamik Veri Gürültü ve Kayıp Değerler Veritabanı Boyutu Artık veri: Problemde istenilen sonucu elde etmek için kullanılan örneklem kümesindeki gereksiz niteliklerdir. Belirsizlik: Yanlışlıkların şiddeti ve verideki gürültünün derecesi ile ilgilidir. Gürültülü ve kayıp değerler: Veri girişi veya veri toplanması esnasında oluşan sistem dışı hatalara gürültü denir. 40 Boş veri: Boş değer, kendisi de dâhil olmak üzere hiçbir değere eşit olmayan değerdir. Dinamik veri: Kurumsal çevrim içi veri tabanları dinamiktir ve içeriği sürekli olarak değişir. Veritabanı boyutu: Büyük bir hızla artan veri tabanı boyutları küçük örneklemleri ele alabilecek boyuttaki veri tabanı algoritmalarını zorlar. 41 Büyük hacimde veri bulunan her yerde veri madenciliği kullanmak mümkündür. Kaynaklar incelendiğinde veri madenciliğinin en çok kullanıldığı alan olarak tıp, biyoloji ve genetik görülmektedir. 43 Bunlar kullanım yerlerine göre aşağıdaki gibi sınıflandırılmıştır: Pazarlama Taşımacılık ve ulaşım Bankacılık Turizm ve otelcilik Sigortacılık Belediyeler Elektronik Ticaret Eğitim Telekomünikasyon Bilim ve mühendislik Tıbbi Araştırmalar İnternet 44 Bu alanda en çok başvurulan veri madenciliği yaklaşımı sepet analizidir. Müşterilerinin satın alma alışkanlıklarının belirlenmesi Mevcut müşterilerin elde tutulması, yeni müşterilerin kazanılması Müşteri ilişkileri yönetimi Müşteri değerlendirme Satış tahmini 45 Kredi kartı dolandırıcılıklarının tespiti Kredi kartı harcamalarına göre müşteri guruplarının belirlenmesi Kredi taleplerinin değerlendirilmesi • Yeni poliçe talep edecek müşterilerin tahmin edilmesi • Sigorta dolandırıcılıklarının tespit edilmesi • Riskli müşteri guruplarının belirlenmesi 46 Saldırıların çözümlenmesi e-CRM uygulamalarının yönetimi WEB sayfalarına yapılan ziyaretlerinin çözümlenmesi Kullanıcı davranışlarına göre web sitesinin yenilenmesi 47 İletişim ağlarında sorunlu bölgelerin tespiti Kaçak hat kullanımlarının belirlenmesi Kullanıcı davranışlarının belirlenmesi Müşteri davranışlarına göre yeni hizmetlerin sunulması • DNA içerisindeki genlerin sıralarının belirlenmesi • Protein analizlerinin yapılması • Hastalık haritalarının hazırlanması • Hastalık tanıları • Sağlık politikalarına yön verilmesi 48 Verilerin anlamlandırılması Üretim sistemlerinin benzetimi Simülasyon ve sistem kullanımının arttırılması Kalite kontrol uygulamaları Deprem verilerinin analizi ile deprem ve etkilerinin tahmini İnternet ve web üzerindeki veriler hem hacim hem de karmaşıklık olarak hızla artmaktadır. Web madenciliği özetle internetten faydalı bilginin keşfi olarak tanımlanabilir. Örneğin internet üzerinden kitap satan Amazon şirketi BookMatcher adlı programıyla müşterilerine okudukları ve sevdikleri kitaplara göre satın almaları için kitap tavsiye etmektedir. 49 DEPREM VERİLERİNİN ANALİZ ÖRNEĞİ 04/12/2015 Tarihli Depremler 12 10 8 6 Derinlik 4 Büyüklük 2 Rms 0 Bingöl Çanakkale Amasya Rms Büyüklük Erzurum Derinlik 50 51 Ulaş Baran Baloğlu tarafından 2006 yılında gerçekleştirilen uygulamada, DNA veri kümesinde bulunan biyolojik sıralar üzerinde veri madenciliği yapılarak tekrarlı örüntüler ve potansiyel motifler çıkartılmıştır. Önerilen yöntem yukarıdan-aşağı veri madenciliği ve genetik algoritma tabanlı hibrit bir çözümdür. 52 Feridun Cemal Özçakır ve A. Yılmaz Çamurcu (2007) tarafından gerçekleştirilen bir çalışmada, bir firmanın pastane satış verileri üzerinde veri madenciliği uygulamak için birliktelik kuralları ile bir yazılım tasarlanmıştır. Genelde aynı ürün grubuna ait ürünlerin, en sık birlikte satın alınan ürünler olduğu görülmüştür. 53 • • • • BAŞAK ÇOBAN MERVE SARITAŞ AZİME AKÇAÖZ BÜŞRA AYDEMİR 54