ISE 302 VERİ MADENCİLİĞİ DR. TUĞRUL TAŞCI Ders Planı Hafta Konu Başlığı Hafta Konu Başlığı 1 Veri Madenciliği Nedir? Ne Değildir? 8 Sınıflandırma 2 Veri Tipleri, Verinin Yorumlanması 9 Kümeleme 3 Bilgi Keşfi Süreci ve Veri Madenciliği Aşamaları Ödev 10 11 4 5 Veri Temizleme, İndirgeme, Bütünleştirme 12 Veri Ambarı 6 Veri Dönüştürme Yaklaşımları ve Teknolojileri 13 7 Birliktelik Analizi Kısa Sınav 14 Ara Sınav MS Analysis Services ile VM Uygulamaları SQL Server, Analysis Services, Integration Services, Reporting Services, SQL Server Data Tools VM Araştırma Eğilimleri İmge Madenciliği Kısa Sınav Veri Madenciliği Nedir? Veri Madenciliği, örüntü tanıma, istatistik ve matematiksel yöntemlerin kullanımıyla devasa miktardaki güncel ya da geçmiş veri içerisinden ilgi çekici ( önemsiz olmayan, gizli, önceden bilinmeyen, potansiyel olarak kullanışlı ) bilginin gelecekteki eğilimleri kestirmek ya da sonraki aşamalarda analiz etmek üzere etkin şekilde çıkarılması sürecidir. Veri Madenciliğinin Önemi İşletmelerde verimlilik / karlılık artışı Giderlerinin azaltılması Zarar oluşmadan tahmin edip ortadan kaldırılması Risk Yönetimi / Hilekarlık Tespiti Bilimsel araştırmalarda hız ve etkinlik artışı İnsansız sistemlerin gelişimine destek Eğitim – Sağlık – Güvenlik ve diğer birçok sektörde önleyici tedbirler alınması ve hizmet iyileştirme Veri Kaynakları Müşteri Alış-veriş Kayıtları ( Fiziksel ve Sanal Mağazalar ) Müşteri İşlem Kayıtları ( Telekomünikasyon, Bankacılık ve Internet Bankacılığı ) İşletme İşlem Kayıtları ( Diğer işletmelerle yapılan alım-satımlar, banka işlemleri, borsa işlemleri ) Bilimsel Veriler (uzay araştırmaları, ilaç araştırmaları, okyanus ve yer altı araştırmaları, deprem araştırmaları, canlılarla ilgili araştırmalar ) Güvenlik ve Gözetleme Sistemleri (Şehir merkezleri, AVM’ler , Şehir giriş çıkışları, hava alanları, Otoparklar, Binalar) Uydu ve Haberleşme Sistemleri Olimpiyat Oyunlar, Ulusal ve uluslararası spor müsabakaları Dijital Medya: Dijital resim, müzik ve videolar ( Filmler ) Dijital Kütüphaneler Web Siteleri ve Mobil Uygulamalar E-Posta & Sosyal Medya: Youtube, Facebook, Twitter, Instagram, WhatsApp Tıbbi Kayıtlar ve Kişisel Veriler Verilerle Ne Tür Uygulamalar Yapılabilir ? Karakterizasyon: Belli bir sınıfa ait karakteristik özellikler Ayrıştırma: Belli sınıfları birbirinden ayırmak Evrilme ve Sapma: Zamanla değişen verilerle ilgili yapılan çalışmalardır. Sınıflandırma: Verinin önceden belirlenmiş sınıflara bölümlenmesidir. Kümeleme: Verilerin benzerliklerine göre gruplanması Tahmin: Bilinmeyen değerlerin tahmin edilmesi Aykırılık Analizi: Aykırı ya da sıra dışı değerlerin/durumların tespit edilmesi Birliktelik Analizi: Veriler arasındaki karşılıklı ilişkilerin analizi. Değişken Tespiti Görselleştirme •Anlık ve grafiksel olarak keşfetme Veri Ambarı (Data Warehouse) Veri ambarı, çeşitli iç ve dış veri kaynaklarından elde edilen verilerin uygun dönüşümler yapılarak birleştirilmesiyle oluşturulan veri kaynağıdır. Aktif veri kaynağı en son haliyle veri ambarına yansıtılır. Veri ambarına girmiş veriler üzerinde değişiklik yapılamaz. Veri ambarı raporlama, analiz ve veri madenciliği amaçlı olarak kullanılır. Veri ambarı, kritik kararlar için üst yöneticilere bilgi sağlayan karar destek sisteminin veri kaynağıdır. Veri ambarı hedef yönelimlidir. Veri ambarı belli bir konuyu analiz etmek üzere kullanılır. (Data Mart) Satış verileri gibi. Veri ambarı bütünleşiktir. Veri ambarı farklı kaynakların birleştirilmesiyle elde edilir. A ve B veri kaynaklarında belli bir ürünün öznitelikleri farklı olabilir, ancak veri ambarında bunlar tek olmalıdır. Veri ambarının zaman boyutu vardır. Tarihsel veriler veri ambarında tutulur. Online sistemde müşterinin son adresi tutulurken, veri ambarında önceki adresleri de tutulur. Veri ambarındaki veriler kalıcıdır. Veri ambarına giren bir veri değiştirilemez. Veri Ambarı – Veri Kaynakları İç Veri Kaynakları Kurumsal kaynak planlama sistemi Envanter ve lojistik veritabanları Çağrı merkezi verileri Pazarlama ve kampanya verileri Dış Veri Kaynakları Siyasal, Ekonomik, Sosyal ve Demografik veriler Rekabet ve pazar verileri Anketler Coğrafi bilgi sistemleri E-Ticaret sistemi ve Web sitesi erişim kayıtları Kişisel veri kaynakları (Çalışanlar tarafından tutulan kayıtlar) Diğer ulusal ve uluslararası istatistiki veriler (TÜİK) Veri Ambarı – Geliştirme & Uygulama Süreçleri Veri Kaynakları POS WEB ETL Seç Birleştir Dış Veri … Pazarlama Çıkar Dönüştür Yükle Uygulama Erişim Veri Ambarı Üretim Finans … API / Ara Yazılımlar ERP Raporlama OLAP Veri Madenciliği Meta Veri Veri hakkında veri demektir. Verinin yapısı ve verideki anlama ilişkin bilgilerin tutulduğu bir kütüktür. Kullanımına göre ikiye ayrılır: İşletme Açısından Meta Veri: Verinin ne anlama geldiğini izah eder. Bir sözlük gibi düşünülebilir. Veri ne anlama geliyor? Nerede bulabilirim? sorularının cevabıdır. Teknik Açıdan Meta Veri: Teknik personel için gerekli bilgilerin bulunduğu kütüktür. Biçim, uzunluk, tanım aralığı, veritabanı Sipariş Tarihi Ürün Adedi Birim Fiyat 15.01.2016 30 10 15.02.2016 40 9 15.03.2016 50 8 Müşteri MH1 MH2 MH3 Mus01 300 360 400 Mus02 400 450 480 Mus03 700 720 800 Bir müşterinin tarih bazında aldığı ürün sayıları ve bu ürünlerin birim fiyatları tutuluyor olsun. Bu veriler veri ambarına aktarılırken ürün adedi ve birim fiyatı çarpılarak aktarılsın. Meta Veri: MH1 = Müşteri 1. Ay Hasılatı, Yöntem= Fiyat * Adet, Pazarlama Data Martı ETL (Extraction – Transformation – Loading) İşlemleri Çıkarım (Extraction): Bir veya daha fazla veri kaynağından verinin çıkarılması, alınması işlemidir. Veri ambarının ilk oluşturulması sürecinde eski sistemlerdeki tüm veriler tümüyle veri ambarına aktarılır. Aktarım işlemleri daha sonraki zamanlarda aktif sistemlerdeki verilerin güncellenmesine bağlı olarak yapılır. Dönüşüm (Transformation): Çekilen verinin dönüştürülmesidir. Dönüştürmedeki amaç, verilerin kalitesinin arttırılmasıdır. Tekrarlar, eksiklikler, tutarsızlıklar giderilir, normalleştirme ve birleştirme yapılır. Yükleme (Loading): Verilerin fiziksel olarak veri ambarına yüklenmesi işlemidir. OLAP – OLTP (Online Analytical Processing – Online Transactional Processing) Veri ambarı ile sağlanan veri kaynağı temelinde karar vermeye yardımcı olacak şekilde yapılan veri analizi ve sorgulama işlemlerine OLAP denir. OLAP analitik işlemler için tasarlanmış, çok boyutlu ve özet bilgilerin tutulduğu veri tabanlarıdır. OLAP sistemlerinin en önemli özelliği verilerin mutlaka zaman boyutu olmasıdır. OLAP temelde OLTP sistemlerinden beslenerek organizasyonun tamamı hakkında çok hızlı bir şekilde bilgi sağlanması amacıyla oluşturulmuş yapılardır. OLTP tarzı veri depolama sistemleri genelde ilişkisel verileri tutmak için dizayn edilmiştir. Günlük hayatta kullandığımız uygulamalarımızın veri tabanları çoğunlukla OLTP tarzı sistemlerdir. Firmalar için günlük bütün işlem kayıtları ilişkisel tablolar halinde OLTP veri tabanlarında tutulur. Örneğin bir firmanın yaptığı bütün satışlara ait detaylı bilgilerin yer aldığı sistemler OLTP, bu verilerin satış zamanı, yeri gibi özel boyutlar bazında gruplanarak özet olarak tutulduğu sistemler ise OLAP olarak adlandırılır. OLAP – Temel Kavramlar Küp: Herhangi bir OLAP veritabanı içinde kaydetme ve geri alma işlemleri için kullanılan temel veri yapısıdır. Boyut: Bağımsız mantıksal bölümlerle veriyi organize etme bir yolunu sağlar. Boyutu bir bilgi kategorisi gibi düşünmek uygundur. Eleman: Boyutun alt kategorisi olarak düşünülebilir. Asya, Türkiye, İstanbul Ölçü (Measure): Analiz edilmek istenen verilerdir.. Satış sayısı, kâr, çalışan sayısı Ölçü kendi başına anlam ifade etmeyen bir değerdir. Ancak boyutlarla kullanıldığında anlamlı hale gelir. Zaman, Yerleşim, Ürün Kâr = 300 | Asya 2015 Kârı 300 Öznitelik: Boyutun iç hiyerarşiye sahip olmayan bir özelliğidir. (Müşteri – Şehir) Bu ilişki başka durumlarda da kullanılabilir. (Kıta – Ülke – Şehir, Şehir – Cinsiyet – Eğitim) OLAP Klasik raporlardan farklı olarak, OLAP ile kuruluşa ilişkin bilgiler hızlı ve etkileşimli bir şekilde incelenebilir. Bir OLAP küpü üzerinde aşağıdaki işlemler yapılabilir: OLAP, paylaşılan çok boyutlu bilginin hızlı analizi (FASMI) olarak da tanımlanır. Fast (Hızlı) Analysis (Analiz) Shared (Paylaşımlı) Multidimensional (Çok Boyutlu) Information (Bilgi) Dice (Çevir) Slice (Dilimle) Yer – Zaman Ürün – Zaman Son 1 yılın verileri Drill Up / Down (Birleştir / Detaylandır) Yıl Ay, Kıta Ülke Şehir OLAP Tipleri Çok boyutlu OLAP (MOLAP): Çok boyutlu OLAP, klasik OLAP formudur ve bazen sadece OLAP da denir. MOLAP küçük çaptaki veri setleri için uygundur çünkü hızlı hesaplar ve fazla yer kaplamaz. İlişkisel OLAP (ROLAP): ROLAP direkt olarak ilişkisel veri tabanlarıyla çalışır. Temel veri ve boyut tabloları, ilişkisel tablolar olarak depolanır ve yeni tablolar toplu bilgiyi tutmak için oluşturulur. ROLAP daha ölçeklenebilirdir, fakat yüksek hacimli işlemlerin etkili kurulumu zordur. Hibrid OLAP (HOLAP): Açık bir tanımı olmamakla birlikte, veriyi ilişkisel ve özel depo olarak bölen OLAP tipidir denilebilir. Örneğin bir HOLAP veri tabanı, yüksek miktarda detaylı veri için ilişkisel tablolarını, daha detaysız ve düşük miktarda veri için özel depoları kullanabilir. OLAP / OLTP Karşılaştırması Kriter OLTP OLAP Amaç Günlük iş fonksiyonlarını yerine getirmek Karar vermeyi desteklemek ve iş ve yönetim sorgularını cevaplamak Veri kaynağı İşlem veri tabanı (etkinlik ve tutarlılığa dayanan normalize edilmiş veri deposu) Veri ambarı veya özel veri tabanı (doğruluk ve tamlığa dayanan normalize edilmemiş veri deposu) Raporlama Rutin, periyodik, odaklanılmış raporlar Özel amaçlı, çok boyutlu, geniş odaklı sorgular ve raporlar Kaynak ihtiyaçları Olağan ilişkisel veri tabanları Çok işlemcili, yüksek-kapasiteli, özel veri tabanları Sistem yönelimi Müşteri odaklıdır, işlemler ve sorgular IT personeli veya müşteriler tarafından yapılır. Konu odaklıdır ve karar vericiler, yöneticiler, analistler tarafından kullanılır. Tasarım Varlık-ilişki modeli Yıldız, Kar Tanesi veya Galaksi modeli İstanbul Ankara İzmir Adana Çok Boyutlu Veri Modeli – Veri Küpü Bursa 2015 2014 İstanbul Ankara 2013 İzmir 2012 2011 Adana Bursa Çok Boyutlu Veri Modeli – Veri Küpü İki Boyutlu Tablo Üç Boyutlu Tablo Ankara Satış Miktarları (Ton) Zaman İstanbul Satış Miktarları (Ton) Zaman Ürün Beyaz Kaşar Tulum Labne Ürün İstanbul Satış Miktarları (Ton) Beyaz 43 Süzme Beyaz 2015 93 80 80 75 58 2015 2014 67 78 73 65 55 2014 2013 58 73 67 67 58 2013 2012 63 71 66 60 54 2012 41 93 45 67 23 58 30 63 2011 60 59 56 45 64 2011 60 Kaşar 40 Kaşar 38 80 33 78 41 73 29 71 59 Tulum Ürün 35 Tulum 33 80 37 73 36 67 36 66 56 Labne 25 Labne 35 75 37 65 30 67 25 60 45 Süzme 20 Süzme 25 58 28 55 24 58 24 54 64 Yıldız & Kar Tanesi Şemaları Yıldız Şeması Kar Tanesi Şeması Boyutlar Bağlı Boyut OgrDers Ogrenci Ders OgrID Bolum DersID BolumID OgrID Fact Tablosu DersID Ad OgrDers Ad Ogrenci Not Soyad OgrID Zorluk OgrID Devam Yas DersID Ad Not Soyad Devam Ölçü Yas Ders DersID Ad Zorluk BolumID Ad Fakulte Galaksi Şeması Fact Tablosu OgrDers AktDers OgrID OgrID DersID AktID Not Not Devam Yıldız Şeması her bir boyutu için geniş bir merkezi tablo ve ona bağlı küçük yardımcı tabloları (boyut tabloları) bulunduran şema tasarımıdır. Kar Tanesi Şeması, yıldız şema modelinin bir çeşididir. Yıldız şemasına göre en önemli farklılık boyutların normalize değerlerden oluşmasıdır. Galaksi Şeması, karmaşık uygulamalarda boyut tablolarını paylaşmak için birden çok gerçek tabloya gerek duyulan tasarımdır. Bolum BolumID Ad Devam Fakulte Ogrenci OgrID Aktivite Ad AktID Soyad Tip Yas Ders DersID Ad Zorluk BolumID