VERİ MADENCİLİĞİNİN BİLEŞENLERİ VERİ MADENCİLİĞİNİN BİLEŞENLERİ İstatistiksel Veri Analizi Makine Öğrenimi Örüntü Tanıma Yapay Zeka Veri Tabanları Uzman Sistemler Veri Görselleştirme Yüksek Hızlı Hesaplama İSTATİSTİKSEL VERİ ANALİZİ Veri kümesinin içerdiği değişkenler arasındaki yapısal ilişkiyi, ilişkinin büyüklüğünü ve yönünü, değişim miktarını ve gelecekteki olası değerlerini belirlemek üzere gerçekleştirilen, istatistiki yöntemlere dayalı veri analiz işlemine istatistiksel veri analizi denir. İstatistiksel veri analizi veri toplama, veri seçimi, veri temizleme, veri analizi, tahmin ve yorum başlıkları altında incelenebilir. Veri kümeleri özünde çok boyutlu ve değişkenlidir. Ancak, zaman zaman tek değişken ve iki değişkenli durumlar için de analiz ihtiyacı olabilir. İkiden fazla değişken etüdü ise çok değişkenli istatistiksel veri analizi kapsamında incelenir. NICEL VERI ANALIZI Tek değişkenli – en basiti, tek bir değişkene dayanarak bir vakayı tanımlama İki değişkenli – alt grup karşılaştırmaları, eş zamanlı olarak iki değişkene dayanarak bir vakayı tanımlama Çok değişkenli – iki ya da daha fazla değişkenin eş zamanlı olarak analizi TEK DEĞIŞKEN ANALIZI Mod= en sık tekrarlayan değer Ort = ortalama Ortanca = ortadaki değer İKI DEĞIŞKENLI ANALIZLER Bağımsız değişkenin özelliklerine göre verileri grupla Her alt grubu bağımlı değişkenin özelliklerine dayanarak tanımla Tabloyu bağımlı değişkenin belli bir özelliğine dayanarak bağımsız değişken alt gruplarıyla karşılaştırarak oku İKI DEĞIŞKENLI ANALIZLER _____________________________ N GSMH (USD) BAE 25 19.870 Katar 26 15.870 Hollanda 6,5 18.560 Belçika 9,9 19.300 ____________________________________________________________________________ Ortalamadan orijinal veriyi yeniden inşa etmek olanaksız. Dağılım hakkında bilgi veren standart sapma da verilmeli MAKINE ÖĞRENIMI Bir problemi çözmek için örnek veri veya geçmiş tecrübeleri kullanmak üzere bilgisayarları programlamaya Makine Öğrenimi denir MAKINE ÖĞRENIMI İNSAN ETKILEŞIMI Makine öğrenimi sistemlerinin bir bölümü insan sezgisine olan gereksinimi tümüyle ortadan kaldırmaya çalışırken bazıları insan ve makine arasında işbirliğine dayalı bir yaklaşım benimsemektedir. Ne var ki, sistemi tasarlayan kişinin verinin kodlanma biçimi üzerinde tümüyle egemen oluşu insan sezgisinin tümüyle ortadan kaldırılmasını olanaksızlaştırmaktadır. Makine öğrenimi deneysel yöntemin otomatikleştirilmesi çabası olarak görülmektedir. MAKINE ÖĞRENIMI TEKNIKLERI ÖĞRENME AŞAMASı MAKINE ÖĞRENIMININ BAŞLıCA UYGULAMALARı Makine algılaması, Bilgisayarlı görme, Doğal dil işleme, Sözdizimsel örüntü tanıma, Arama motorları, Tıbbi tanı, Biyoinformatik, Beyin-makine arayüzleri ve kiminformatik, Kredi kartı dolandırıcılığı denetimi, Borsa çözümlemesi, DNA dizilerinin sınıflandırılması, Konuşma ve elyazısı tanıma, Bilgisayarlı görmede nesne tanıma, Oyun oynama, Yazılım mühendisliği, Uyarlamalı web siteleri ve robot gezisidir. ÖRÜNTÜ TANıMA Öğrenme sürecinde anlama, kavrama, ilişkilendirme, bütünleştirme, yorumlama, değerlendirme ve yordama gibi etkinliklere yön veren bilişsel yeterliliklerin ve duyuşsal özelliklerin anlatımıdır. ÖRÜNTÜ TANıMA Söz konusu örüntülerin makineler tarafından, Algılanması, İşlenmesi, Ayırt edilmesi, Sınıflandırılması, Eşleştirilmesi gibi işlemlerin, doğru karar verecek biçimde gerçekleştirilmesine yönelik çalışmalara örüntü tanıma denir. ÖRÜNTÜ TANıMA AŞAMALARı 1. 2. 3. Özellik Çıkarımı Öğrenme Sınıflandırma ÖRÜNTÜ TANıMA UYGULAMA ALANLARı Optik karakter tanıma Konuşma ve Konuşmacı tanıma Parmakizi Tanıma DNA Kimliklendirme Otomatik Savunma Sistemleri Fabrika Üretim Hata Denetim Sistemleri ÖRÜNTÜ TANıMA YAPAY ZEKA Yapay zeka (YZ -Artificial Intelligence -AI) yapay bir varlığın zeka göstermesi olarak tanımlanmaktadır. Bu tür sistemler genelde bilgisayarlar olarak varsayılmaktadır. Bilgisayar bilimlerinin temel konularından olan YZ makinelerin akıllı davranış göstermesi, öğrenme ve adaptasyon konularıyla ilgilenmektedir. YAPAY ZEKA YZ konusundaki araştırmalar, üretim makinelerinden, otomasyona dayalı görevlere kadar zeka gerektiren konuları dikkate almaktadır. Örnekler, kontrol, planlama, zamanlama gibi tanısal ve tüketici cevaplarına yanıt verecek biçimde, el yazısı, konuşma ve yüz tanıma gibi gerçek dünya problemlerine çözüm bulacak niteliktedir. YZ sistemleri, ekonomi, tıp, mühendislik ve askeri alanlar kadar, satranç gibi klasik strateji oyunlarından, diğer oyunlara kadar ev bilgisayarları yazılım uygulamalarında da kullanılmaktadır YAPAY ZEKA TEKNOLOJİLERİ Uzman Sistemler (Uzmanlık bilgisini işler), Yapay Sinir Ağları, Genetik Algoritmalar, Bulanık Önermeler Mantığı (belirsizlikleri programlamak için kullanılır), …….. YAPAY ZEKA PROBLEMLERI Problem Çözümleme: Burada karmaşık kombinasyonel özellikli problemlerin sezgisel yöntemlerle çözümü ele alınmaktadır. Oyunların Modellenmesi: Burada genellikle satranç gibi stratejik oyunlar ele alınarak bilgisayarın insana benzer bir biçimde kararlar verebilmesinin nasıl sağlanacağına değinilmektedir. Bilgilerin Modellenmesi: Burada bilgilerin modellenmesi ve onların farklı yöntemlerle bilgisayara aktarılması üzerinde durulmaktadır. Ayrıca bilgisayarda farklı yöntemler kullanılarak çok büyük boyutlardaki bilgilere nasıl hızlı erişim sağlanacağı açıklanmaktadır. Otomatik Teorem İspatı: Burada matematik ve mantıkla ilişkili bir biçimde önermelerin ispatı ve yenilerinin bulunması üzerinde durulmaktadır. YAPAY ZEKA PROBLEMLERI Uzman Sistemler: Uzmanlık konusundaki problemlerin çözümü ile ilgili özel bilgileri içermektedir. Bu sistemler, farklı alanlarda uzmanlaşmış kişiler tarafından çözümlenen sorunların bilgisayar yardımı ile çözümlenmesinde kullanılan sistemler olarak tanımlanabilir. Doğal Dilin İşlenmesi: Burada genellikle diyaloglu sorucevap biçiminde olan sistemler, anlama, cümlelerin analizi (morfoloji, sentaks, semantik ve pragmatik), hata düzeltilmesi, otomatik çeviri problemleri ele alınmaktadır. Örüntü Tanıma: Burada görsel ve işitsel nesnelerin tanınması araştırılmaktadır. Tıbbi bir görüntünün tanınması, sahne (scene) analizi, el yazısı veya basılı karakter tanınması bu cinsten olan problemlerdir. Robotik: Mekanik biçimde tasarlanmış ve akıllıca denilebilen bilgilerle donatılmış sistemler düşünülmektedir YAPAY ZEKA UYGULAMA ÖRNEKLERI Robotik • Yol ve önerge planlama (Navigation – Gemi İşletmesi) • Bilgisayar görme • İmalat kontrol (CAM) • İmalat (Manufacturing Diagnostic Systems) • İmalat çizelgeleme Uzman Sistemler • Tıbbi teşhis (MYCIN) • Savaş alanı yönetimi (Pilot’s Associate) • Jeolojik başarı (Prospecting) (PROSPECTOR) • Bilgisayar konfigürasyon (XCON) • Güç sistemleri kontrolü • Üretim planlama ve çizelgeleme • Tasarım YAPAY ZEKA UYGULAMA ÖRNEKLERI Game Playing (Oyun Oynama) Ana Dili Anlama Teorem İspatlama Bilgisayar Yardımıyla Eğitim/Öğrenme Otomatik Karar Verme Otomatik Yazılım Oluşturma YAPAY ZEKA ILE HANOI KULELERI VERİ TABANLARI Verileri, erişim ve kullanım kolaylığı sağlayacak biçimde belirli bir mantık içerisinde depolayan yapılara veritabanı denilmektedir. Veritabanları yapısal (structured) yani tanım ve standartları belirli verileri, aynı mantıkda depolayacak biçimde çalışırlar. Belirli tanım, standart ve metodoloji altında depolanmayan veriler ise yapısal olamayan (unstructured) veri olarak adlandırılırlar. VERİ TABANLARI Veritabanları genel anlamda, •Hiyerarşik, •İlişkisel, •Nesne yönelimli başlıkları altında çeşitlendirilebilir. HIYERARŞIK VERI TABANLARı Bu veritabanı tipi, ana bilgisayar ortamlarında çalışan yazılımlar tarafından kullanılmaktadır. Bu türde en çok kullanılan yazılım, IBM tarafından çıkarılan IMS' dir. Uzun bir geçmişe sahip olmasına rağmen, PC ortamına uyarlanan hiyerarşik veri tabanları yoktur. Hiyerarşik veri tabanları, bilgileri bir ağaç (tree) yapısında saklar. Kök (Root) olarak bir kayıt ve bu köke bağlı dal (Branch) kayıtlar bu tip veritabanının yapısını oluşturur. Yukarıda böyle bir veri tabanının yapısı gösterilmektedir. İLIŞKISEL VERI TABANLARı İlişkisel veri tabanı (Relational Database), verilerin tablolarda satır ve sütunlar hâlinde tutulduğu ve yüksek bir veri tutarlılığına sahip veri depolama sistemidir. İlişkisel veri tabanını çeşitli tablolar arasında organize edilmiş verilerden oluşan veri tabanı olarak açıklayabiliriz. Bu farklı tablolar arasındaki veriler, çeşitli anahtarlar vasıtası ile birbirlerine bağlanırlar. İlgili tablolarda, sütunlar arasında bir anahtar sütun yeralır. Bu anahtar sütun aracılığı ile birden çok tablo verileri birbiriyle bağlantı sağlayabilir ve herhangi bir sorgulamada birlikte görüntülenebilir. Bu tür veri tabanları arasında PostgreSQL, MySQL, Oracle, dBase, Informix, Ingres, başta gelmektedir. N ESNEYE YÖNELIK VERI TABANLARı •Nesneye yönelik veri tabanı da , JAVA,C++ gibi nesneye dayalı bir dille (OOPL) yazılmış olan ve yine JAVA,C ++ gibi nesneye dayalı (OOPL) bir dille kullanılan veri tabanı anlamına geliyor. Günümüz teknolojisinde yüzde yüz nesneye yönelik bir veri tabanı yaygın olarak kullanıma sunulmuş değildir. Ancak nesneye yönelik veri tabanlarının bazı üstünlükleri olacağından söz ediliyor. İlişkisel veri tabanları ile karşılaştırıldığında nesneye yönelik veri tabanlarının sahip olması gereken üstünlükler şunlardır: •Nesneler, bir tabloda yer alan bir kayıttan çok daha karmaşık yapıya sahiplerdir ve daha esnek bir yapıda çok daha kullanışlı düzenlenebiliyorlar. •Nesneye dayalı bir veri tabanında, yapısı gereği arama işlemleri çok hızlı yapılabilir. Özellikle büyük tablolarla uğraşırken ilişkisel veri tabanlarından çok daha hızlı sonuca ulaşırlar. Ancak çalışma mantığı tümüyle değişir Tüm bu özellikler tamamen nesneye yönelik olan veri tabanları için geçerlidir. Bazı ilişkisel veri tabanları ile çalışan yazılımlarda da nesnelerin bazı özellikleri kullanır, ama nesneye yönelik veri tabanı bunu kendini ilişkisel veri tabanı kurallarına uydurarak gerçekleştirebilir UZMAN SİSTEMLER Uzman bilgisini, akıllı sistemler aracılığıyla sunan sistemlere Uzman Sistem denilmektedir. Yapay zeka ile uzman sistem benzeşmesi oldukça fazla olmasına karşın aralarındaki nüans şu şekildedir, •Yapay zeka, insan gibi düşünüp karar vermek, •Uzman sistem ise çalışılan konunun uzman bilgisine göre karar vermek üzeretasarlanmıştır UZMAN SİSTEMLER İnsan uzmanlar (human experts) Uzman sistemler (expert systems) Bilinen programlar (Conventional programs) Dar bir alandaki problemleri eldeki bilgileri buluşsal yöntemlere veya tecrübeye dayalı yöntemlere bağlayarak çözerler. Dar bir alandaki problemleri eldeki bilgileri kurallar ve sembolik sebepsonuç ilişkilerine bağlayarak çözerler. Algoritmalar ve iyi tanımlanmış bazı işlemler kullanarak eldeki verilerle genel sayisal problemleri çözerler. UZMAN SİSTEMLER ÖRNEK VERİ GÖRSELLEŞTİRME Veriyi doğru analiz etmek, veriyi doğru anlamak ve tanımaktan geçmektedir. Betimsel veri madenciliği/istatistiki yöntemler veri hakkında sayısal bilgi verseler de, sadece sayısal değerlere bakarak karar vermek zaman zaman yanıltıcı olabilmektedir. Ayrıca, yapılandırılan modelin tahmin sonuçlarını değerlendirmek, gerçekleşmelerle karşılaştırmak gibi durumlarda görsel destek algılama ve anlamada kolaylık sağlamaktadır. VERİ GÖRSELLEŞTİRME Veri görselleştirme, verilerin grafik yöntemler aracılığıyla sunumu olarak ifade edilebilir ve karar verme sürecinde görsel katkı sağladığı ifade edilebilir. Çubuk grafik, pasta grafik, saçılım grafiği, histogram gibi betimsel görsel yöntemler bu kapsamda incelenebileceği gibi, hiyerarşik kümeleme analizindeki dendogram veya karar ağaçları yöntemlerindeki ağaç grafikleri gibi tahminsel grafikler de bu kapsamda ele alınabilir. VERİ GÖRSELLEŞTİRME VERİ GÖRSELLEŞTİRME VERİ GÖRSELLEŞTİRME VERİ GÖRSELLEŞTİRME YÜKSEK PERFORMANSLI (HIZLI) HESAPLAMA Bu terim genellikle, bilimsel araştırmalar veya bilgisayar bilimleriyle ilişkili olarak ele alınmaktadır. İlişkili terim olan yüksek performanslı teknik hesaplama, küme (cluster) tabanlı hesaplamanın mühendislik uygulamalarına atıfta bulunmaktadır. Mantık olarak, çok yüksek konfigürasyonlu olmayan bir bilgisayarla çok uzun zaman alacak bir hesaplamanın, çok yüksek konfigürasyonlu bir veya küme mantığıyla çalışan birden fazla makinede (fiziki olarak aynı mekanda olsun veya olmasın) çok kısa sürede hesaplanmasıdır. Yüksek performanslı hesaplama, zaman zaman süper hesaplamayla eş anlı olarak anılmaktadır. Ancak, süper hesaplama, yüksek performanslı hesaplamanın daha güçlü bir alt kümesidir.