BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ VERİ MADENCİLİĞİ VE SOSYAL AĞ ANALİZİ ARAŞTIRMA LABORATUVARI 10 Aralık 2011, Cumartesi Fen ve Mühendislik Alanlarındaki Çeşitli Araştırma Projelerinden Örneklemeler İçerik • • • • Araştırma Laboratuvarı nedir? VMSAA Lab. Veri Madenciliği Örnek Projeler Araştırma Laboratuvarı • Laboratuvar, bilimsel araştırmaların, deneylerin ve ölçümlerin kontrollü bir şekilde yapılabilmesine olanak veren tesistir. (vikipedi) VMSAA Lab. • VMSAA Lab. Veri Madenciliği ve Sosyal Ağ Analizi konularında bilimsel araştırma yapmak için 2011 yılında kurulmuştur. • Kadro: – – – – Öğretim Üyeleri Araştırma Görevlileri Doktora / Yüksek Lisans öğrencileri Lisans öğrencileri • Bilgisayar Mühendisliği • Bilişim Sistemleri Mühendisliği VMSAA Lab. • Deney Ortamımız: – Bilgisayarlar, İş İstasyonları – İnternet, Web – Sosyal Ağlar • Malzemelerimiz: – – – – – Algoritmalar Programlama Dilleri Yazılım Geliştirme Ortamları Hazır yazılım paketleri Gerçek hayat ve sentetik veri kümeleri VMSAA Lab. • Amaç: – Daha hızlı – Daha doğru sonuçlara ulaşan – Az eğitim verisi ile öğrenebilen – Çok büyük miktarlarda veriyi işleyebilen – Daha anlamlı sonuçlar çıkartabilen Kısacası daha zeki (yapay zeka) algoritmaların ve yöntemlerin geliştirilmesidir. VMSAA Lab. • Deneyler: – Farklı parametreler kullanarak • • • • • Farklı algoritma girdi değerleri Farklı türdeki veri kümeleri Eğitim kümesi büyüklüğü Özellik sayısı Önişleme yöntemleri, ... Farklı algoritmaların başarımı matematiksel ve istatiksel yöntemlerle ölçülerek kıyaslanmaktadır. Neden Veri Madenciliği? • Veri patlaması veya seli: Otomatik veri toplama araçları, olgun veri tabanı ve bilgi teknolojileri, yaygın bilgi teknolojileri kullanımı, veri tabanları, veri anbarları ve diğer veri depolarında çok büyük miktarlarda veri ve bilgilerin toplanmasını sağlamakta ve veri miktarı sürekli artmaktadır. • Mağazalardaki satış/alış işlemleri • Banka ve Kredi kartı işlemleri • Bir çok sektördeki veri ve işlemler • Bilimsel veriler, uydu ve radarlardaki algılayıcılar gelen veriler • Web verileri • Bilgi sistemleri gizli ve geleneksel yöntemlerle anlaşılamayan bilgileri içermektedir. Slayt: Selim Akyokuş, Veri Madenciliği Yöntemlerine Genel Bakış, 14/10/2006 Veri Madenciliği • Büyük miktarlardaki veriden – sıradan olmayan – veri içerisinde mevcut – üstü kapalı yada başka bir deyişle verinin büyüklüğü ve karmaşıklığından dolayı açık bir şekilde farkedilmeyen – daha önce bilinmeyen – faydalı bilgilerin (örüntü/desen) çıkartılması sürecidir. Çalışmalar • Akıllı Ağ Örümceği • İnternet yönlendirme trafiğinde anormal durum tespiti • Haber Metinlerinin Otomatik Sınıflandırılması • Metin Kümeleme Algoritmaları Akıllı Ağ Örümceği • Ağ Örümceği (Web Spider) web sayfalarındaki bağlantıları kullanarak internetteki web sayfalarını gezen ve istenilen sayfaları indiren bir programdır. Akıllı Ağ Örümceği • Odaklı Ağ Örümceği (Focused Web Spider) internette gezerken sadece belli bir konuya ait web sayfalarını indirir. Bu programın karşılaştığı her web sayfasının konuyla ilgili olup olmadığını belirlemesi gerekir. – Metin sınıflandırma (Veri Madenciliği Algoritması) – Sosyal Ağ Analizi yöntemleri (İlgili sayfaların bağlantı verdiği web sayfaların konuyla ilgili olma ihtimali yüksektir) Akıllı Ağ Örümceği • Uygulama: Türkçe web sitelerindeki Bilgisayar Mühendisliği ile ilgili iş ilanlarının indirilmesi • Temel yöntem: Kelime ve ağırlık tabanlı konuya uygunluk tespiti • Geliştirilen yöntem: – – – – Naive Bayes (veri madenciliği / yapay zeka) Etiketli veri (ilgili/ilgisiz web sayfları) Eğitim / Model oluşturma Karşılaştığımız web sayfalarını otomatik sınıflandırması Akıllı Ağ Örümceği • Algoritma: Akıllı Ağ Örümceği • Deney Sonuçları: Akıllı Ağ Örümceği • Bilgisayar Müh. Lisans Öğrencimiz Duygu Taylan’ın bitirme projesi • Proje ekibine araştırma görevlimiz Mitat Poyraz dahil edildi • Proje geliştirilerek çeşitli deneyler yapıldı ve sonuçlar INISTA 2011 konferansında yayınlandı İnternet Yönlendirme Trafiğinde Anormal Durum Tespiti • Küresel veya yerel internet hizmetini kesintiye uğratan olaylar: – Büyük çaplı elektrik kesintileri – Hatalı yönlendirme cihazı ayarları – Bilgisayar virüsü/kurdu saldırıları – Depremler / denizaltı kablolarının kopması • Bu olayları kısa sürede tespit edilip olaya özgü tedbirlerin alınması büyük önem taşımaktadır. İnternet Yönlendirme Trafiğinde Anormal Durum Tespiti • İnternetin omurgasını yönlendirme cihazları (router) oluşturmaktadır • Bu cihazlar birbirleri ile BGP adlı bir protokol ile haberleşerek IP paketlerinin dünya üzerindeki bir bilgisayardan diğerine nasıl gideceğini belirlerler • Bu haberleşme esnasında birbirlerine internet adreslerinin ulaşılabilirliği ile ilgili duyuru, güncelleme, iptal mesajları gönderirler • Bu mesajlar internet yönlendirme trafiğini oluşturur • Cihazların birbirleri ile haberleşememesi durumunda internet hizmeti kesintiye uğrar – Örneğin bu e-devlet hizmetlerinin kesintiye uğraması ve internet üzerinden çalışan ebay, amazon gibi şirketler için ciddi mali kayıplar anlamına gelir İnternet Yönlendirme Trafiğinde Anormal Durum Tespiti İnternet Yönlendirme Trafiğinde Anormal Durum Tespiti • Farklı anormal olaylar internet yönlendirme mesaj trafiğinde farklı etkilere yol açmaktadır • İnternet yönlendirme trafiğinde farklı anormal olaylar için farklı desenler bulunabilir mi? – Yapay Zeka / Veri Madenciliği / Makina Öğrenmesi / Sınıflandırma algoritmaları • Bu desenleri kullanarak yeni bir anormal olay olduğunda bunun ne tür bir olay olduğunu kısa zamanda tahmin edebilirmiyiz? – – – – Bilgisayar virüsü/kurdu saldırısı Büyük çaplı elektrik kesintisi Hatalı yönlendirme cihazı ayarları Denizaltı kablo kopması İnternet Yönlendirme Trafiğinde Anormal Durum Tespiti • İnternet yönlendirme trafiğinden uygun özelliklerin çıkarımı – Duyuru mesajlarının sayısı – İptal mesajlarının sayısı – Güncelleme mesajlarının sayısı – ... İnternet Yönlendirme Trafiğinde Anormal Durum Tespiti • Kullanılan geçmişte oluşmuş anormal olaylar – veri kümesi: İnternet Yönlendirme Trafiğinde Anormal Durum Tespiti • Slammer saldırısı: İnternet Yönlendirme Trafiğinde Anormal Durum Tespiti • Sonuçlar: – Bir bilgisayar virüsü saldırısı ile eğitilmiş olan sistemin daha sonraki bir virüs saldırısını tespiti İnternet Yönlendirme Trafiğinde Anormal Durum Tespiti • Sonuçlar: – Büyük çaplı elektrik kesintisinin tespiti İnternet Yönlendirme Trafiğinde Anormal Durum Tespiti • Bilgisayar Müh. Erasmus değişim öğrencimiz Iñigo Ortiz de Urbina Cazenave (İspanya) ve Lisans Öğrencimiz Erkan Köşlük’ün bitirme projesi • Proje geliştirilerek çeşitli deneyler yapıldı ve sonuçlar INISTA 2011 konferansında yayınlandı Kaynaklar • Doğuş Üniversitesi Bilgisayar Mühendisliği Bölümü http://www.ce.dogus.edu.tr • VMSAA Araştırma Laboratuvarı http://dmrl.ce.dogus.edu.tr • Yayınlarımız: – Torunoğlu, D., Çakırman, E., Ganiz, M.C., Akyokuş, S., Gürbüz, M.Z. (2011). Analysis of Preprocessing Methods on Classification of Turkish Texts. INISTA 2011 , June, 2011, Istanbul, Turkiye. – Cazenave, I.O.U, Köşlük, E., Ganiz, M.C. (2011). Application of the SpecHybrid Algorithm to Text Document Clustering Problem. INISTA 2011, June, 2011, Istanbul, Turkiye. – Taylan, D, Poyraz, P., Akyokus, S., Ganiz, M.C. (2011). Intelligent Focused Web Crawler: Learning Relevant Links. INISTA 2011, June, 2011, Istanbul, Turkiye. – Uykan, Z., Ganiz, M.C. (2011). Application of the SpecHybrid Algorithm to Text Document Clustering Problem. INISTA 2011, June, 2011, Istanbul, Turkiye.