(DOĞUŞ ÜNİVERSİTESİ DMSNA Lab v2)

advertisement
BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ
VERİ MADENCİLİĞİ VE SOSYAL AĞ
ANALİZİ
ARAŞTIRMA LABORATUVARI
10 Aralık 2011, Cumartesi
Fen ve Mühendislik Alanlarındaki Çeşitli Araştırma Projelerinden Örneklemeler
İçerik
•
•
•
•
Araştırma Laboratuvarı nedir?
VMSAA Lab.
Veri Madenciliği
Örnek Projeler
Araştırma Laboratuvarı
• Laboratuvar, bilimsel araştırmaların,
deneylerin ve ölçümlerin kontrollü bir şekilde
yapılabilmesine olanak veren tesistir. (vikipedi)
VMSAA Lab.
• VMSAA Lab. Veri Madenciliği ve Sosyal Ağ Analizi
konularında bilimsel araştırma yapmak için 2011
yılında kurulmuştur.
• Kadro:
–
–
–
–
Öğretim Üyeleri
Araştırma Görevlileri
Doktora / Yüksek Lisans öğrencileri
Lisans öğrencileri
• Bilgisayar Mühendisliği
• Bilişim Sistemleri Mühendisliği
VMSAA Lab.
• Deney Ortamımız:
– Bilgisayarlar, İş İstasyonları
– İnternet, Web
– Sosyal Ağlar
• Malzemelerimiz:
–
–
–
–
–
Algoritmalar
Programlama Dilleri
Yazılım Geliştirme Ortamları
Hazır yazılım paketleri
Gerçek hayat ve sentetik veri kümeleri
VMSAA Lab.
• Amaç:
– Daha hızlı
– Daha doğru sonuçlara ulaşan
– Az eğitim verisi ile öğrenebilen
– Çok büyük miktarlarda veriyi işleyebilen
– Daha anlamlı sonuçlar çıkartabilen
Kısacası daha zeki (yapay zeka) algoritmaların
ve yöntemlerin geliştirilmesidir.
VMSAA Lab.
• Deneyler:
– Farklı parametreler kullanarak
•
•
•
•
•
Farklı algoritma girdi değerleri
Farklı türdeki veri kümeleri
Eğitim kümesi büyüklüğü
Özellik sayısı
Önişleme yöntemleri, ...
Farklı algoritmaların başarımı matematiksel ve
istatiksel yöntemlerle ölçülerek
kıyaslanmaktadır.
Neden Veri Madenciliği?
• Veri patlaması veya seli: Otomatik veri toplama araçları, olgun
veri tabanı ve bilgi teknolojileri, yaygın bilgi teknolojileri
kullanımı, veri tabanları, veri anbarları ve diğer veri depolarında
çok büyük miktarlarda veri ve bilgilerin toplanmasını sağlamakta
ve veri miktarı sürekli artmaktadır.
• Mağazalardaki satış/alış işlemleri
• Banka ve Kredi kartı işlemleri
• Bir çok sektördeki veri ve işlemler
• Bilimsel veriler, uydu ve radarlardaki algılayıcılar gelen veriler
• Web verileri
• Bilgi sistemleri gizli ve geleneksel yöntemlerle anlaşılamayan bilgileri
içermektedir.
Slayt: Selim Akyokuş, Veri Madenciliği Yöntemlerine Genel Bakış, 14/10/2006
Veri Madenciliği
• Büyük miktarlardaki veriden
– sıradan olmayan
– veri içerisinde mevcut
– üstü kapalı yada başka bir deyişle verinin
büyüklüğü ve karmaşıklığından dolayı açık bir
şekilde farkedilmeyen
– daha önce bilinmeyen
– faydalı
bilgilerin (örüntü/desen) çıkartılması sürecidir.
Çalışmalar
• Akıllı Ağ Örümceği
• İnternet yönlendirme trafiğinde anormal
durum tespiti
• Haber Metinlerinin Otomatik Sınıflandırılması
• Metin Kümeleme Algoritmaları
Akıllı Ağ Örümceği
• Ağ Örümceği (Web Spider) web sayfalarındaki
bağlantıları kullanarak internetteki web
sayfalarını gezen ve istenilen sayfaları indiren
bir programdır.
Akıllı Ağ Örümceği
• Odaklı Ağ Örümceği (Focused Web Spider)
internette gezerken sadece belli bir konuya ait
web sayfalarını indirir. Bu programın
karşılaştığı her web sayfasının konuyla ilgili
olup olmadığını belirlemesi gerekir.
– Metin sınıflandırma (Veri Madenciliği Algoritması)
– Sosyal Ağ Analizi yöntemleri (İlgili sayfaların
bağlantı verdiği web sayfaların konuyla ilgili olma
ihtimali yüksektir)
Akıllı Ağ Örümceği
• Uygulama: Türkçe web sitelerindeki Bilgisayar
Mühendisliği ile ilgili iş ilanlarının indirilmesi
• Temel yöntem: Kelime ve ağırlık tabanlı konuya
uygunluk tespiti
• Geliştirilen yöntem:
–
–
–
–
Naive Bayes (veri madenciliği / yapay zeka)
Etiketli veri (ilgili/ilgisiz web sayfları)
Eğitim / Model oluşturma
Karşılaştığımız web sayfalarını otomatik sınıflandırması
Akıllı Ağ Örümceği
• Algoritma:
Akıllı Ağ Örümceği
• Deney Sonuçları:
Akıllı Ağ Örümceği
• Bilgisayar Müh. Lisans Öğrencimiz Duygu
Taylan’ın bitirme projesi
• Proje ekibine araştırma görevlimiz Mitat
Poyraz dahil edildi
• Proje geliştirilerek çeşitli deneyler yapıldı ve
sonuçlar INISTA 2011 konferansında yayınlandı
İnternet Yönlendirme Trafiğinde
Anormal Durum Tespiti
• Küresel veya yerel internet hizmetini kesintiye
uğratan olaylar:
– Büyük çaplı elektrik kesintileri
– Hatalı yönlendirme cihazı ayarları
– Bilgisayar virüsü/kurdu saldırıları
– Depremler / denizaltı kablolarının kopması
• Bu olayları kısa sürede tespit edilip olaya özgü
tedbirlerin alınması büyük önem taşımaktadır.
İnternet Yönlendirme Trafiğinde
Anormal Durum Tespiti
• İnternetin omurgasını yönlendirme cihazları (router)
oluşturmaktadır
• Bu cihazlar birbirleri ile BGP adlı bir protokol ile
haberleşerek IP paketlerinin dünya üzerindeki bir
bilgisayardan diğerine nasıl gideceğini belirlerler
• Bu haberleşme esnasında birbirlerine internet adreslerinin
ulaşılabilirliği ile ilgili duyuru, güncelleme, iptal mesajları
gönderirler
• Bu mesajlar internet yönlendirme trafiğini oluşturur
• Cihazların birbirleri ile haberleşememesi durumunda
internet hizmeti kesintiye uğrar
– Örneğin bu e-devlet hizmetlerinin kesintiye uğraması ve internet
üzerinden çalışan ebay, amazon gibi şirketler için ciddi mali
kayıplar anlamına gelir
İnternet Yönlendirme Trafiğinde
Anormal Durum Tespiti
İnternet Yönlendirme Trafiğinde
Anormal Durum Tespiti
• Farklı anormal olaylar internet yönlendirme mesaj
trafiğinde farklı etkilere yol açmaktadır
• İnternet yönlendirme trafiğinde farklı anormal olaylar için
farklı desenler bulunabilir mi?
– Yapay Zeka / Veri Madenciliği / Makina Öğrenmesi /
Sınıflandırma algoritmaları
• Bu desenleri kullanarak yeni bir anormal olay olduğunda
bunun ne tür bir olay olduğunu kısa zamanda tahmin
edebilirmiyiz?
–
–
–
–
Bilgisayar virüsü/kurdu saldırısı
Büyük çaplı elektrik kesintisi
Hatalı yönlendirme cihazı ayarları
Denizaltı kablo kopması
İnternet Yönlendirme Trafiğinde
Anormal Durum Tespiti
• İnternet yönlendirme
trafiğinden uygun özelliklerin
çıkarımı
– Duyuru mesajlarının sayısı
– İptal mesajlarının sayısı
– Güncelleme mesajlarının sayısı
– ...
İnternet Yönlendirme Trafiğinde
Anormal Durum Tespiti
• Kullanılan geçmişte oluşmuş anormal olaylar –
veri kümesi:
İnternet Yönlendirme Trafiğinde
Anormal Durum Tespiti
• Slammer saldırısı:
İnternet Yönlendirme Trafiğinde
Anormal Durum Tespiti
• Sonuçlar:
– Bir bilgisayar virüsü saldırısı ile eğitilmiş olan
sistemin daha sonraki bir virüs saldırısını tespiti
İnternet Yönlendirme Trafiğinde
Anormal Durum Tespiti
• Sonuçlar:
– Büyük çaplı elektrik kesintisinin tespiti
İnternet Yönlendirme Trafiğinde
Anormal Durum Tespiti
• Bilgisayar Müh. Erasmus değişim öğrencimiz
Iñigo Ortiz de Urbina Cazenave (İspanya) ve
Lisans Öğrencimiz Erkan Köşlük’ün bitirme
projesi
• Proje geliştirilerek çeşitli deneyler yapıldı ve
sonuçlar INISTA 2011 konferansında yayınlandı
Kaynaklar
• Doğuş Üniversitesi Bilgisayar Mühendisliği Bölümü
http://www.ce.dogus.edu.tr
• VMSAA Araştırma Laboratuvarı
http://dmrl.ce.dogus.edu.tr
• Yayınlarımız:
– Torunoğlu, D., Çakırman, E., Ganiz, M.C., Akyokuş, S., Gürbüz, M.Z. (2011).
Analysis of Preprocessing Methods on Classification of Turkish Texts. INISTA
2011 , June, 2011, Istanbul, Turkiye.
– Cazenave, I.O.U, Köşlük, E., Ganiz, M.C. (2011). Application of the SpecHybrid
Algorithm to Text Document Clustering Problem. INISTA 2011, June, 2011,
Istanbul, Turkiye.
– Taylan, D, Poyraz, P., Akyokus, S., Ganiz, M.C. (2011). Intelligent Focused Web
Crawler: Learning Relevant Links. INISTA 2011, June, 2011, Istanbul, Turkiye.
– Uykan, Z., Ganiz, M.C. (2011). Application of the SpecHybrid Algorithm to Text
Document Clustering Problem. INISTA 2011, June, 2011, Istanbul, Turkiye.
Download