cen 416 data mınıng dersi projesi

advertisement
CEN 416 DATA MINING
DERSİ PROJESİ
ÖĞRENCİLER
080909090 AHMET AKAN
050600707 MEHMET BAKAN
1
1. Veri nedir? Veri madenciliği nedir?
Veri; işlenmemiş, gerçek ya da enformasyon parçacığına verilen addır. Yani sayısal veya
mantıksal her değer bir veridir.
Veri madenciliği; büyük ölçekli veriler arasında bilgiye ulaşma, bilgiyi madenleme işidir.
Başka bir deyişle; büyük veri yığınları içerisinden gelecekle ilgi tahminde bulunabilmemizi
sağlayabilecek bağıntıların bilgisayar programı kullanarak aranmasıdır. Bu tahminlerin
yapılabilmesi için, veri yığınlarının bazı işlemlerden geçmesi gerekmektedir.
2. Veri Madenciliği İşlemleri
2.1.Veri Ön İşleme
Veri yığınlarının veri madenciliğinde kullanılabilecek duruma getirilmesi, veri ön işleme ile
olur. Veri ön işleme; veri temizlemeyi, veri bütünleştirmeyi, veri dönüştürmeyi ve veri
azaltımını içeren bir süreçtir. Bütün bu aşamalarda kullanılabilecek çok farklı yordam ve
teknikler geliştirilmiştir.
Veri ön işleminin önemini birkaç madde ile sıralamak gerekirse ;




Eksik, tutarsız ve gürültülü verilerden kurtulmak için
Veriler üzerinde herhangi bir analiz türünün uygulanmasını engelleyecek veri
problemlerinin çözümü için
Verilerin doğasının anlaşılması ve anlamlı veri analizinin başarılması için
Verilen bir veri kümesinden daha anlamlı bilginin çıkarılması için
2.1.Normalizasyon
Veri tabanlarında çok fazla satır ve sütundan oluşan bir tabloyu tekrarlardan arındırmak için
daha az satır ve sütun içeren alt kümelerine ayrıştırma işlemine normalizasyon adı
verilmektedir. Daha basit bir anlatımla; elimizdeki veri setindeki verilerin istenilen aralıktaki
karşılığının bulunmasıdır.
Normalizasyonun hesaplanmasındaki temel formül Şekil 1’deki gibidir.
Şekil 1. Normalizasyon formülü
2
Günümüzde bir çok işlem artık bilgisayar ortamında yapılmaktadır. Veri madenciliğinde bir
çok problemin çözümünde kullanılan KNIME, normalizasyon işlemini kolaylıkla
yapmaktadır.
KNIME programı çalıştırıldığında yeni proje açmak için menüden FILE NEW tıklanır.
Açılan pencerede NEW KNIME WORKFLOW seçilerek next butonuna basılır. Bu pencerede
projeye isim verilerek FINISH butonuna basıldığında, proje istenilen isimle açılır. Şekil 2’de
projenin kısa bir tanıtımı gösterilmiştir.
Açılan projelerin
gösterildiği bölüm
KNIME modüllerinin
bulunduğu bölüm
Modüllerin sürüklenip
bırakılacağı proje
bölümü
Modül hakkında
bilgi veren bölüm
Şekil 2. KNIME programında açılmış bir proje üzerinden tanıtımı
3
KNIME programı ile normalizasyon işleminin yapılması
KNIME programı açıldıktan sonra elimizde bulunan veri setini okutmak için, bütün
modüllerin bulunduğu Node Repository bölümünden File Reader modülü seçilerek Şekil 3’te
gösterildiği gibi kullanılır.
File Reader açılan
projenin üzerine
sürüklenerek
bırakılır.
Şekil 3. File Reader modülünün kullanımı
File Reader projeye eklendikten sonra, yapılması gereken işlem için, istenilen veri setinin
Şekil 4’teki gibi okutulması gerekmektedir. Bu okutma işlemi, veri setinin Configure
edilmesiyle yapılmaktadır.
Modüle sağ
tıklanarak
Configure edilir.
Şekil 4. Veri setinin Configure edilmesi
4
File Reader modülüne bilgisayar ortamında bulunan veri setinin, Şekil 5’te olduğu gibi
BROWSE butonu yardımıyla adresinin gösterilmesi ve bu veri setinin okutulması verinin
configure edilmesi anlamına gelmektedir. Configure işlemi başarılı ise modülün altındaki
kırmızı ışık sarıya döner.
Veri setinin bulunduğu
klasör seçilir.
İstenilen veri seti seçilir ve
OPEN butonuna tıklanır.
Şekil 5. Veri setinin File Reader modülüne Configure edilmesi
Seçilen veri
seti ve
içerisindeki
veriler
Şekil 6. File Reader’ın okuduğu veriler
5
File Reader modülüne veri seti okutulduktan sonra, normalizasyon işlemini yapacak olan
Şekil 7’de olduğu gibi Normalizer modülü proje ekranına Node Repository bölümünden
sürüklenerek bırakılır.
Şekil 7. Normalizer modülünün kullanımı
Proje bölümüne eklenen modüller, birbirlerine uçlarından ok çekilerek bağlanır.
Şekil 8. Modüllerin bağlanması
6
Birbirlerine bağlanan modüller Execute edilerek çalıştırılır. Execute işlemi başarılıysa
modüllerin altındaki sarı ışıklar yeşile döner.
Şekil 9. Modüllerin Execute edilmesi
Şekil 10. Başarıyla Execute edilen modüller
Normalizasyon işlemi başarıyla uygulanmış modüllerin çıktılarını görebilmek için Node
Repository bölümünden Interactive Table modülünü kullanmamız gerekir. Eklenen
Interactive modülü ile Normalizer modülleri bağlandıktan sonra Şekil 12’deki gibi Execute
and Open Views tıklanarak data.all veri setinin normalize edilmiş hali tablo şeklinde
gösterilir. Şekil 13’de tablo şeklinde gösterimi gösterilmiştir.
Şekil 11. İnteractive Table modülünün bağlanması
7
Şekil 12. Modüllerin çalıştırılarak açılması işlemi
Şekil 13. Data.all veri setinin normalize edilmiş tablosu
8
Download