İş Zekası

advertisement
İş Zekası
Hafta 7 – Metin Analitiği, Metin Madenciliği ve
Duygu Analizi
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics:
Systems for Decision Support 10e isimli
eserden adapte edilmiştir
Bölüm Amaçları
 Metin madenciliğini tanımlamak ve metin madenciliğine
olan ihtiyacı anlayabilmek
 Metin, veri ve web madenciliği farklarını anlamak
 Metin madenciliği uygulama alanlarını anlamak
 Metin madenciliği sürecini anlamak
 Duygu analizini açıklamak
 Duygu analizinin popüler uygulamalarını inceleyerek
kullanılabilirliğini sorgulayabilmek
 Duygu analizi metotlarını öğrenmek
 Konuşma analitiğini anlamak ve duygu analizi ile olan
ilişkini açıklamak
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
2/34
Açılış Vakası
 Riziko yarışmasında PC vs İnsan !!! (WATSON)
 Genel Bilgiler
 Problem Tanımı
 Önerilen Çözüm
 Sonuçlar
 Vaka sorularının cevapları ve genel tartışmalar
Watson nedir? Onu özel kılan ne?
Watson kurulurken hangi teknolojiler kullanılmıştır ? Yazılım ve
donanım olarak ayrı ayrı cevaplayınız
Hangi yenilikçi mimari bileşenleri Watson’ı farklı kılmaktadır
Neden IBM böyle bir makine için bu kadar zaman ve para
harcamıştır. Yatırımın geri dönüşü ne?
https://www.youtube.com/watch?v=oUj9AzSE_9c&nohtml5=False
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
3/34
Açılış Vakası
IBM WATSON DeepQA Mimarisi
Answer
sources
Question
Question
analysis
Candidate
answer
generation
Primary
search
Query
decomposition
Yrd. Doç. Dr. H. İbrahim CEBECİ
Support
evidence
retrieval
Evidence
sources
Deep
evidence
scoring
Hypothesis
generation
Soft
filtering
Hypothesis and
evidence scoring
Hypothesis
generation
Soft
filtering
Hypothesis and
evidence scoring
...
...
...
Trained
models
Synthesis
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
3
Final merging
and ranking
1
2
4
5
Answer and
confidence
4/34
Metin Madenciliği Kavramı
 Kurumsal verilerin %85-90 lık kısmı yapısal olmayan
verilerden oluşmakta (örnek: metinler)
 Her 18 ayda bir kurumsan yapısal olmayan veri miktarı
ikiye katlanmakta
 Bu bilişim kaynağının yönetilmesi gerekliliği artık bir
opsiyon değil, rekabet koşullarında ZORUNLULUK!!!
 Cevap: METİN MADENCİLİĞİ
 Metin madenciliği yapısal olmayan verilerden anlamlı
bilgiler çıkarmaya yarayan yarı otomatik bir analitik
süreçtir.
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
5/34
Metin Analitiği ve Metin Madenciliği
METİN ANALİTİĞİ
Bilgi
Geri alma
(Retireval)
Metin
Madenciliği
Bilgi
Çıkarma
(Etrraction)
Bilgisayar Bilimi
Yrd. Doç. Dr. H. İbrahim CEBECİ
Veri
Madenciliği
Dilbilim
Doğal Dil İşleme
İstatistik
Web
Madenciliği
Makine
Öğrenmesi
Yönetim Bilimi
Yapay Zeka
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
6/34
Veri Madenciliği vs Metin Madenciliği
 Her ikisi de yeni ve kullanılabilir kalıpları arar
 Her ikisi de yarı otomatik bir süreçtir
 Farklılık verinin yapısındadır
 Yapısal veriler  Veri tabanları
 Yapısal olmayan veriler  Word ve PDF dosyaları, metin
pasajları, XML dosyaları …
 Metin madenciliğinde öncelikle veri yapısal olmayan
durumdan yapısal hale çevrilir (yapısal gibi düşünülür)
daha sonra madencilik yapılır
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
7/34
Metin Madenciliği (MM) Kavramları
 Özellikle metin bakımından zengin ortamlarda MM oldukça
önemlidir
 Mahkeme kayıtları
 Akademik makaleler
 Finansal raporlar
 Taburcu belgeleri
 Patent dosyaları
 Müşteri yorumları
…
 Özellikle elektronik iletişim kayıtları (eMail)
 Spam filtreleme
 eMail önceliklendirme ve kategorizasyonu
 Otomatik yanıt üretme
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
8/34







Metin Madenciliği Uygulama Alanları
Bilgi çıkarımı
Topik takibi
Özetleme
Kategorizasyon
Kümeleme
Kavram bağlama
Soru cevaplama
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
9/34





Metin Madenciliği Terminolojisi
Yapısal olmayan ve yarı yapısal veri
Derlem (Corpus)
Terimler
Kavramlar
Köke inme (Stemming)
 Sıra, Sıralı, Sıralama, Sıralamak  Sıra
 Durdurma kelimeleri
 Eh, ok, hıhı
 Eşanlamlılar
 İş zekası, iş analitiği
 Simgeleme (Tokenizing)
 Have a good day  «Have» «a» «good» «day»
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
10/34
Metin Madenciliği Terminolojisi
 Terim Sözlüğü
 Kelime Frekansı
 Konuşma bölümü etiketleme (Part-of-speech tagging)
 Şu sarı elmayı yiyeceğim  Şu «zamir» / sarı «sıfat» / elma
«isim» / yiyeceğim «fiil»
 Morfoloji
 Göz gözlük Gözlükçü
 Terim-Döküman matrisi (TDM)
 Frekans matrisi
 Tekil Değer Ayrıştırması (Matris Bilimi)
 DTM boyutunu yönetilebilir bir boyuta indirgeme
 Latent Semantik indeksleme
Kavramlar ve terimler arasındaki ilişkiyi ortaya çıkarma
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
11/34
Doğal Dil İşleme (NLP)
 Bir metin derlemini yapısallaştırma
 Eski yaklaşım: Kelime torbası (Bag-of-words)
Sıra önemli değil, rastgele kelime arama (Spam Filtreleme)
 Yeni yaklaşım: NLP
Cümle yapısı önemli, kelimeler bir sıra ile kullanılır
 NLP insanın dili nasıl kullandığının anlaşılması temeline
dayanır.
 Semantik temelli metin madenciliği
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
12/34
Doğal Dil İşleme (NLP)
 «Anlamak» ne demek???
 İnsanlar anlar, peki bilgisayarlar !!!
 Doğal dil belirsiz ve kavram/içerik odaklıdır
 Gerçek anlayış konu hakkında çok yüksek bilgi gereksinimini
ortaya çıkarır
 Acaba bilgisayarlar doğal dil kullanımını tamamen
anlayabilecekler mi???
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
13/34
Doğal Dil İşleme (NLP)
 Doğal Dil İşleme önündeki engeller
 Konuşma bölümü etiketleme (Part-of-speech tagging)
 Metin segmentasyonu
 Kelime anlamını netleştirme
Get filinin 180 manası ve kullanımı var
 Sözdizimi Belirsizliği
Onlarca cümle yapısı
 Mükemmel olmayan düzensiz giriş
Aksanlar, I love u
 Nirvana’ya ulaşmak  %100 dili çözen algoritma
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
14/34
 WordNet
Doğal Dil İşleme (NLP)
 İngilizce dili ile ilgi bilgisayar ortamında hazırlanmış özel bir
veri tabanı. Açıklamalar, eş anlamlılar, farklı yapıdaki
anlamları, deyimler
 NLP uygulamaları için temel kaynak
 Duygu Analizi (Duygusal Analiz – Sentiment Anaylsis)
 Belli bir ürün ve hizmet hakkında iyi veya kötü fikirlerin
belirlenmesini sağlayan analiz.
 SentiWordNet
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
15/34
NLP Uygulama Kategorileri
 Soru cevaplama
 Otomatik özetleme
 Doğal dil üretimi
 Bilgileri anlaşılabilir cümlelere çevirme
 Makine çevirisi
 Yabancı dil okuma & yazma
 Telaffuz
 Konuşma tanımlama
 Işığı aç
 Metinden Konuşmaya
 Metin sağlama (Proofing)
 OCR
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
16/34
Metin Madenciliği Uygulamaları
 Pazarlama
 Çağrı merkezleri
 Güvenlik
 ECHELON, OASIS (uydu, bilişim ağı yardımıyla suç arama)
 Dolandırıcılık (hile) tespiti
Vaka 7.3
 Akademik
 Araştırma trendi analizi
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
17/34
Metin Madenciliği Süreci
 MM süreci için içerik diyagramı
Yazılım/Donanım sınırlamaları
Gizlilik konuları
Dilsel sınırlamalar
Yapısal olmayan veri (metin)
Yapısal veri (veri tabanı)
Ulaşılabilir
Veri
kaynaklarından
Bilgi çıkar
İçeriğe Özel Bilgi
Alan Uzmanlığı
Araçlar ve Teknikler
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
18/34
Metin Madenciliği Süreci
Görev 1
Derlem Oluşturma
Alan ile ilgili yapısal
olamayan verilerin
toplanması ve organize
edilmesi
Görev 2
TDM Oluşturma
Bilgi Çıkarımı
Derlemin matris
gösterimi ile yapısal
hale döndürülmesi
Geri Bildirim
Süreç girdileri çok
çeşitli yarı yapısal ve
yapısal olmayan
kaynaklardan gelir
(XML, HTML, Metin
vb..)
Görev 3
Görev 1 ‘in çıktısı
bilgisayarların
işleyebilmesi için
dijital formatta
hazırlanmış doküman
kümesidir.
TDM matrisi içerisinden
çeşitli yöntemler ile
yeni kalıpların
belirlenmesi
Geri Bildirim
Görev 2 ‘nin çıktısı ise
hücrelerin terimlerin
frekanslarını
gösterdiği TerimDoküman matrisidir.
Görev 3’ün çıktısı ise
probleme özel sınıf,
kümeleme, birliktelik
modelleri ve
görselleridir.
Üç Aşamalı Metin Madenciliği Süreci
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
19/34
Metin Madenciliği Süreci
 Adım 1: Derlem Oluşturma
 Farklı kaynaklardan yapısal olmayan verileri derle
Metin, XML dosyası, email, web sayfası, kısa notlar, ses kayıtları
…
 Bütün veri kaynaklarını standardize et
Bütün verileri basit ASCII metin dosyalarına at (yada excel)
 Bütün kaynak dosyaları bir araya getir
Tek bir dosyada topla
Aynı tipteki dosyaları tek bir klasörde topla
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
20/34
Metin Madenciliği Süreci
 Adım 2: Terim-Doküman Matrisi (TDM) Oluşturma
Terimler
Dokümanlar
Makale 1
İş
Zekası
İş
Analitiği
1
1
Makale 2
Makale 3
Makale 4
Makale 5
Makale 6
…
Yrd. Doç. Dr. H. İbrahim CEBECİ
1
1
1
İşletme
Performans
Yönetimi
1
Normatif
Modelleme
2
1
1
1
2
Veri
Madenciliği
Veri
Ambarı
3
2
2
2
1
2
3
1
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
3
21/34
Metin Madenciliği Süreci
 Adım 2: Terim-Doküman Matrisi (TDM) Oluşturma
 Bütün terimler matriste olacak mı???
 Durdurma kelimeleri
 Eş anlamlılar
 Köke inme
 En iyi temsil indisi nedir?
 Ham frekansları (3 > 1 o zaman 3 açıklama için daha önemli)
 Logaritmik frekanslar (Log yardımıyla normalleştirme)
 İkili frekanslar (kelime var 1, yok 0)
 Ters Doküman Frekansları (Konu odaklı normalizasyon)
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
22/34
Metin Madenciliği Süreci
 Adım 2: Terim-Doküman Matrisi (TDM) Oluşturma
 TDM genellikle çok fazla sıfır içeren ve çok büyük boyutlu
bir matristir. Bu matrisin boyutu daha yönetilebilir olması
için nasıl düşürülebilir.
 Manuel – Alan uzmanı uygun olmayan sütunları eleyebilir
 Çok düşük frekanslı terimleri elemek ???
 Tekil Değer Ayrıştırma (Singular Value Decomposition – SVD)
yöntemi kullanılarak daha küçük alt matrislere ayırma
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
23/34





Metin Madenciliği Süreci
Adım 3: Kalıp/Bilgi Çıkarımı
Sınıflandırma (Metin Kategorizasyonu)
Kümeleme (Metinlerin doğal sınıflara bölünmesi)
Birliktelik
Trend Analizi
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
24/34
Metin Madenciliği Yazılımları
 Ticari Yazılımları
 IBM SPSS Modeller
 SAS Enterprise Miner
 Statistical Data Miner
 ClearForest
 ...
 Ücretsiz Yazılımlar
 RapidMiner
 GATE
 Spy-EM
…
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
25/34
Duygu Analizine Genel Bakış
 Duygu Analizi (Sentiment Analysis)  Fikir Madenciliği
 Sentiment  İnanış, Görüş, Fikir
 «İlgilenilen konu hakkında insanlar ne hissediyor?»
 Kesin vs ima
 Ne mükemmel bir gün! (Kesin – mutluluk)
 Tutacak çok kolay bir şekilde bozuldu (ima – sitem)
 Pozitif vs negatif vs nötr
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
26/34
Örnek: Sosyal Medya Gösterge Paneli
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
27/34
Duygu Analizi Uygulamaları
 Müşterinin Sesi (VOC)
 Sürekli veya periyodik olarak müşteri geri dönüşleri
inceleme (email, yorumlar, sosyal medya …)
 Pazarın Sesi (VOM)
 Sadece müşteriler değil bütün paydaşların fikirleri
 Çalışanın Sesi (VOE)
 Çalışan tatmini anketleri yerine
 Marka Yönetimi
 Finansal Pazarlar
 Borsa analizleri
 Politika
 Sosyal medya, blog incelemeleri
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
28/34
Duygu Analizi Süreci
Metin
Verileri
İfade
Adım 1
Lexicon
Hayır
OS Polariteyi
Hesapla
Bir duygu
var mı?
Evet
Evet
Adım 2
Duygunun NP
Polaritesini
Hesapla
Lexicon
NP
Polarite
Ölçütü
Adım 3
Duygu için bir
hedef belirle
Yrd. Doç. Dr. H. İbrahim CEBECİ
Hedef
OS
Polarite
Ölçütü
Duygunun
polaritesini,
gücünü ve
hedefini kaydet
Adım 4
Duygu Analizi
sonuçlarını
bütünleştir
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
29/34
Duygu Analizi Süreci
 Adım 1 – Duygu tespiti – OP Polaritesi Sınıflandırması
 Metin dokümanının alınmasından ve hazırlanmasında hemen
sonra gelir
 Objektiflik tespiti olarak da adlandırılır
Gerçek [Objektif] vs. Fikir [Subjektif]
 Adım 2 – NP Polarite Sınıflandırması
 Amaç incelenen metinin (metin parçasının) Negatif veya
Pozitif sınıfa düşüp düşmediğinin incelenmesi
Negatif vs. Pozitif
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
30/34
Duygu Analizi Süreci
 Adım 3 – Hedef Belirleme
 İfade edilen duygunun tam olarak neyi hedeflediğinin
belirlenmesi (ürün, insan, kurum)
 Adım 4 – Toplama ve Bütünleştirme
 Bir dokümandaki bütün duygular bir şekilde belirlendikten
(hesaplandıktan) sonra, bu duygular tek bir duygu ölçütüne
dönüştürülür.
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
31/34
Polarite Belirleme Yöntemleri
 Polarite Belirleme – P vs. N
 Kelime, cümle, paragraf, veya doküman seviyesinde
yapılabilir.
 İki farklı metot kullanılır
 Lexicon kullanmak
WordNet [wordnet.princeton.edu]
SentiWordNet [sentiwordnet.isti.cnr.it]
 Daha önceden sınıflandırılmış eğitim dokümanı kullanmak
İnternette belli amaca odaklı olarak hazırlanmış dokümanları
kullanmak
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
32/34
PN vs. SO Polarite
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
33/34
Duygu Analizi ve Konuşma Analitiği
 Konuşma Analitiği
 İçerik mi? Yoksa ses özellikleri mi?
 İki Yaklaşım
 Akustik Yaklaşım
Teknik olarak sesteki değişimleri bazı parametreler ile takip
etme ve ses değişimlerini duygu ölçütlerine bağlama
 Dilsel Yaklaşım
Konuşma içeriğine odaklanarak duygunun tamamen içerik
odaklı olarak yakalanmaya çalışılması
Yrd. Doç. Dr. H. İbrahim CEBECİ
Business Intelligence and Analytics: Systems for Decision Support
10e isimli eserden adapte edilmiştir
34/34
Download