İş Zekası Hafta 7 – Metin Analitiği, Metin Madenciliği ve Duygu Analizi Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir Bölüm Amaçları Metin madenciliğini tanımlamak ve metin madenciliğine olan ihtiyacı anlayabilmek Metin, veri ve web madenciliği farklarını anlamak Metin madenciliği uygulama alanlarını anlamak Metin madenciliği sürecini anlamak Duygu analizini açıklamak Duygu analizinin popüler uygulamalarını inceleyerek kullanılabilirliğini sorgulayabilmek Duygu analizi metotlarını öğrenmek Konuşma analitiğini anlamak ve duygu analizi ile olan ilişkini açıklamak Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 2/34 Açılış Vakası Riziko yarışmasında PC vs İnsan !!! (WATSON) Genel Bilgiler Problem Tanımı Önerilen Çözüm Sonuçlar Vaka sorularının cevapları ve genel tartışmalar Watson nedir? Onu özel kılan ne? Watson kurulurken hangi teknolojiler kullanılmıştır ? Yazılım ve donanım olarak ayrı ayrı cevaplayınız Hangi yenilikçi mimari bileşenleri Watson’ı farklı kılmaktadır Neden IBM böyle bir makine için bu kadar zaman ve para harcamıştır. Yatırımın geri dönüşü ne? https://www.youtube.com/watch?v=oUj9AzSE_9c&nohtml5=False Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 3/34 Açılış Vakası IBM WATSON DeepQA Mimarisi Answer sources Question Question analysis Candidate answer generation Primary search Query decomposition Yrd. Doç. Dr. H. İbrahim CEBECİ Support evidence retrieval Evidence sources Deep evidence scoring Hypothesis generation Soft filtering Hypothesis and evidence scoring Hypothesis generation Soft filtering Hypothesis and evidence scoring ... ... ... Trained models Synthesis Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 3 Final merging and ranking 1 2 4 5 Answer and confidence 4/34 Metin Madenciliği Kavramı Kurumsal verilerin %85-90 lık kısmı yapısal olmayan verilerden oluşmakta (örnek: metinler) Her 18 ayda bir kurumsan yapısal olmayan veri miktarı ikiye katlanmakta Bu bilişim kaynağının yönetilmesi gerekliliği artık bir opsiyon değil, rekabet koşullarında ZORUNLULUK!!! Cevap: METİN MADENCİLİĞİ Metin madenciliği yapısal olmayan verilerden anlamlı bilgiler çıkarmaya yarayan yarı otomatik bir analitik süreçtir. Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 5/34 Metin Analitiği ve Metin Madenciliği METİN ANALİTİĞİ Bilgi Geri alma (Retireval) Metin Madenciliği Bilgi Çıkarma (Etrraction) Bilgisayar Bilimi Yrd. Doç. Dr. H. İbrahim CEBECİ Veri Madenciliği Dilbilim Doğal Dil İşleme İstatistik Web Madenciliği Makine Öğrenmesi Yönetim Bilimi Yapay Zeka Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 6/34 Veri Madenciliği vs Metin Madenciliği Her ikisi de yeni ve kullanılabilir kalıpları arar Her ikisi de yarı otomatik bir süreçtir Farklılık verinin yapısındadır Yapısal veriler Veri tabanları Yapısal olmayan veriler Word ve PDF dosyaları, metin pasajları, XML dosyaları … Metin madenciliğinde öncelikle veri yapısal olmayan durumdan yapısal hale çevrilir (yapısal gibi düşünülür) daha sonra madencilik yapılır Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 7/34 Metin Madenciliği (MM) Kavramları Özellikle metin bakımından zengin ortamlarda MM oldukça önemlidir Mahkeme kayıtları Akademik makaleler Finansal raporlar Taburcu belgeleri Patent dosyaları Müşteri yorumları … Özellikle elektronik iletişim kayıtları (eMail) Spam filtreleme eMail önceliklendirme ve kategorizasyonu Otomatik yanıt üretme Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 8/34 Metin Madenciliği Uygulama Alanları Bilgi çıkarımı Topik takibi Özetleme Kategorizasyon Kümeleme Kavram bağlama Soru cevaplama Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 9/34 Metin Madenciliği Terminolojisi Yapısal olmayan ve yarı yapısal veri Derlem (Corpus) Terimler Kavramlar Köke inme (Stemming) Sıra, Sıralı, Sıralama, Sıralamak Sıra Durdurma kelimeleri Eh, ok, hıhı Eşanlamlılar İş zekası, iş analitiği Simgeleme (Tokenizing) Have a good day «Have» «a» «good» «day» Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 10/34 Metin Madenciliği Terminolojisi Terim Sözlüğü Kelime Frekansı Konuşma bölümü etiketleme (Part-of-speech tagging) Şu sarı elmayı yiyeceğim Şu «zamir» / sarı «sıfat» / elma «isim» / yiyeceğim «fiil» Morfoloji Göz gözlük Gözlükçü Terim-Döküman matrisi (TDM) Frekans matrisi Tekil Değer Ayrıştırması (Matris Bilimi) DTM boyutunu yönetilebilir bir boyuta indirgeme Latent Semantik indeksleme Kavramlar ve terimler arasındaki ilişkiyi ortaya çıkarma Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 11/34 Doğal Dil İşleme (NLP) Bir metin derlemini yapısallaştırma Eski yaklaşım: Kelime torbası (Bag-of-words) Sıra önemli değil, rastgele kelime arama (Spam Filtreleme) Yeni yaklaşım: NLP Cümle yapısı önemli, kelimeler bir sıra ile kullanılır NLP insanın dili nasıl kullandığının anlaşılması temeline dayanır. Semantik temelli metin madenciliği Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 12/34 Doğal Dil İşleme (NLP) «Anlamak» ne demek??? İnsanlar anlar, peki bilgisayarlar !!! Doğal dil belirsiz ve kavram/içerik odaklıdır Gerçek anlayış konu hakkında çok yüksek bilgi gereksinimini ortaya çıkarır Acaba bilgisayarlar doğal dil kullanımını tamamen anlayabilecekler mi??? Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 13/34 Doğal Dil İşleme (NLP) Doğal Dil İşleme önündeki engeller Konuşma bölümü etiketleme (Part-of-speech tagging) Metin segmentasyonu Kelime anlamını netleştirme Get filinin 180 manası ve kullanımı var Sözdizimi Belirsizliği Onlarca cümle yapısı Mükemmel olmayan düzensiz giriş Aksanlar, I love u Nirvana’ya ulaşmak %100 dili çözen algoritma Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 14/34 WordNet Doğal Dil İşleme (NLP) İngilizce dili ile ilgi bilgisayar ortamında hazırlanmış özel bir veri tabanı. Açıklamalar, eş anlamlılar, farklı yapıdaki anlamları, deyimler NLP uygulamaları için temel kaynak Duygu Analizi (Duygusal Analiz – Sentiment Anaylsis) Belli bir ürün ve hizmet hakkında iyi veya kötü fikirlerin belirlenmesini sağlayan analiz. SentiWordNet Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 15/34 NLP Uygulama Kategorileri Soru cevaplama Otomatik özetleme Doğal dil üretimi Bilgileri anlaşılabilir cümlelere çevirme Makine çevirisi Yabancı dil okuma & yazma Telaffuz Konuşma tanımlama Işığı aç Metinden Konuşmaya Metin sağlama (Proofing) OCR Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 16/34 Metin Madenciliği Uygulamaları Pazarlama Çağrı merkezleri Güvenlik ECHELON, OASIS (uydu, bilişim ağı yardımıyla suç arama) Dolandırıcılık (hile) tespiti Vaka 7.3 Akademik Araştırma trendi analizi Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 17/34 Metin Madenciliği Süreci MM süreci için içerik diyagramı Yazılım/Donanım sınırlamaları Gizlilik konuları Dilsel sınırlamalar Yapısal olmayan veri (metin) Yapısal veri (veri tabanı) Ulaşılabilir Veri kaynaklarından Bilgi çıkar İçeriğe Özel Bilgi Alan Uzmanlığı Araçlar ve Teknikler Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 18/34 Metin Madenciliği Süreci Görev 1 Derlem Oluşturma Alan ile ilgili yapısal olamayan verilerin toplanması ve organize edilmesi Görev 2 TDM Oluşturma Bilgi Çıkarımı Derlemin matris gösterimi ile yapısal hale döndürülmesi Geri Bildirim Süreç girdileri çok çeşitli yarı yapısal ve yapısal olmayan kaynaklardan gelir (XML, HTML, Metin vb..) Görev 3 Görev 1 ‘in çıktısı bilgisayarların işleyebilmesi için dijital formatta hazırlanmış doküman kümesidir. TDM matrisi içerisinden çeşitli yöntemler ile yeni kalıpların belirlenmesi Geri Bildirim Görev 2 ‘nin çıktısı ise hücrelerin terimlerin frekanslarını gösterdiği TerimDoküman matrisidir. Görev 3’ün çıktısı ise probleme özel sınıf, kümeleme, birliktelik modelleri ve görselleridir. Üç Aşamalı Metin Madenciliği Süreci Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 19/34 Metin Madenciliği Süreci Adım 1: Derlem Oluşturma Farklı kaynaklardan yapısal olmayan verileri derle Metin, XML dosyası, email, web sayfası, kısa notlar, ses kayıtları … Bütün veri kaynaklarını standardize et Bütün verileri basit ASCII metin dosyalarına at (yada excel) Bütün kaynak dosyaları bir araya getir Tek bir dosyada topla Aynı tipteki dosyaları tek bir klasörde topla Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 20/34 Metin Madenciliği Süreci Adım 2: Terim-Doküman Matrisi (TDM) Oluşturma Terimler Dokümanlar Makale 1 İş Zekası İş Analitiği 1 1 Makale 2 Makale 3 Makale 4 Makale 5 Makale 6 … Yrd. Doç. Dr. H. İbrahim CEBECİ 1 1 1 İşletme Performans Yönetimi 1 Normatif Modelleme 2 1 1 1 2 Veri Madenciliği Veri Ambarı 3 2 2 2 1 2 3 1 Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 3 21/34 Metin Madenciliği Süreci Adım 2: Terim-Doküman Matrisi (TDM) Oluşturma Bütün terimler matriste olacak mı??? Durdurma kelimeleri Eş anlamlılar Köke inme En iyi temsil indisi nedir? Ham frekansları (3 > 1 o zaman 3 açıklama için daha önemli) Logaritmik frekanslar (Log yardımıyla normalleştirme) İkili frekanslar (kelime var 1, yok 0) Ters Doküman Frekansları (Konu odaklı normalizasyon) Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 22/34 Metin Madenciliği Süreci Adım 2: Terim-Doküman Matrisi (TDM) Oluşturma TDM genellikle çok fazla sıfır içeren ve çok büyük boyutlu bir matristir. Bu matrisin boyutu daha yönetilebilir olması için nasıl düşürülebilir. Manuel – Alan uzmanı uygun olmayan sütunları eleyebilir Çok düşük frekanslı terimleri elemek ??? Tekil Değer Ayrıştırma (Singular Value Decomposition – SVD) yöntemi kullanılarak daha küçük alt matrislere ayırma Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 23/34 Metin Madenciliği Süreci Adım 3: Kalıp/Bilgi Çıkarımı Sınıflandırma (Metin Kategorizasyonu) Kümeleme (Metinlerin doğal sınıflara bölünmesi) Birliktelik Trend Analizi Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 24/34 Metin Madenciliği Yazılımları Ticari Yazılımları IBM SPSS Modeller SAS Enterprise Miner Statistical Data Miner ClearForest ... Ücretsiz Yazılımlar RapidMiner GATE Spy-EM … Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 25/34 Duygu Analizine Genel Bakış Duygu Analizi (Sentiment Analysis) Fikir Madenciliği Sentiment İnanış, Görüş, Fikir «İlgilenilen konu hakkında insanlar ne hissediyor?» Kesin vs ima Ne mükemmel bir gün! (Kesin – mutluluk) Tutacak çok kolay bir şekilde bozuldu (ima – sitem) Pozitif vs negatif vs nötr Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 26/34 Örnek: Sosyal Medya Gösterge Paneli Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 27/34 Duygu Analizi Uygulamaları Müşterinin Sesi (VOC) Sürekli veya periyodik olarak müşteri geri dönüşleri inceleme (email, yorumlar, sosyal medya …) Pazarın Sesi (VOM) Sadece müşteriler değil bütün paydaşların fikirleri Çalışanın Sesi (VOE) Çalışan tatmini anketleri yerine Marka Yönetimi Finansal Pazarlar Borsa analizleri Politika Sosyal medya, blog incelemeleri Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 28/34 Duygu Analizi Süreci Metin Verileri İfade Adım 1 Lexicon Hayır OS Polariteyi Hesapla Bir duygu var mı? Evet Evet Adım 2 Duygunun NP Polaritesini Hesapla Lexicon NP Polarite Ölçütü Adım 3 Duygu için bir hedef belirle Yrd. Doç. Dr. H. İbrahim CEBECİ Hedef OS Polarite Ölçütü Duygunun polaritesini, gücünü ve hedefini kaydet Adım 4 Duygu Analizi sonuçlarını bütünleştir Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 29/34 Duygu Analizi Süreci Adım 1 – Duygu tespiti – OP Polaritesi Sınıflandırması Metin dokümanının alınmasından ve hazırlanmasında hemen sonra gelir Objektiflik tespiti olarak da adlandırılır Gerçek [Objektif] vs. Fikir [Subjektif] Adım 2 – NP Polarite Sınıflandırması Amaç incelenen metinin (metin parçasının) Negatif veya Pozitif sınıfa düşüp düşmediğinin incelenmesi Negatif vs. Pozitif Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 30/34 Duygu Analizi Süreci Adım 3 – Hedef Belirleme İfade edilen duygunun tam olarak neyi hedeflediğinin belirlenmesi (ürün, insan, kurum) Adım 4 – Toplama ve Bütünleştirme Bir dokümandaki bütün duygular bir şekilde belirlendikten (hesaplandıktan) sonra, bu duygular tek bir duygu ölçütüne dönüştürülür. Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 31/34 Polarite Belirleme Yöntemleri Polarite Belirleme – P vs. N Kelime, cümle, paragraf, veya doküman seviyesinde yapılabilir. İki farklı metot kullanılır Lexicon kullanmak WordNet [wordnet.princeton.edu] SentiWordNet [sentiwordnet.isti.cnr.it] Daha önceden sınıflandırılmış eğitim dokümanı kullanmak İnternette belli amaca odaklı olarak hazırlanmış dokümanları kullanmak Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 32/34 PN vs. SO Polarite Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 33/34 Duygu Analizi ve Konuşma Analitiği Konuşma Analitiği İçerik mi? Yoksa ses özellikleri mi? İki Yaklaşım Akustik Yaklaşım Teknik olarak sesteki değişimleri bazı parametreler ile takip etme ve ses değişimlerini duygu ölçütlerine bağlama Dilsel Yaklaşım Konuşma içeriğine odaklanarak duygunun tamamen içerik odaklı olarak yakalanmaya çalışılması Yrd. Doç. Dr. H. İbrahim CEBECİ Business Intelligence and Analytics: Systems for Decision Support 10e isimli eserden adapte edilmiştir 34/34