Fırat Üniversitesi-Elazığ MENOPOZ VERİLERİ HAKKINDA KARAR VEREBİLEN BİR SİSTEMİN GELİŞTİRİLMESİ Hikmet Özge BACAK1, Kemal LEBLEBİCİOĞLU1, Sinan BEKSAÇ2 1 2 Kadın Doğum Ana Bilim Dalı Hacettepe Üniversitesi Üniversitesi Elektrik-Elektronik Mühendisliği Bölümü Orta Doğu Teknik Üniversitesi obacak@tai.com.tr, kleb@metu.edu.tr beksac@hacettepe.edu.tr kendine karar verebilme yeteneğine yardımcı olacak bazı programlar da geliştirilmiştir. ÖZET Karar verebilen sistemlerin geliştirilmesi günümüzde hem teknolojik açıdan hem de sosyal, medikal vb. alanlarındaki süreçlerin kolaylaştırılması yönünden önem arz etmektedir. Bu tür sistemlere duyulan ihtiyaç, ulaşılmak istenilen sonuç hakkında bir tavsiye ya da doğrudan karar verebilen akıllı algoritmalarla ilgili çalışmaların ilerlemesine sebep olmuştur. Karar vermenin zor olduğu düşünülen konulardan biri de tıbbi konulardır. Tıp alanında, hastaların kan değerleri gibi çeşitliliği çok olan verilerin değerlendirilmesiyle söz konusu olduğu için, ilgili veri setlerinin çok büyük boyutlarda olup, değerlendirmenin zorlaşmasına sebep olmaktadır. Tıp alanındaki en önemli konulardan biri de menopoz süreciyle ilgilidir. Hastaların bu süreçte hormon alıp almamasıyla ilgili değerlendirmelerin yapılması hekimler açısından zorluk taşımaktadır. Bu çalışmada doktorlara karar vermelerinde yardımcı olacak bir sistem tasarımı yapılmıştır. Bu bildiri, bu çalışmanın detaylarını içermektedir. Menopoz sürecinde kadınların bazı kan ve hormon değerlerine bakılarak, hastaya ek olarak hormon tedavisi verilip verilmeyeceğine karar verilebilmesi gerekmektedir. Bu bildiride, hekime bu konuda yardımcı olması amacıyla kadınların menopozla ilgili olarak yatırdıkları çeşitli test sonuçlarına bakarak hormon tedavisi uygulanıp uygulanmaması konusunda karar verebilen bir sistem geliştirilmesinden bahsedilmiştir. Bildirinin ikinci bölümünde kümeleme ile ilgili temel bilgilere, üçüncü bölümünde karar verebilen sistemin oluşturulmasıyla ilgili bilgilere yer verilmiştir. Dördüncü bölümde kullanılan veri setinden ve deneysel sonuçlardan, en son bölümde ise genel değerlendirmeler ve sonuçlardan bahsedilmiştir. 2. Anahtar Kelimeler: Karar verebilen sistemler, menopoz, bulanık C-kümeleme, katı C-kümeleme, K-ortalamalar kümeleme, eksik veriler 1. VERİ SETİ VE EKSİK VERİLERİN BULUNMASI Kümeleme işlemlerinde kullanılmak üzere ilk olarak hastalardan toplanan verilerden bir veri seti oluşturulmuştur. Bu veriler hastanın kan ve hormonla ilgili laboratuar sonuçlarından elde edilen değerlerdir. Bu değerler yaş, kilo, boy, adet süresi, FSH, LH, estradiol, t3, t4, TSH, glikoz, kolesterol, trigliserid, HDL, LDL, VLDL, hemoglobin, hematokrit, HRT (hormon replasman tedavisi) ve HRT süresi değerleridir. Veri seti yüksek boyutlu verilerin oluşturduğu bir settir. Veri setini oluşturan her bir verinin, yani hastanın değerleri tam olarak bilinmeyebilir. Bu yüzden veri setinde eksik veriler de bulunmaktadır. Bu veri seti, oldukça uzun bir süre boyunca Hacettepe Üniversitesi Hastanesi, Kadın Doğum Servisinde, tedavi gören hastalardan toplanmıştır. GİRİŞ Karar verebilen sistemlerin geliştirilmesi günümüzde hem teknolojik açıdan hem de sosyal, medikal vb. alanlarındaki süreçlerin kolaylaştırılması yönünden önem arz etmektedir. Bu tür çalışmaların yapılması, bilgisayarların insan zekası gibi davranabilmesine, yani “yapay zeka” çalışmalarının gelişmesine önemli ölçüde katkıda bulunmaktadır. İnsan beyni, bir konu hakkında geçmişte yaşanan tecrübelerine göre karar verebilirken, makine/bilgisayar gibi cihazlar bu tür karar verme becerilerini matematiksel işlemlerin sonuçlarına göre yapabilmektedirler. Matematiksel açıdan doğruluk, doğrunun gösterilebilir olması nedeniyle daha güvenilirdir. Bu yüzden, karar vermede önemli tıbbi çalışmalarda, hekimin tecrübelerine dayalı, kendi 284 Elektrik-Elektronik ve Bilgisayar Sempozyumu 2011 3. Kümeleme işlemlerinde kullandığımız bulanık Cortalamalar (FCM), katı C- ortalamalar (HCM), Kortalamalar ve benzerlik tabanlı kümeleme yöntemleri eksik veri setlerinde kullanılamadığı için, kümeleme işlemlerinden önce ön işlem olarak eksik verilen tamamlanması işlemleri gerçekleştirilmiştir. Veri setinde eksik olan verilerin yerine, o verinin tüm hastalar için toplamı alınmış ve toplam hasta sayısına bölünerek ortalama bir değer bulunmuştur. Bulunan bu değerler, eksik olan verilerin yerine yerleştirilerek veri seti böylece tamamlanmıştır. KÜMELEME Kümeleme, en çok bilinen ve en yaygın olarak kullanılan denetlemesiz öğrenme (unsupervised learning) yöntemlerinden biridir [2], [3]. Kümeleme analizlerinin amacı, belirlenen küme sayısı kadar oluşturulacak olan anlamlı grup merkezlerini ve bu gruplara ait olan verileri bulmaktır. Matematiksel hesaplamalarda kolaylık olması açısından, veri seti olarak genellikle matris formundaki gösterimlerden yararlanılır. Veriler arasındaki benzerlikler, uzaklık fonksiyonu kullanılarak hesaplanır. Uzaklık fonksiyonunda gelen olarak Euclid uzaklığı kullanılmakla birlikte, Manhattan, Chebyshev, Minkowski vb. gibi uzaklık fonksiyonlarını da kullanabilmek mümkündür. Kümeleme analizlerinde temel olarak birbirine benzer olan verilerin aynı kümede toplanması, benzer olmayan verilerin de farklı kümelerde olması beklenmektedir. 4. KARAR VEREBİLEN SİSTEM TASARIMI Küme merkezlerinin üçüncü bölümde anlatılan metotlarla bulunmasıyla birlikte karar verebilen bir sistem tasarlanmıştır. Bu sistem, istenilen her bir verinin, Euclid uzaklığı kullanılarak hangi küme merkezine ve dolayısı ile de kümeye en yakın olduğunu bulabilmektedir. Bu uzaklık ne kadar küçükse, veri o kümeye o kadar aittir. Hangi kümeye ait olduğunun bulunmasıyla birlikte, o küme için önerilen tıbbi tedavi yöntemi, seçtiğimiz veri için de uygulanabilmektedir. Bulunan kümelerin her biri için “hormon verilmeli” ya da “hormon verilmemeli” gibi sonuçlar bulunmuştur. Kümeleme işlemlerinde bulduğumuz beş kümeden hangisine en yakın olduğu bulunan veri için, yakın olduğu kümenin tedavisi uygulanacaktır. İkinci bölümde belirtilen veri setinin tamamlanmasıyla birlikte çeşitli kümeleme teknikleri veri setine uygulanmıştır. Uygulanan bu teknikler bulanık C-ortalamalar [1], [4], [11], [12], [13], [14], katı C- ortalamalar [1], [10], K-ortalamalar [8], [9] ve benzerlik tabanlı kümeleme yöntemleridir [15]. Bu yöntemler sırasıyla küme sayısı üç, dört ve beş seçilerek uygulanmıştır. Küme merkezleri için FCM, HCM ve K-ortalamalar kümeleme yöntemleri birbirine çok benzer sonuçlar vermişlerdir. Tıbbi açıdan da bu yöntemler anlamlı olup, küme sayısını beş alarak bulunan sonuçların tıbbi açıdan en anlamlı sonuçlar olduğu bulunmuştur. Bu yüzden küme sayısının beş olarak bulunduğu uygulamalarda bulunan küme merkezleri üzerinden karar verebilen sistem tasarımına geçmek uygun görülmüştür. Bu beş küme merkezinin tıbbi açıdan verdiği sonuçlar aşağıdaki gibi belirtilebilmektedir. Hastanelerde tasarlanması düşünülen bu sistem için bir ara yüz programı tasarlanmıştır. Bu programın ilk bölümünde, doktorun hasta ile ilgili bilmesi gerekenlerden oluşan bir soru bölümü hazırlanmıştır. Bu bölümdeki sorulara verilen cevaplara göre programın ikinci bölümü aktive olmaktadır. Burada ise hastanın, bildirinin ikinci bölümünde belirtilen bilgilerinin girilmesiyle birlikte hangi kümeye ait olduğu bulunmaktadır. Bu bilgilere göre program sonuç vermektedir. Ara yüz programıyla ilgili bazı resimler aşağıda verilmiştir. • Birinci Küme: Spontan menopoza uyumludur. Hastaya HRT verilmemeli fakat destek tedavisi verilmelidir. • İkinci Küme: Metabolizma dengeye girmemiştir. Hastaya HRT verilmelidir. • Üçüncü Küme: Hastaya destek tedavisi verilmeli, HRT tedavisi ise gözden geçirilmelidir. • Dördüncü Küme: Hasta geçiş döneminde bulunduğu için beklenmeli, HRT için sonra karar verilmelidir. • Beşinci Küme: Hastaya HRT verilmeye devam edilmelidir. 285 Fırat Üniversitesi-Elazığ göstergesidir. Bu sonuçların başarı oranına da bakılarak, tasarlanan bu sistemin hastalara uygulanacak tedavi yönteminin bulunması amacıyla hastanelerde kullanılabileceğine karar verilmiştir. 6. [1] Kanade, PM, Hall, LO, 2007, Fuzzy Ants and Clustering, IEEE Transactions on Systems, Man, and Cybernetic Part A: Systems and Humans, cilt 37, No.5. [2] Bishop C, 2006, Pattern Recognition and Machine Learning, Singapore: Springer. [3] Duda, RO, Hart, PE, Stork, DG, 2006, Pattern Classification, Wiley. [4] Sarkar, M, Leong, T, Fuzzy K-Means Clustering with Missing Values, Department of Computer Science, School of Computing, National University of Singapore. [5] Allison, PD, 2001, Missing data, Sage University Papers Series on Quantitative Applications in the Social Sciences, Thousand Oaks, California, USA. [6] Little, RJA, Rubin, DB, 2002, Statistical Analysis with Missing Data, second ed., Wiley, NJ, USA. [7] Schafer, JL, 1997, Analysis of Incomplete Multivariate Data, Chapman & Hall, Florida, USA. [8] Likas, A, Vlassis, N, Verbeek, J, 2002, The Global K-means Clustering Algorithm, Pattern Recognition Letters, cilt 36, sayfa 451 – 461. [9] Jain, AK, 2009, Data Clustering: 50 Years Beyond K-means, Journal of the Pattern Recognition Society, Pattern Recognition Letters, cilt 31, sayfa 651–666. [10] Park, H, Jun, C, 2008, A Simple and Fast Algorithm for K-medoids Clustering, Expert Systems with Applications, cilt 36, sayfa 3336–3341. [11] Tari, L, Baral, C, Kim, S, 2008, Fuzzy c-means Clustering with Prior Biological Knowledge, Journal of Biomedical Informatics, cilt 42, sayfa 74–81. [12] Flores-Sintas, A, Cadenas JM, Martin, F, 1997, Membership Functions in the Fuzzy c-means Algorithm, Fuzzy Sets and Systems, cilt 101, sayfa 49-58. [13] Fan, J, Zhen, W, Xie, W, 2002, Suppressed Fuzzy c-means Clustering Algorithm, Pattern Recognition Letters, cilt 24, sayfa 1607–1612. [14] Baraldi, A, Blonda, P, 1999, A survey of fuzzy clustering algorithms for pattern recognition. I, IEEE Trans. Syst., Man, Cybern. B, Cybern., cilt 29, no. 6, sayfa 778–785. Şekil 1: Ara yüz programı – İlk Bölüm Şekil 2: Ara yüz programı – İkinci Bölüm 5. KAYNAKLAR SONUÇLAR Elimizde bulunan tıbbi veri setine uyguladığımız kümeleme yöntemleri ve bu kümelerin sonuçlarıyla karar verebilme yeteneğinin kazandırılmasıyla birlikte tıbbi açıdan hastalara hormon takviyesi uygulanmasına yönelik bir akıllı sistem oluşturulmuştur. Bu sistem hekime karar verebilmesinde yardımcı olması amacıyla tasarlanmıştır. Sonuçlar kendi alanında uzman doktorlar tarafından değerlendirilmiş ve doktorlara uygun tedaviyi vermeleri konusunda yardımcı olarak kullanabileceği fikrine varılmıştır. Veri setinde, kümeleme işlemleri sırasında kullanılmayan veriler test verileri olarak kullanılmışlardır. Bu test verileri için karar verici sistemin bulduğu kararlar kaydedilmiştir. Daha sonra bu kararların Hacettepe Üniversitesi Tıp Fakültesi’nde alanında uzman doktorlar tarafından da değerlendirilmesi istenilmiştir. Bulduğumuz sonuç, doktorların sonuçlarıyla karşılaştırıldığında 95% başarıya ulaşıldığı görülmüştür. Kümeleme ve karşılaştırma ile tasarladığımız sistemin sonuçları, karar verebilen bir sistem oluşturulduğunun 286 Elektrik-Elektronik ve Bilgisayar Sempozyumu 2011 [15] Yang, M, Wu, K, 2004, A Similarity Based Robust Clustering Method, IEEE Transactions on Pattern Analysis and Machine Intelligence, cilt 26, No. 4. 287