VERİ ANALİZİ Arş. Gör. Tuba Kızılkaya İÇERİK NİCEL ANALİZ Tanımlayıcı analizler Ki-kare testi, T-testi ve diğer analizler İstatistik Tablo ve grafiklerle özetleme, sonuçları yorumlama Sonuçları evrene genelleme Özellikler arasındaki ilişkiyi araştırma Veri Analizi için Program seçimi SPSS, Stata, SAS, Microsoft Excel, Statistica, Minitab, Statgraph, MedCalc M.Hayran , M.Hayran, (2011). Sağlık Araştırmaları için Temel İstatistik. Ankara: Art Ofset Veri Analizine Başlamadan Önce Veri kodlama işlemleri ve veri temizliği/hatalı verileri ayıklama yapılmış olmalıdır. Analiz Seçimi İçin Yanıtlanması Gereken Sorular 1. Bağımlı değişken ve bağımsız değişkenler hangileridir? 2. Değişkenlerin ölçüm türleri nelerdir? Ölçüm sayısal ise normal dağılım göstermekte midir? 3. Ölçümler bağımlı mıdır, bağımsız mıdır? 4. Tasarımda kaç farklı çalışma ya da ölçüm grubu bulunmaktadır? Tek çalışma grubu var ise farklar mı ilişkiler mi incelenmektedir? M.Hayran , M.Hayran, (2011). Sağlık Araştırmaları için Temel İstatistik. Ankara: Art Ofset Değişkenlerin Ölçüm Türleri Nominal: Sadece niteliksel sınıflandırmaya izin verir, bireyin hangi kategoriye ait olduğunu belirtir. Ancak hangi bireyin herhangi yönden daha yüksek değer taşıdığı belli değildir, ölçüm düzeyleri arasında sıralama, fark ya da oran orantı ilişkisi yoktur. Örn: Hastanın ölüm nedenleri; 1-kardiyovasküler olay, 2-serebravasküler olay, 3- enfeksiyon (birbirleri üzerinde üstünlük yok) Ordinal: Daha az/daha çok, daha küçük/daha büyük gibi sıralama belirtirler. Ancak ne kadar büyük olduğu konusunda bilgi vermezler, düzeyler arasındaki uzaklık belli değildir. Örn: Tümor evreleri; Evre-1,Evre-2, Evre-3,Evre-4 Sayısal: Değerler arasında hem sıralama hem de uzaklık kavramları geçerlidir. Örn: Hemoglobin değerleri; 9, 10, 11 g/dl Tanımlayıcı Analizler • • • • • Frekans Aritmetik ortalama Ortanca (Medyan) Tepe değer (Mod) Standart sapma Tanımlayıcı Analizler 9 Frekans (Sıklık) Bir sınıfa düşen veri sayısına frekans denir, f ile gösterilir. Frekansların toplamı veri sayısına eşit olmalıdır Frekans (Sıklık) Aritmetik Ortalama Gözlenen değerlerin tümü toplanarak gözlem sayısına bölündüğünde elde edilen değere aritmetik ortalama denir. Örnek: 95,88,73,67,59,46,35,26,23 Ortalama: 56.88 Ortanca(Medyan) Küçükten büyüğe doğru sıralanmış bir ölçüm grubunun orta puanını gösterir. Ortanca verilerin dağılımının normalden uzak olması, sağa ya da sola çarpık olması durumunda kullanılır. Tepe değer (Mod) Frekansı en büyük olan puana denir. En çok tekrar edilen ölçme sonucudur. Standart sapma Bir veri grubunda verilerin aritmetik ortalamadan ne kadar uzaklaştığının ölçüsüdür. Ki Kare (χ2) testi • Ki Kare testinde 2x2 frekans tablosu söz konusudur. • H0’ın doğru olması halinde, tablonun her gözündeki gözlenen frekanslarla beklenen frekanslar birbirine yakın olmalıdır. Ki Kare, bu frekansları karşılaştırarak hesap yapar. Dikkat Edilecek Hususlar • Bağımsız iki gruptan n1 ve n2 sayıda örneklem olmalı. • Her bireyden sadece bir kez veri alınmış olmalı. • Tablodaki satırlar ve sütunlar birbirini dışlamalıdır (mutually exclusive). Yani, kategorilerden ikisi aynı anda seçilememelidir (örn.: geleneksel, ya modern AP yöntemi tercih etmeli, ikisini birden seçememeli). • Genel yaklaşım beklenen frekansların tablonun her bir gözü için 5‟ten büyük olması şeklindedir. Ki Kare (χ2) testi Kadınların postpartum dönemde aile planlaması yöntemi tercihi ile parite açısından bir farklılık olup olmadığını araştırmak istiyoruz. İncelediğimiz değişken (yöntem tercihi; 1-geleneksel 2-modern) kategorik bir değişkendir. Postpartum kadınlar da iki bağımsız gruptur (primipar-multipar olmak üzere) (H0: Postpartum primipar ve multipar kadınların aile planlaması tercihleri arasında fark yoktur.) Ki Kare (χ2) testi Analyze>Descriptive Statistics>Crosstabs> [“yöntemtercihi1” değişkenini “Row(s)” alanına geçirelim. “parite” değişkenini ise “Column(s) alanına geçirelim]>Statistics [Chi-square kutusunu işaretleyelim]>Continue>Cells [“Observed”, “Expected” ve “Row” kutularını işaretleyelim]>Continue>ok. Ki Kare değerine bakıldığında “continuity correction” (normal dağılıma yaklaşması için süreklilik düzeltmesi) sonrasında değerin 14,425 olduğu görülüyor. Serbestlik derecesi (df) 1 olacak şekilde iki yönlü p değeri sıfıra yakın (0,0001) olarak bildirilmiştir. Normal Dağılım • Standart normal dağılımın ortalaması 0 ve standart sapması 1’dir. • Eğri, dikey eksene göre simetriktir. Puanların yarısı, eksenin sağ, diğer yarısı da sol taraftadır. • Ortalamanın sol tarafındaki (altında) birimler negatif, sağ tarafındaki (üstünde) birimler pozitiftir. • Mod, ortanca ve ortalama birbirine eşittir. • Dağılımın her iki ucu giderek yatay eksene yaklaşır. Normal Dağılım Testleri Parametrik Testler Normal dağılıma sahip olan verilerin analizinde parametrik testler kullanılır Non parametriklere kıyasla daha çok istatistiksel güce sahiptir NİCEL ANALİZ İÇİN ALGORİTMA Paired Student T test (Eşleştirilmiş T testi):Bağımlı-2 ölçüm • Bağımlı örneklem t-testi, bir değişkenin, iki farklı durumda gözlemlenen değerlerinin ortalamalarını karşılaştırır (pre-post). Örn: En az bir kardiyovasküler risk faktörüne sahip 235 hastanın dahil edildiği bir araştırma yapılıyor. Tüm hastalara eğitim veriliyor ve diyet öneriliyor. İlk total kolestrol değerleri ile 6 ay sonra ölçülmüş kolestrol değerleri arasındaki fark istatistiksel olarak anlamlı mıdır? Paired Student T test (Eşleştirilmiş T testi):Bağımlı-2 ölçüm Karar için bu tabloda dikkate alınması gereken değer, "Sig.(2tailed)" değeridir. 0.000<0.05 olduğu için H0 hipotezi reddedilir. Yani " %95 güvenle, deneyden önceki ve sonraki basınç ortalamaları arasında, istatistiksel olarak anlamlı bir farklılık vardır. " denilebilir. Tekrarlı Ölçümler Varyans Analizi: Bağımlı, 2+ ölçüm) • Tekrarlanan ölçümlerde varyans analizi ikiden fazla bağımlı gruptan elde edilen numerik verilerin ortalamalarının karşılaştırılmasında kullanılır. • Değerdeki değişimi etkileyen bir faktörün araştırılması içinde kullanılır. Tekrarlı Ölçümler Varyans Analizi Örnek İstatistik dersinden bütünlemeye kalan öğrencilerin vize ve final notlarının, bütünleme sınavından aldıkları notlara etkisi incelenmek istenmiştir. https://issuu.com/famuk/docs/tekrarlananolcumlerdevaryansanalizi Student’s T Test (bağımsız gruplar t testi): bağımsız, 2 grup • Bağımsız iki grup ortalamaları arasında istatistiksel olarak fark olup olmadığı araştırıldığı bir hipotez testidir. • Bu testin yapılabilmesi için, Gruplar bağımsız olmalı Değerlerin dağılımı normal olmalı İki gruptaki standart sapmalar benzer veya varyanslar homojen olmalıdır M.Hayran , M.Hayran, (2011). Sağlık Araştırmaları için Temel İstatistik. Ankara: Art Ofset Student’s T Test Örnek: 235 hastanın dahil edildiği bir araştırma yapılıyor. Tüm hastalara risk faktörleri ile ilgili eğitim veriliyor ve diyet öneriliyor. Yaş, cinsiyet, demografik özl, BMI, lab değerleri ve kan basıncı düzeyleri kaydediliyor. Aşağıdaki soruların cevapları aranıyor: 1. Cinsiyete göre BMI düzeyleri arasında fark var mıdır? 2. Hastaların yaşadıkları yerin kentsel ve kırsal olmasına göre trigliserit düzeyleri farklı mıdır? Bağımlı değişkenler: BMI, trigliserit ve LDL-kolestrol düzeyleri Bağımsız değişkenler: Cinsiyet, kentsel veya kırsal bölgede yaşama Normal dağılım bak (cinsiyet BMI, kentsel kırsal, trigliserit) Normal+bağımsız 2 grup Student T test ANOVA: bağımsız, +2 grup • Testin adı tek yönlü varyans analizi yerine ANOVA kısaltması da kullanılmaktadır. • Bağımsız değişkende çok sayıda grup varsa ANOVA kullanılır. • ANOVA bağımsız değişkenlerin kendi aralarında nasıl etkileşime girdiklerini ve bu etkileşimlerin bağımlı değişken üzerindeki etkilerini analiz etmek için kullanılır. • Bu testin yapılabilmesi için, Gruplar bağımsız olmalı Değerlerin dağılımı normal olmalı Gruplardaki standart sapmalar veya varyanslar homojen olmalıdır. ANOVA örnek • 235 hastanın dahil edildiği bir araştırma yapılıyor. Tüm hastalara risk faktörleri ile ilgili eğitim veriliyor ve diyet öneriliyor. Yaş,cinsiyet, demografik özl, BMI, lab değerleri ve kan basıncı düzeyleri kaydediliyor. Aşağıdaki soruların cevapları aranıyor: 1-Medeni duruma göre belirlenmiş gruplar arasında BMI değerleri istatistiksel olarak farklı mıdır? BMI ve LDL değişkenlerinin normal dağılımına bak Medeni durum (bekar, evli, dul) :Bağımsız değişken, 3 grup, normal dağılım Bağımsız değişken, 3 grup, normal dağılım ANOVA KORELASYON ANALİZİ Pearson Spearman Pearson Korelasyon Katsayısı İki sürekli değişkenin doğrusal ilişkisinin derecesinin ölçümünde kullanılır. «İki değişken arasında anlamlı bir ilişki var mıdır?» sorusunun cevabı aranır. Korelasyon katsayısı hesaplanmadan önce mutlaka serpiştirme grafiği (scatter diagram) yapılarak doğrusal ilişki olup olmadığı kontrol edilmelidir. Erişim:18.04.2017 https://kemaldoymus.files.wordpress.com/2009/12/korelasyon.ppt Pearson Korelasyon Katsayısı Korelasyon katsayısı “r” ile gösterilir ve -1 ile +1 arasında değerler alır. Erişim:18.04.2017 https://kemaldoymus.files.wordpress.com/2009/12/korelasyon.ppt Pearson Korelasyon Katsayısı Aşağıdaki durumlarda r’yi hesaplamak yanıltıcı olabilir: • İki değişken arasında doğrusal olmayan bir ilişki olması • Verinin her birey hakkında birden fazla ölçüm içermesi • Uç değerlerin bulunması • Verinin alt gruplardan oluşması durumunda Aktürk, Z. Acemoğlu,H. (2011). Sağlık Çalışanları için Araştırma ve Pratik İstatistik Pearson Korelasyon Katsayısı yorumu r İlişki 0,00-0,20 : Poor – kötü - yok 0,20-0,40: Modarate - orta 0,40-0,60: Good - İyi 0,60-0,80: Very good – Çok iyi 0,80-1,0: Excellent - Mükemmel Pearson Korelasyonu-Örnek Ebelikte Temel Uygulamalar dersini alan bir grup öğrencinin; bilimsel süreç becerisi puanları ile ders başarı puanları arasında anlamlı bir ilişki var mıdır? Şeklindeki bir araştırma sorusunun cevabını araştıralım. Erişim:18.04.2017 https://kemaldoymus.files.wordpress.com/2009/12/korelasyon.ppt Doğrusal, pozitif bir ilişki olduğu görüldü Değişkenler aktarıldıktan sonra Correlation Coefficients kısmından Pearson (eğer veriler normal dağılmıyorsa Spearman) işaretlenir. OK işaretlenerek analiz tamamlanır ve çıktılar alınır. Pearson Korelasyon Öğrencilerin bilimsel süreç becerileri ile ders başarıları arasında çok yüksek, pozitif yönlü ve anlamlı bir ilişki olduğu görülmektedir. r=0,992 (p<0,01). Buna göre, bilimsel süreç becerisi yüksek olan öğrencilerin laboratuvar başarısı da yüksektir. Spearman Korelasyon Katsayısı Aşağıdaki durumlardan birinin söz konusu olması halinde Spearman korelasyon katsayısını hesaplanır: • Her iki değişkenin de normal dağılmaması • Örneklem sayısının küçük olması • x ve y arasında doğrusal bir ilişkinin olmaması Aktürk, Z. Acemoğlu,H. (2011). Sağlık Çalışanları için Araştırma ve Pratik İstatistik PARAMETRİK OLMAYAN TESTLER Kategorik verilerde ve örneklem sayısı düşük olduğunda parametrik olmayan testler kullanılır. PARAMETRİK OLMAYAN TESTLER Köşesi, İ. (2014). Uygun İstatistiksel Test Seçim Kılavuzu. http://www.toraks.org.tr/uploadFiles/book/file/962014105211-2629.pdf WILCOXON İŞARETLİ SIRA TESTİ İki bağımlı gruptan elde edilen numerik verilerin ortalamalarının karşılaştırılmasında bağımlı örneklemlerde kullanılan t-testi’nin (paired t-test) non-parametrik alternatifi Wilcoxon işaretli sıra testi (Wilcoxon signed rank test)’dir. Aktürk, Z. Acemoğlu,H. (2011). Sağlık Çalışanları için Araştırma ve Pratik İstatistik WILCOXON TESTİ Sıfır hipotezi (H0) ve alternatif hipotezin (H1) tanımlanması • H0: Bireylerin uygulanan beslenme ve egzersiz programı öncesi ve sonrasındaki vücut ağırlıkları arasında fark yoktur • H1: Bireylerin uygulanan beslenme ve egzersiz programı öncesi ve sonrasındaki vücut ağırlıkları arasında fark vardır. Aktürk, Z. Acemoğlu,H. (2011). Sağlık Çalışanları için Araştırma ve Pratik İstatistik WILCOXON TESTİ Aktürk, Z. Acemoğlu,H. (2011). Sağlık Çalışanları için Araştırma ve Pratik İstatistik Analyze>Nonparametric Tests >2 Related Samples>[“weight” ve “weight2” değişkenlerini işaretleyip “Test Pair(s) List” alanına geçirelim>ok. Aktürk, Z. Acemoğlu,H. (2011). Sağlık Çalışanları için Araştırma ve Pratik İstatistik FRIEDMAN TESTİ • İkiden fazla bağımlı gruptan elde edilen numerik verilerin ortalamalarının karşılaştırılmasında kullanılan tekrarlayan ölçümlerde varyans analizinin (repeated measures ANOVA) non-parametrik alternatifi olan Friedman varyans analizidir. Aktürk, Z. Acemoğlu,H. (2011). Sağlık Çalışanları için Araştırma ve Pratik İstatistik FRIEDMAN TESTİ Diyabeti olan gebelere ilaç, beslenme ve egzersizden oluşan tedavi programı uyguladığımızı varsayalım. Program süresince katılımcıların Hemoglobin A1c düzeylerini araştırmak istiyoruz (H0: Bireylerin uygulanan tedavi programı öncesi ve sonrasındaki Hemoglobin A1c düzeyleri arasında fark yoktur). Hemoglobin A1c ölçümleri tedavi programı uygulamadan önce, programın 3. ve 6. aylarında yapılmış olsun. Ölçmek istediğimiz değişken numeriktir. Uygulama öncesi ve sonrasında elde edilen üç ölçümler ise bağımlıdır. Aktürk, Z. Acemoğlu,H. (2011). Sağlık Çalışanları için Araştırma ve Pratik İstatistik FRIEDMAN TESTİ Analyze > Nonparametric Tests > K Related Samples >Test Variables alanına [ HbA1c1, HbA1c2, HbA1c3 ] taşıyalım >OK Aktürk, Z. Acemoğlu,H. (2011). Sağlık Çalışanları için Araştırma ve Pratik İstatistik FRIEDMAN TESTİ Aşağıdaki çıktıları elde ederiz: Test Statistics(a) tablosunda p=0.000 olduğundan üç farklı zamanda ölçümlerden en az birisinin diğerlerinden farklı olduğunu görürüz. Hangi grup veya grupların diğerlerinden farklı olduğunu anlamak için Wilcoxon testi ile İkişerli karşılaştırmalar yapılabilir (1. Ölçüm ile 2. ölçüm 1. Ölçüm ile 3. Ölçüm, 2. Ölçüm ile 3. Ölçüm ). MANN WHITNEY-U TESTİ • Student t testinin nonparametrik alternatifidir. • İki bağımsız gruptan elde edilen numerik verilerin ortalamalarının karşılaştırılmasında kullanılır. Aktürk, Z. Acemoğlu,H. (2011). Sağlık Çalışanları için Araştırma ve Pratik İstatistik KRUSKAL WALLIS ANOVA testinin alternatifidir. İkiden fazla bağımsız gruptan elde edilen numerik verilerin ortalamalarının karşılaştırılmasında kullanılan tek yönlü varyans analizidir. Aktürk, Z. Acemoğlu,H. (2011). Sağlık Çalışanları için Araştırma ve Pratik İstatistik KRUSKAL WALLIS Analiz Testleri Özet M.Hayran , M.Hayran, (2011). Sağlık Araştırmaları için Temel İstatistik. Ankara: Art Ofset