10.Sunum

advertisement
10.Sunum
Yrd. Doç. Dr. Sedat ŞEN
1
Bağımlı Değ.
Bağımsız Değ.
Analiz
Sürekli
İki kategorili
t-testi, Wilcoxon
testi
Sürekli
Kategorik
ANOVA, linear
regresyon
Sürekli
Sürekli
Korelasyon,
doğrusal regresyon
İki kategorili
Sürekli
Lojistic regresyon
İki kategorili
İki kategorili
Ki-Kare testi,
lojistic regresyon
Yrd. Doç. Dr. Sedat ŞEN
2




Önceki sunumlarda yaş, ders çalışma saati, sınav
puanı gibi sürekli değişkenlerin bağımlı değişken
olduğu durumlarda yapılacak analizlere
bakmıştık. O analizlerde bağımsız değişkenler
bazen sürekli bazen süreksiz (kategorik: cinsiyet
ve medeni durum gibi) olabiliyordu.
Bu sunumda daha çok bağımlı değişkenin
kategorik ya da iki kategorili olduğu durumlarda
yapılabilecek analizleri anlatmaya çalışacağız.
Genel olarak:
Ki-kare testi
Lojistik regresyon yöntemlerinden
bahsedilecektir.
Yrd. Doç. Dr. Sedat ŞEN
3

Eğer verimizde kategorik değişken varsa daha
önceki analizlerde olduğu gibi aritmetik
ortalamaları kullanamayız. Eğer kategorik bir
değişkenin aritmetik ortalamasını
hesaplamaya çalışırsanız mantıksız bir şey
yapmış olursunuz. Kategorik değişkenlerin
analizleri genelde frekanslar üzerinden
yapılır. Hatırlatma: Frekans bir değişkendeki
kategorilerin (elemanların) gözlem sayısıdır.
Yrd. Doç. Dr. Sedat ŞEN
4
Puan
Frekan 
s
40
3
50
2
60
3
70
1
90
5
Cinsiy
et
Frekans
K
9
E
5



Diyelim ki bir sınavdan alınan puanların
listesi:
40,40,40,50,50,60,60,60,70,90,90,90,
90,90
Bu puanları alan öğrencilerin cinsiyet
bilgisi listesi: K,E,E,K,K,E,K,K,E,K,K,E,K,K
olsun.
şeklinde olsun. Bu durumda puan ve
cinsiyet değişkenleri için frekans
tablosu oluşturmak istersek yandaki
tabloları elde ederiz.
Yrd. Doç. Dr. Sedat ŞEN
5

Eğer iki tane kategorik değişkenimiz varsa
1.Sunumda gösterdiğimiz gibi çaprazlık tabloları
(2x2, 3x3 vb.) oluşturarak analizleri yapabiliriz.
Örneğin A ve B partisine oy veren kişilerin
Cinsiyetlerine göre dağılımını merak ettiğimiz bir
araştırma sorusunda 4 farklı durum ortaya
çıkabilir (A-Kadın, A-Erkek, B-Kadın, ve B-Erkek
). Bu durumların hepsini aşağıdaki çaprazlık
tablosu ile gösterebiliriz:
A Partisi B Partisi Toplam
Kadın
28
48
76
Erkek
10
114
124
Toplam
38
162
200
Yrd. Doç. Dr. Sedat ŞEN
6
Eğer iki kategorik değişken arasında ilişki
olup olmadığını merak ediyorsak
kullanacağımız istatistik yöntemi Pearson KiKare testi olacaktır. Örneğin:
 Seçmenlerin cinsiyetleri ile siyasi parti
tercihleri arasında bir ilişki var mıdır?
 İnsanların medeni durumları (evli-bekar) ile
araba sahibi olup olmamaları (var-yok)
arasında bir ilişki var mıdır?
gibi soruları cevaplamak için Ki-Kare testi
kullanabiliriz.

Yrd. Doç. Dr. Sedat ŞEN
7

Ki-Kare testi her bir kategori çiftine düşen
frekans sayısı ile bu durumlara şansla
düşebilecek frekans sayılarının
karşılaştırılmasına dayanır. Gözlenen frekans
ile beklenen frekans karşılaştırması
diyebiliriz.
Yrd. Doç. Dr. Sedat ŞEN
8

A Partisi
B Partisi
Toplam
Kadın
28
48
76
Erkek
10
114
124
Toplam
38
162
200
Bu tablodaki frekans değerlerini ve ki-kare
formülünü kullanarak ki-kare değerinin
hesaplamasını gösterelim daha sonra SPSS
kullanarak bulabiliriz.
Yrd. Doç. Dr. Sedat ŞEN
9
A Partisi
B Partisi
Toplam
Kadın
28
48
76
Erkek
10
1 14
124
T oplam
38
1 62
200
Yrd. Doç. Dr. Sedat ŞEN

Önce her bir
kategori çifti için
beklenen model
değerlerini
hesaplarız (yan
üstte). Daha sonra
gözlenen
frekansları bu
beklenen
değerlerden
çıkarıp karelerini
alarak beklenen
değerlere böleriz
(yan altta). En
sonunda elde
ettiğimiz değerleri
topladığımızda
ki-kare değerini
(25.35) buluruz.
10




A Partisi
B Partisi
Toplam
Kadın
28
48
76
Erkek
10
114
124
Toplam
38
162
200
Yukarıdaki tablo için bulduğumuz 25.35 değeri ki-kare değeridir. Bu
değerin anlamlı bir fark doğurup doğurmadığını test edebilmemiz
için serbestlik değerine ihtiyacımız vardır.
Ki-kare yönteminde serbestlik derecesi kategorik değişkenlerin
kategori sayılarından 1 çıkarıp bu sayıları birbirleriyle çarptığımızda
elde edilen değerdir. Burada her iki değişkende (cinsiyet ve parti) iki
kategori (kadın-erkek ve A-B partileri) olduğu için serbestlik
derecesi = (2-1) x (2-1) hesaplamasından 1 elde edilir.
Daha sonra bu sd ve ki-kare değerlerini alarak istatistik
tablolarından bulabileceğimiz kritik değer ile karşılaştırdığımızda kikare sonucunun anlamlı bulunup bulunmadığını test edebiliriz.
Eğer bulduğumuz (25.35) değeri 3.84 (istatistik kitaplarındaki
tablodan elde edilen) kritik değerinden büyük ise testimizin p değeri
0.05’ten küçüktür yani iki değişken arasında anlamlı bir ilişki vardır
diyebiliriz. Bunu SPSS bizim için yapıyor.
Yrd. Doç. Dr. Sedat ŞEN
11


Önceki slaytta elde edilen 25.35 ki-kare değeri ve 1
olan sd değerini internette bir çok web sitesinde
bulunan “chi-square calculator” uygulamasını
kullanarak p-değerini elde edebiliriz.
http://www.socscistatistics.com/pvalues/chidistributio
n.aspx
Eğer p-değeri 0.05’ten küçük bulunursa cinsiyet ile parti tercihi
arasında bir ilişki vardır şeklinde belirtebiliriz.
Yrd. Doç. Dr. Sedat ŞEN
12



Önceki slaytta tanıttığımız ki-kare testi ki-kare dağılımının
yaklaşımına dayalı olduğu için büyük örneklemlerde çok iyi
yaklaşıma sahipken bu yaklaşım düzeyi küçük
örneklemlerde daha uzak olabilmekte ve anlamlı bulunan
sonuçların yanlış çıkmasına neden olmaktadır.
Özellikle ki-kare testi yapabilmek için çaprazlık
tablosundaki her hücrede 5’ten küçük frekans değerleri
bulunmamalıdır. Bu da ki-karenin küçük örneklemlerde
tercih edilmemesine neden olmuştur.
Alternatif olarak küçük örneklemler için ki-kareye göre
daha doğru sonuçlar sunan Fisher Kesin Olasılık Testi
geliştirilmiştir. Bu istatistik özellikle küçük örneklemlerden
elde edilen 2x2 tabloları için kullanılsa da büyük
örneklemlerden elde edilen diğer büyük boyuttaki tablolar
için de kullanılabilir (analizler daha fazla zaman alabilir).
Yrd. Doç. Dr. Sedat ŞEN
13

Ki-kare testinin bir başka alternatifi de
maksimum olabilirlik yöntemine dayanan en
çok olabilirlik oranı istatistiğidir.
Yrd. Doç. Dr. Sedat ŞEN
14

•
A Partisi
B Partisi
Toplam
Kadın
28
48
76
Erkek
10
114
124
Toplam
38
162
200
Yukarıdaki tablo için LR değeri aşağıdaki gibi
hesaplanabilir:
Ki-kare gibi LR değeri de aynı sd değerine sahip ve ki-kare dağılımı
göstermektedir. Buradaki LR değeri de 3.84 (p = .05) kritik değerinden
büyük olduğu için aynı yorumu yapabiliriz. LR istatistiği küçük
örneklemlerde tercih edilir.
Yrd. Doç. Dr. Sedat ŞEN
15

2x2 çaprazlık tablolarında Pearson ki-kare
değeri küçük p değerleri sunarak anlamlı
değerler üretmeye eğilimlidir. Bu da I.Tür hata
yapılma şansını artırır. Bu sorunu çözmek için
Yates bir düzeltme önermiştir. Aşağıdaki
formülün Pearson ki-kareden tek farkı pay
kısmındaki gözlenen ile model farklarından
0.5 çıkarılmasıdır.
Yrd. Doç. Dr. Sedat ŞEN
16

A Partisi
B Partisi
Toplam
Kadın
28
48
76
Erkek
10
114
124
Toplam
38
162
200
Yukarıdaki tabloya göre Yates düzeltmesi
aşağıdaki gibi hesaplanabilir:
• Buradaki bulunan değer de Pearson kikare değeri gibi yorumlanabilir (p<0.05).
Yrd. Doç. Dr. Sedat ŞEN
17


Verilerin bağımsızlığı: Verilerin toplandığı kişiler
çaprazlık tablosunun sadece bir hücresine
girilebilir. Örneğin bir kişi hem A hem de B
partisine oy veren kısımlarda yer almamalıdır.
Çaprazlık tablosundaki her hücresi değer 5’ten
büyük frekansa sahip olmalı. Büyük çaprazlık
tablolarında 5’ten küçük hücreler çok problem
oluşturmasa da çok büyük tablolarda bu değerin
1’den küçük olmaması istenir. Genel görüş
tablodaki her hücrede 1’den küçük hiç değer
olmaması ve 5’ten küçük frekansa sahip
hücrelerin verinin %20’sini geçmemesi. Eğer 5’ten
küçük frekansa sahip hücreleriniz varsa Fisher
Kesin Olasılık Testi kullanılabilir.
Yrd. Doç. Dr. Sedat ŞEN
18

Önceki slaytlarda verilen Pearson Ki-kare,
Fisher Kesin Olasılık Testi , en çok olabilirlik
oranı ve Yates düzeltmesi değerleri SPSS’te
verimizi açtıktan sonra Analyze>Descriptive
Stat>Crosstabs kısmına tıklayarak elde
edilebilir.
Yrd. Doç. Dr. Sedat ŞEN
19

SPSS’te kategorik veri ile analiz yaparken 2 türlü veri girişi
yapabiliriz. Aşağıda iki veri türü de gösterilmiştir. Soldaki tüm
katılımcılara ait bilgilerin olduğu dosyayı sağdaki ise bu
kişilerin bilgilerinden oluşan frekanslarla üretilen 2x2
çaprazlık tablosudur. Bu derste soldaki veriyle ki-kare ve
diğer değerleri nasıl elde edeceğimizi göstereceğiz.
Yrd. Doç. Dr. Sedat ŞEN
20

Bu veri ile ki-kare ve diğer değerleri elde etmek istiyorsak
SPSS’te Analyze>Descriptive Stat>Crosstabs kısmına
tıkladığımızda açılan aşağıdaki ekranda öncelikle değişkenleri
tablonun satır ve sütun kısımlarına eklememiz gerekmektedir.
Yrd. Doç. Dr. Sedat ŞEN
21

Statistics
ekranında
elde etmek
istediğimiz
istatistikleri
seçebiliriz.
Şimdilik
sadece chisquare (kikare vd.) elde
etmek için
Chi-square
seçeneğini
işaretliyoruz.
Yrd. Doç. Dr. Sedat ŞEN
22

2x2 çaprazlık tablosuna
sahip verimizin ki-kare
analizi sonucunda
karşımıza yandaki 3
tablo çıkmaktadır.
Birinci tabloda etkileşim
değişkenine (AxB) ait
betimleyici bilgiler
sunulmaktadır. İkinci
tablo değişkenleri her
bir kombinasyonu için
sahip olduğu
frekanslarını gösteren
bir çaprazlık
tablosudur. En önemli
tablo en sonda verilen
ki-kare ve diğer
istatistik değerlerimizin
yer aldığı tablodur.
Yrd. Doç. Dr. Sedat ŞEN
23


Aşağıdaki tabloda sırasıyla Pearson ki-kare, Yates düzeltmesi, en çok
olabilirlik oranı ve Fisher Kesin Olasılık Testi değerleri ve anlamlılık
durumları verilmektedir. Bu sayılar daha önce hesaplayarak bulduğumuz
değerlere eştir. Aynı yorumu burada dayapabiliriz:
p -değeri 0.05’ten küçük bulunduğu için cinsiyet ile parti tercihi arasında
bir anlamlı bir ilişki vardır diyebiliriz (
= 25.36, p <0.05 ).
Yrd. Doç. Dr. Sedat ŞEN
24



Cramer’s V ve risk oranı (odds ratio) ki-kare
istatistiği için kullanılan etki büyüklüğü
değerleridir.
Risk oranı değeri 2x2 tabloları için çok
kullanışlıdır.
Risk oranı iki oranın birbirine bölümüyle elde
edilir. Bizim örneğimizde A partisi için kadın
ve erkeğin birbirine oranın B partisindeki
kadın ver erkeğin birbirine oranının
bölünmesiyle elde edilir.
Yrd. Doç. Dr. Sedat ŞEN
25




A=28/10=2.8
B=48/114=0.421
A/B=2.8/0.421=6.65
Buradaki etki büyüklüğü yorumu daha önceki
etki büyüklüklerininkinden farklıdır. Burada
çıkan 6.65 değerini şöyle yorumlayabiliriz:
Kadın olmanın A partisini seçme oranı B
partisini seçme oranından 6.65 kat daha
fazladır.
Yrd. Doç. Dr. Sedat ŞEN
26

Eğer Etki
Büyüklüğü olarak
Cramer’s V
değerini elde
etmek istiyorsak
ki-kare değerini
seçtiğimiz yerde
Cramer’s V
seçeneğini de
işaretleyek
Cramer’s V elde
edebiliriz.
Yrd. Doç. Dr. Sedat ŞEN
27

Cramer’s V değeri ANOVA ve regresyondaki etki
büyüklüğü değerleri gibi 0 ile 1 arasında
değişmektedir. Aşağıdaki tabloya göre bizim
verimize ait etki büyüklüğü değeri 0.356
çıkmıştır.
Yrd. Doç. Dr. Sedat ŞEN
28





Eğer verinizde 5’ten küçük frekansa sahip
%20’den fazla durum var ya da 1’den küçük
frekans olma durumu varsa aşağıdaki
çözümleri deneyebilirsiniz:
(1) Verideki değişkenlerden birini çıkarın
(2) Sorunlu olan değişkenin kategorisini
çıkarın
(3) Daha fazla veri toplayın
(4) Güç kaybını kabul edin
Yrd. Doç. Dr. Sedat ŞEN
29


Buraya kadar bahsedilen kategorik veri analizi
istatistikleri 2 kategorik değişken içeren
durumlar için kullanılmaktadır. Bu 2 değişkenin
kategori sayısına göre tablolarımız 2x2, 2x3, 3x3
vb… şeklinde adlandırılmaktadır. İki kategorik
değişkenin olsuğu durumlarda önceki slaytlarda
gösterilen menülerden ki-kare ve diğer
istatistikler hesaplanabilir.
Eğer verimizde ikiden fazla kategorik değişken
varsa loglinear (log-doğrusal) modeller
kullanılabilir. Log-doğrusal modeller iki
kategorik değişkenin olduğu veriler için de
kullanılabilir.
Yrd. Doç. Dr. Sedat ŞEN
30





Eğer bağımlı değişkenimiz kategorik bir değişken (örneğin
iki kategorili (1-0)) bir değişken ise çoklu doğrusal
regresyon yerine lojistik regresyon kullanmamız gerekir.
Çoklu regresyon sürekli olan bağımlı değişken için tercih
edilir.
Lojistik regresyonda da 1’den fazla bağımsız değişkeni
modele aynı anda girebiliriz.
Daha çok alınan kararların (evet/hayır, geçti/kaldı) veya
ikiden fazla kategoriye sahip olan bağımlı değişkenlerin
hangi değişkenler tarafından etkilendiğini öğrenmek
istediğimiz durumlarda lojistik regresyonu tercih
edebiliriz.
Kısaca verilen bağımsız değişkenlere göre bir kişinin iki
kategoriden hangisine girme olasılığı olduğunu yordamaya
çalışırız.
Yrd. Doç. Dr. Sedat ŞEN
31


Katılımcıların iki kategoriden birine girip
girmediğini yordamaya çalışıyorsak iki
sonuçlu (binary) lojistik regresyon,
Eğer katılımcıların ikiden fazla kategoriden
birine girip girmediğini yordamaya
çalışıyorsak çok sonuçlu (multinomial) lojistik
regresyon kullanırız.
Yrd. Doç. Dr. Sedat ŞEN
32
Basit regresyonda eşitliği yan tarafta
yazdığımızı hatırlayalım. Birden fazla
bağımsız değişkenin olduğu çoklu
regreyonda yandaki ikinci eşitliği
yazabiliyor ve bu iki durumda da
bağımsız değişkenlerden bağımlı
değişkenin alabileceği değerleri
yordayabiliyorduk.
Bir bağımsız değişkenin olduğu
durumda lojistik regresyonu üçüncü
eşitlikteki gibi yazıyor ve birden fazla
bağımsız değişken değişkenin olduğu
lojistik regresyon eşitliğini de son
eşitlikteki gibi yazabiliyoruz. Lojistik
regresyonun normal regresyondan farkı
burada bağımlı değişkenin yerine
bağımlı değişkenin kategorilerinde olma
olasılığını yorduyor olmamızdır.
Yrd. Doç. Dr. Sedat ŞEN
33

Kategorik bağımlı değişkenlerde lojistik
regresyon uygulayamamızın sebebi normal
regresyon yönteminin bağımlı değişken ile
bağımsız değişken arasındaki doğrusallık
varsayımının ihlal edilmesidir. Bağımlı değişken
kategorik olduğu zaman bağımlı değişken ile
bağımsız değişken arasındaki ilişki doğrusal
olmamaktadır. Bu sorunu aşmak için bağımlı
değişkenin logaritmik dönüşümünün yapılması
gerekir. Normal regresyonun logaritmik bir formu
olduğu için bu regresyon türüne logistic (lojistic)
regresyon demekteyiz.
Yrd. Doç. Dr. Sedat ŞEN
34




Risk oranı lojistik regresyonu yorumlarken çok önemlidir.
Bağımsız değişkendeki bir birimlik değişimden
kaynaklanan olasılık değişimini gösterir.
Normal regresyondaki eğim (b) katsayısına benzer.
Bir olayın risk oranı değeri o olayın gerçekleşme
olasılığının gerçekleşmeme olasılığına bölünmesiyle elde
edilir. Örneğin sigara kullanıp kullanmamanın (0-1) hasta
olup olmamaya (0-1) etkisine baktığımızda risk oranını
kullanarak yorum yapabiliriz. Bu durumda önce sigara
kullananların hasta olma olasılığını sonra da sigara
kullanmayanların hasta olma olasılığını bulup bulunan
değerler arasındaki oransal farka bakabiliriz. Örneğin
sigara kullananların hasta olma olasılığı 0.8
kullanmayanların ki 0.2 ise 0.8/0.2=4. Yani sigara
kullananların hasta olma olasılığı kullanmayanlara göre 4
kat daha fazladır diyebiliriz.
Yrd. Doç. Dr. Sedat ŞEN
35

Normal regresyonda olduğu gibi forced
entry (zorla giriş) yaparak ya da adımsal
(stepwise) metodunu kullanarak lojistik
regresyon modelimize karar verebiliriz.
Yrd. Doç. Dr. Sedat ŞEN
36




Doğrusallık: Normal regresyonda bağımsız ve bağımlı
değişken arası doğrusal bir ilişki varsayılıyordu.
Lojistik regresyonda da bağımsız değişken ile bağımlı
değişkenin logaritmik değeri arasında doğrusal bir
ilişki olduğu varsayılmaktadır.
Hataların bağımsızlığı: Aynı normal regresyonda
olduğu gibi veri değerlerinin birbirinden bağımsız
olmaları dolayısıyla hata değerlerinin bağımsız olması
varsayılır.
Bağımsız değişkenin kategorik olması.
Çoklu bağlantı: Varsayımdan çok problem şeklinde
bahsedebiliriz. Eğer bağımsız değişkenler birbirleriyle
çok yüksek korelasyona sahipse lojistik regresyon
sonuçlarını olumsuz yönde etkiler.
Yrd. Doç. Dr. Sedat ŞEN
37

Lojistik regresyon
analizimizde
yandaki veriyi
kullanacağız. Bu
veride
katılımcıların
tedavi sürecinde
kemoterapi alıp
(1) almadıkları (0)
ve kaç gün tedavi
sürecinde
bulunduklarının
iyileşip iyileşmeye
olan etkisini
inceleyeceğiz.
Yrd. Doç. Dr. Sedat ŞEN
38



Bağımlı değişken: İyileşme
Bağımsız değişkenler: tedavi ve süre
Tedavi değişkeni ve iyileşme değişkenleri
kategorik olduğu için aşağıdaki gibi SPSS’e
kategorik olarak girmemiz gerekmektedir.
Yrd. Doç. Dr. Sedat ŞEN
39
SPSS’te yandaki
menüleri takip
ederek iki
sonuçlu lojistik
regresyon
analizini
yapabilirsiniz.
Yrd. Doç. Dr. Sedat ŞEN
40
Bir önceki
slayttaki
menüleri
seçtiğimiz
de
karşımıza
yandaki
ekran
çıkacaktır.
Yrd. Doç. Dr. Sedat ŞEN
41
Bu ekranda bağımlı ve
bağımsız değişkenleri
eklememiz
gerekmektedir. Ayrıca
bağımsız değişkenlerin
etkileşimini de
(tercihen) eklemeliyiz.
Burada tüm elemanları
(ana etki ve etkileşim)
eklememizin sebebi
SPSS’in bizim için en iyi
modeli seçmesini
sağlamaktır. Alternatif
olarak biz de
istediğimiz elemanları
modele entry (giriş)
yapabiliriz.
Yrd. Doç. Dr. Sedat ŞEN
42
Normal regresyonda kategorik
bağımsız değişkenleri yapay
kodlama yaparak analize
ekliyorduk. Lojistik
regresyonda eğer kategorik
bağımsız değişkenimiz varsa
bu değişkeni SPSS otomatik
olarak yapay kodlayacaktır.
Bunu yapabilmek için önceki
slayttaki ekranın sağ üst
köşesindeki categorical
seçeneğini tıklayıp yandaki
ekranı elde etmemiz
gerekmektedir. Burada
kategorik olan değişkeni sağ
tarafa atıp alt taraftan
indicator seçeneğini
seçmeliyiz. Referans kategoriyi
de last (1) yerine first (0)
seçiyoruz.
Yrd. Doç. Dr. Sedat ŞEN
43
Save menüsüne
tıkladığımızda
aynen normal
regresyonda
olduğu gibi
regresyon
tanılayıcıları ve
artık değerleri elde
etmemiz
mümkündür.
Yrd. Doç. Dr. Sedat ŞEN
44
Options manüsünü
tıkladığımızda yanda
açılan ekran karşımıza
gelecektir. Burada
işimize yarayacak
çeşitli istatistikler elde
etmemiz mümkündür.
Hosmer-Lemeshow
goodnes of fit dğeri
burada önemli değerler
arasında yer alır.
Yrd. Doç. Dr. Sedat ŞEN
45

‘Forward: Wald’ metodu seçerek
yaptığımız analizlerin sonucu ilerleyen
slaytlarda sunulacaktır. Yani SPSS
ekranına girmiş olduğumuz ana etki ve
etkileşim değişkenlerini kullanarak Wald
testine (t-testi yerine kullanılır) göre
anlamlı bulunan elemanların tutulacağı
modele karar vereceğiz. Yani SPSS bizim
yerimize karar verecek:)
Yrd. Doç. Dr. Sedat ŞEN
46
Yan taraftaki
ekranda veriye
ve bağımlı
değişken
kategorilerine
ait betimleyici
bilgiler
sunulmaktadır.
Yrd. Doç. Dr. Sedat ŞEN
47
Yandaki tabloda -2LL değerini
ve sınıflama tablosunu
görebilirsiniz. Bu tabloda
iyileşen hastaların sayısını ve
SPSS’in yordama/sınıflama
(predict) sayılarını görebilirsiniz.
Verimize göre 65 hasta
iyileşmiş ve 48 hasta
iyileşememiş gözükmekte iken
SPSS iyileşemeyen hastaları %0
tahmin ederken iyileşen
hastaların %100’ünü tahmin
etmiştir. Ortalama doğru tahmin
yüzdesi 57.5 çıkmıştır. Etkileşim
değişkenimiz varken bu tabloyu
yorumlamak doğru olmaz. Asıl
analiz sonuçlarına bakacağız
(ilerleyen slaytlarda).
Yrd. Doç. Dr. Sedat ŞEN
48
Yandaki tabloda modelde
sadece sabit değer
olduğundaki sonuçları
göstermektedir. Sabit
değerimiz (0.303) ve
anlamlılığı görülmektedir.
Burada t-testi yerine Wald
testi kullanılmaktadır.
Aşağıdaki tabloda da ki-kare
değerimizin 9.827 çıktığı ve
anlamlı bulunduğu ( p =0.020)
gözlenmektedir. Bu değerin
anlamlı çıkması modele
girilmeyen değişkenlerin
bağımlı değişkeni yordama
gücünü anlamlı bir şekilde
artıracağını söylemektedir.
Yrd. Doç. Dr. Sedat ŞEN
49
Yandaki tabloda sabit değerin yanına
tedavi değişkeninin de eklenerek elde
edildiği modele ait ki-kare değeri
(9.926) ve anlamlılığı verilmektedir.
Bu modele ait -2LL, Cox-Snell R-Kare
ve Nagelkerke R-Kare değerleri
( pseudo R 2 ) verilmektedir. Buradaki
R-Kare değerlerini etki büyüklüğü
değeri olarak kullanabiliriz. Bağımlı
değişkenin içindeki varyasyonun
yüzde 11.3’ünün bağımsız değişken
tarafından açıklandığını
göstermektedir. Daha önceki
modelde -2LL değeri 154 iken bu
modelde 144’e düşmüştür. Bu
değerin küçük olması modelin daha
iyi yordama yaptığı anlamına gelir.
Burada tedavi değişkenini eklememiz
modelimiz geliştirmiştir.
Yrd. Doç. Dr. Sedat ŞEN
50
Hosmer and Lemeshow Testi gözlenen frekans değerleri ile
modelden tahmin edilen frekans değerlerini karşılaştırarak
modelin veriye ne kadar uygun olduğunu göstermek için
kullanılır. Örneklem büyüklüklerinden çok faza etkilendiği
için anlamlı çıkan modeli anlamsız, anlamsız olması gerek
modeli anlamlı çıkarabilmektedir. Bu testin anlamlı
bulunmaması ( p>0.05) modelin veriye iyi uyum gösterdiği
(good fit) anlamına gelir. Burada da mükemmel uyum
olduğu için p değeri hesaplanamamıştır.
Yrd. Doç. Dr. Sedat ŞEN
51
Lojistik regresyon bir durumun olma olasılığı modele göre 0.5’ten büyük ise
olacağını (1); 0.5’tan küçükse olmayacağını (0 olarak) belirtir şekilde
sınıflama yapar. Bu sonuçlar Classification Table’da yer almaktadır.
Yukarıdaki tabloda görüldüğü üzere modelimiz iyileşemeyen hastaların
32’sini doğru sınıflandırırken 16’sını yanlış (iyileşti şeklinde) sınıflandırmıştır.
İyileşebilen hastaların 41’ini doğru sınıflandırırken 24’ünü yanlış
sınıflandırmaktadır. Doğru tahmin etme yüzdesi bu modelde %64.6 çıkmıştır.
Önceki modelde %57.5 idi. Tahmin yüzdesinin büyük olması modelin iyi
çalıştığı anlamına gelir.
Yrd. Doç. Dr. Sedat ŞEN
52
SPSS outputtaki en önemli tablomuz lojistik regresyonumuzun
sonuçlarının verildiği aşağıdaki tablodur. Bu tablodaki katsayılar
normal regresyondaki gibi yorumlanabilmektedir. Bu tabloda
bağımsız değişkenlerin bağımlı değişkeni yordamada ne kadar etkili
olduğu çıkarımı yapılabilir. Görüldüğü üzere sabit değişkenimizin
değeri -2.88 çıkmış ve anlamlı bulunmamıştır. Tedavi
değişkenimizin katsayısı 1.229 çıkmış ve anlamlı bulunmuştur.
Lojistik regresyonda bağımlı değişkenin logaritmik formu
kullanıldığından aşağıdaki katsayıları yorumlayabilmek için risk oranı
(Exp(B)) değerlerini kullanmamız gerekmektedir.
Yrd. Doç. Dr. Sedat ŞEN
53
Bu tablodaki değerlere göre lojistik regresyon eşitliğimizi şu şekilde yazabiliriz:
log(p/1-p) = -0.288 + 1.229*tedavi
Burada tedavi değişkeninin bir birim arttığında iyileşme değişkeninin logaritmik formunun 1.229 arttığı
söylenebilir. Lojistik regresyonda bağımlı değişkenin logaritmik formu kullanıldığı için yorumlamak
zordur. Aşağıdaki katsayıları daha anlaşılır yorumlayabilmek için risk oranı değerlerini hesaplamamız
gerekmektedir. Bu tabloda risk oranını göreceğimiz yer en sağ taraftaki Exp(B) sütununda verilen
değerdir. Sonraki slaytta bu değerin nasıl hesaplandığını ve yorumlandığını görebilirsiniz.
Yrd. Doç. Dr. Sedat ŞEN
54

Risk oranını
hesaplayabilmek için
iyileşme değişkeninin
olasılığını hem tedavi
olanlar hem de tedavi
olamyanlar için
hesaplamamız
gerekmektedir. İlk
olarak X1 değerini 0
olarak alacağız ve
eşitlikte bulunan
katsayıları yerine
koyacağız.
Yrd. Doç. Dr. Sedat ŞEN
55

İlk olarak X1
değerini 1 olarak
alacağız ve
eşitlikte bulunan
katsayıları yerine
koyacağız.
Yrd. Doç. Dr. Sedat ŞEN
56

Buradaki sonucu şu
şekilde
yorumlayabiliriz:
“tedavi gören
hastalar tedavi
görmeyen hastalara
göre 3.41 kat daha
iyileşme olasılığına
sahiptir”. Bu değer
SPSS output
tablosunda Exp
sütununda yer
almaktadır. Yani
elle hesaplamamıza
gerek yoktur.
Yrd. Doç. Dr. Sedat ŞEN
57

Risk oranı değerini
elle hesaplamak
yerine SPSS’te
Analyze>Descripti
ve
Statistics>Crosstab
s kısmından
yandaki ekranı
açarak Statistics
kısmına tıklayarak
elde edebiliriz.
Yrd. Doç. Dr. Sedat ŞEN
58

Yrd. Doç. Dr. Sedat ŞEN
Statistics
ekranında
Risk
kutucuğunu
işaretleyerek
Risk oranı
değerini
elde
edebiliriz.
59

Yan tarafta
SPSS’ten elde
edilen değer
ile daha önce
hesapladığımız
değerin aynı
çıktığı
görülmektedir.
Yrd. Doç. Dr. Sedat ŞEN
60

Yanda resmi gösterilen
LOJİSTİK.sav isimli veri
dosyasını kullanarak bir
öğrencinin üniversiteye kabul
edilip (1) kabul edilmemesi (0)
üzerinde not ortalamasının
(notort), ales puanının (ales) ve
üniversite sıralamasının
(sıralama) etkisini ölçmek
istiyoruz. Gördüğünüz gibi
KABUL isimli bağımlı değişkeni
0 ve 1’lerden oluştuğu için
lojistik regresyon kullanmamız
gerekiyor.
Yrd. Doç. Dr. Sedat ŞEN
61
Yrd. Doç. Dr. Sedat ŞEN
62

Yrd. Doç. Dr. Sedat ŞEN
Bağımlı
değişkeni
Dependent
kısmına
bağımsız
değişkenle
ri de
Coavariates
kısmına
ekledikten
sonra OK
tuşuna
basmanız
yeterlidir.
63

Aşağıdaki tabloda modelde sadece sabit değer olduğundaki sonuçları
göstermektedir. Sabit değerimiz ( -0.765) ve anlamlılığı görülmektedir.
Burada t-testi yerine Wald testi kullanılmaktadır. Aşağıdaki tabloda da
ki-kare değerimizib 40.160 çıktığı ve anlamlı bulunduğu (p<0.05)
gözlenmektedir. Bu değerin anlamlı çıkması modele girilmeyen
değişkenlerin bağımlı değişkeni yordama gücünü anlamlı bir şekilde
artıracağını söylemektedir. Yani modele ek bağımsız değişkenler
eklememiz gerekiyor.
Yrd. Doç. Dr. Sedat ŞEN
64

Sadece sabit değer ekli modele göre yapılan
sınfılama tahmini ve doğru tahmin yüzdesi
(68.2) aşağıda verilmektedir.
Yrd. Doç. Dr. Sedat ŞEN
65

Ki-kare değeri 41.459 çıkmış ve anlamlı
bulunmuştur.
Yrd. Doç. Dr. Sedat ŞEN
66

Bağımsız değişkenler Nagelkerke R-Kare
bağımlı değişkenin %13.8’ini açıklamaktadır.
Yrd. Doç. Dr. Sedat ŞEN
67

H-L Testi anlamlı bulunmadığı (p>0.05) için
bu modelin veriye uygun olduğunu/iyi uyum
sağladığını söyleyebiliriz.
Yrd. Doç. Dr. Sedat ŞEN
68

Doğru tahmin yüzdemiz 71 olarak
bulunmuştur.
Yrd. Doç. Dr. Sedat ŞEN
69

log(p/1-p)= -5.541 + 1.551*x1 + .876*x2 +
.211*x3 + .002*x4 + .804*x5.
Yrd. Doç. Dr. Sedat ŞEN
70


ALES değişkenindeki her 1 birim değişiklik
log KABUL’u .002 artırır.
NOT ORT değişkenindeki her 1 birim artış
üniversiteye kabul edilmenin log odd’u nu
0.804 artırır.
Yrd. Doç. Dr. Sedat ŞEN
71




ALES
NOTORT ve
SIRALAMA (1) değişkenleri 0.05 seviyesinde anlamlı
bulunmuştur (yani 0.05’ten küçük sig. değerlerine
sahiptirler.)
Sıralama değişkeni kategorik bir değişken olduğu için
yorumu diğer değişkenlerden farklıdır. Nitel değişkenler
analizlere girerken kategorilerden bir tanesi referans
olarak seçilir ve diğerleri analize girer. Burada 4. kategori
referans seçildiği için ilk 3 kategoriye ait sonuçları
görüyoruz. Sonuçları yorumlarken de her bir kategoriyi
referans kategori (4) ile karşılaştırıyoruz. Örneğin sıralama
değişkeninin 1. kategorisine ait katsayı değeri 4.718
bulunmuştur. Birinci kategoridenin seçilme olasılığı
referans olan dördüncü kategoriden 4.72 kat daha fazladır
diyebiliriz.
Yrd. Doç. Dr. Sedat ŞEN
72

Burada sıralama(1) değerinin 1,551 olması
4.kategori ile karşılaştırıldığında birinci
kategoridekiler daha fazla kabul edilme
şansına sahiptirler log(KABUL) değerini 1,551
daha çok artırıyorlar.
Yrd. Doç. Dr. Sedat ŞEN
73
Download