Regresyon Analizi

advertisement
İ
Ç
İ
N
D
E
K
İ
L
E
R
BASİT REGRESYON VE KORELASYON ANALİZİ
Kesin (Deterministik) Model
Stokastik (Olasılıklı) Model
Değişkenler arasındaki ilişki
Regresyon Parametrelerinin Tahmininde Kullanılan Metot
EN KÜÇÜK KARELER (EKK) YÖNTEMİ İLE BİR DOĞRUNUN UYUMU
1. Normal Denklemler
2. Determinant Metodu
3.Orijin Kaydırma Yöntemi
REGRESYON DENKLEMİNİN İNCELENMESİ
Tahminlenen Regresyonun Duyarlılığı
Korelasyon Katsayısı
Katsayıların Standart Hataları
Katsayıların Güven Aralıkları
Parametrelerin Teker Teker Anlamlılığı Testi
TAHMİNİN VARYANSI VE GÜVEN ARALIĞININ BULUNMASI
Tahminin standart hatası ve varyansı
Katsayıların standart hata ve varyansları
Katsayıların güven aralıkları
Katsayıların anlamlılıklarını testi
2
R Belirlilik Katsayısı
Korelasyon Katsayısı
Tahminin Güven Aralığı
Regresyon, iki yada daha çok değişken arasındaki ortalama ilişkinin
matematiksel bir fonksiyonla incelenmesidir. Değişkenler arasındaki
ilişkinin derecesi ve yönü ise korelasyon analizi ile açıklanır.
Değişkenler arasındaki ilişkilere bazı örnekler vermek gerekirse;
-İnsanların boyları ile kiloları
-Futbol takımlarının çalışma süreleri ve maç skorları toplamları
-Öğrencilerin çalışma miktarları ve sınav notları
-Bir malın fiyatı ve talep miktarı
-Bir ürünün verimi ve verilen gübre miktarı, vb.
1
Değişkenler arasındaki ilişkiler aşağıdaki gibi sınıflandırılabilir:
i)
Belirleyici (deterministik) ilişkiler
ii) Yarı belirleyici ilişkiler
iii) Deneysel (ampirik, stokastik) ilişkiler
Kesin (Deterministik) Model
Değişkenler arasında kesin bir ilişki olduğunu varsayan modeller,
kesin (deterministik) modeller olarak adlandırılmaktadır.
Örneğin arz miktarı y'nin, fiyat düzeyi x'in tam bir buçuk katı
olduğuna inanıyorsak:
y=1.5x
Bu denklem, x ve y değişkenleri arasındaki kesin bir ilişkiyi temsil
etmektedir. Bu tahminde hata payı yoktur.
2
Stokastik (Olasılıklı) Model
Eğer arz miktarında, önemli fakat ele alınmayan değişkenlerin veya
tesadüfi olguların yol açtığı açıklanmayan değişimlerin olacağına
inanıyorsak, kesin model yerine tesadüfi hataya yer veren
modelden yararlanmamız gerekir. Olasılıklı model hem kesin
öğeyi hem de tesadüfi hata öğesini içerir. Örneğin eğer arz miktarı
y'nin, fiyat düzeyi x ile:
y = 1.5x + Tesadüfi Hata
şeklinde bir ilişkisi olduğunu düşünüyorsak, x ile y arasında olasılıklı
bir ilişki olduğunu anlarız. Görüldüğü gibi, olasılıklı modelin kesin
öğesi
1.5x’tir.
3
Kesin (Deterministik) ve Stokastik (Olasılıklı)
Model...
Bu kez grafikten yararlanalım:
Kesin Model: y=1.5x
Olasılıklı Model: y=1.5x + Tesadüfi hata
4
Yarı belirleyici ve deneysel ilişkilerin (stokastik) incelenmesi
regresyon analizinin kapsamına girmektedir.
Regresyon analizinde değişkenler iki grup altında incelenir:
- Bağımsız değişkenler (açıklayıcı değişkenler)
- Bağımlı değişkenler
Bağımlı değişken:
belirlenirken,
Modelin
ifade
ettiği
olay
tarafından
Bağımsız değişken: Modelin ifade edilen olaydan bağımsız olan
verileridir.
6
Örneğin kişilerin gelirlerinin değişmesi, harcama miktarlarının da
değişmesine neden olur. Bu durumda gelir bağımsız değişken,
harcama miktarı ise bağımlı değişkendir.
Regresyon analizinde genellikle bağımsız değişkenler (X) , bağımlı
değişkenler (Y) ile gösterilirler.
7
Basit doğrusal regresyondaki basit kelimesi iki değişken arasındaki ilişkiyi
açıklamak için kullanılır. Doğrusal kelimesi, kurulan modelin parametreleri
açısından doğrusal bir model olmasındandır.
İki değişken arasındaki en basit ilişki, bir doğru ile açıklanabilen ilişkidir.
Genel olarak bir doğrunun matematik gösterimi:
Y
Y=0+ 1X şeklindedir. Burada 1 ,
X
eğimdir ve X’teki 1 birimlik değişmenin Y’de
yaptığı değişikliği gösterir.
0 ise X’in değeri 0 olduğunda Y’nin almış olduğu değerdir ve Y
ekseninin kesme noktası olarak isimlendirilir.
8
Değişkenler arasındaki ilişki
Doğrusal ilişki
Doğrusal olmayan ilişki
Y   0  1 X
Y   0  1 X 1   2 X 2
Eğrisel İlişki:
Logaritmik İlişki:
Katlı Ortak Doğrusal İlişki:
Gecikmeli (lag) İlişki:
9
Regresyon Parametrelerinin Tahmininde Kullanılan Metot
EKK Metodu
Normal Denklemlerle
Klasik Çözüm Yolu
Determinantlarla
Çözüm Yolu
Orjin kaydırma
Çözüm Yöntemi
10
EN KÜÇÜK KARELER (EKK) YÖNTEMİ İLE BİR DOĞRUNUN
UYUMU
1. NORMAL DENKLEMLER
Gözlemleri en iyi açıklayan doğrunun belirlenmesi için çeşitli yöntemler ileri
sürülebilir. Fakat günümüzde en çok kullanılan yöntem “En Küçük Kareler” adı
verilen yöntemdir. Bu yöntem gözlemlerin belirlenen doğrudan
uzaklıklarının (hata terimlerinin) karelerinin toplamının en küçük
yapılmasına dayanır.
Y   0  1 X  e
e  Y   0  1 X
n
n
i 1
i 1
modelinde hata terimi:
olarak yazılabilir. Bu ifadenin karesi alınıp tüm
gözlemler için toplanırsa:
2
2
e
 i   Y   0  1 X 
ifadesi elde edilir. EKK yöntemine göre bu ifadeyi minimize eden b0
ve b1 değerleri 0 ve 1’in tahmincileri olur.
11
n
n
i 1
i 1
2
2
e
 i   Y   0  1 X 
İfadesini minimize eden parametre tahmincilerinin değerlerini bulabilmek için
eşitliğin 0 ve 1’e göre türevleri alınıp 0’a eşitlenir.
0’a göre türev alınırsa;
2
 n 2
 n
Y   0  1 X 
ei 


 0 i 1
 0 i 1
1’e göre türev alınırsa;
2
 n 2
 n
Y   0  1 X 
ei 


1 i 1
1 i 1
n
 2 X  Y   0  1 X 
n
 2 Y   0  1 X 
i 1
i 1
Her iki denklemi de 0’a eşitlersek;
n
 2 Y  b0  b1 X   0
i 1
n
 Y  b0  b1 X   0
i 1
n
 2. X .Y  b0  b1 X   0
i 1
n
 X .Y  b
i 1
0
 b1 X   0
12
n
 2 Y  b0  b1 X   0
i 1
n
 Y  b0  b1 X   0
i 1
n
 2. X .Y  b0  b1 X   0
i 1
n
 X .Y  b
i 1
0
 b1 X   0
Parantezleri açarsak;
 Y  n.b0  b1  X  0
 XY  b0  X  b1  X 2  0
Bu denklemlere doğrunun NORMAL DENKLEMLERİ denir.
Normal denklemler alt alta yazılıp birlikte çözüldüklerinde b0 ve b1
tahmincileri bulunur.
( X ).(  Y )
 XY 
n
 Y  n.b0  b1  X
b1 
2
(

X
)
2
2

X

 XY  b0  X  b1  X
n
b0  Y  b1 X
şeklindeki formüller yardımıyla da tahminciler bulunabilir.
13
2.DETERMİNANT METODU
 Y  nb  b  X
 X Y  b  X b  X
i
0
i i
1
0
i
i
Y  X
X Y X
n
X
X X
i
bˆo 
i
2
i
i i
i
Y  bˆ0  bˆ1 X
n
bˆ1 
1
X
i
2
i
Y
X Y
X
X
YX


n X
i
i
i
i i
n
X
i
i
2
i

Normal Eşitlikler
2
i 


2
i
2
i
  X i  X iYi
 ( X i ) 2
n X iYi   X i  Yi
n X i 2  ( X i ) 2
14
3.ORJİN KAYDIRMA YÖNTEMİ
Orijini
Y  b0  b1 X
y  b1 x
Olarak gösterirsek
Olur.
Burada hata karelerini minimum yapmak
için aşağıdaki yol izlenir.
S   ( y  b1 x) 2
dS
 2 x( y  bˆ1 x)  0
db1
xy  bˆ
x2  0

bˆ1 
1

 xy
x
2
da
modele tekrar b0’ ı ekleyebiliriz.
Y  Y0  b1 ( X  X )
x X X
kaydırmasak
da
doğrunun eğimi değişmeyeceğinden istersek
Y  b0  b1 X
y  Y Y
kaydırsak
b0  Y  b1 X
x  0
olacağından
x X X
b0
alınarak
x

Y b
1
b̂0  Y
n
veya
yerine konulursa
bˆ0 
Y
n
Bulunur.
Y  bˆ0  bˆ1 x
15
Bir fabrikada taşıma işleri için kullanılan tırların yaşı ile bakım harcamaları
arasındaki ilişkiyi ele alalım. Verilerin grafiği çizildiğinde tam olarak düz bir
doğrunun üzerinde olmadıkları, fakat tırlar eskidikçe bakım harcamalarının da
arttığı görülmektedir. Burada bağımsız değişken yaş, bağımlı değişken ise
bakım harcamalarıdır, çünkü yaş değiştikçe bakım harcamaları değişiklik
göstermektedir. Pratiklik olması açısından yaş ve bakım harcaması arasındaki
ilişkinin bir doğru şeklinde olduğunu varsayarsak, bu modelin matematik
gösterimi:
Bakım
harcaması
2.0
4.5
4.5
4.0
5.0
5.5
5.0
0.5
6.0
1.0
1.0
3.0
2500
9200
4950
4400
7900
10500
9700
1950
8000
2025
3700
6800
Hata terimi
yaş
bakım
harcaması
yaş-bakım harcam ası grafiği
bakım harcam ası
yaş (yıl)
Y   0  1 X  e
12000
11000
10000
9000
8000
7000
6000
5000
4000
3000
2000
1000
0
0.0
1.0
2.0
3.0
4.0
yaş
5.0
6.0
7.0
16
bakım harcam ası
yaş-bakım harcam ası grafiği
12000
11000
10000
9000
8000
7000
6000
5000
4000
3000
2000
1000
0
0.0
e hata terimi, tır için yapılan
harcamanın, ilişkiyi açıklayan
doğrudan ne kadar saptığını
gösterir.
1.0
2.0
3.0
4.0
5.0
6.0
7.0
yaş
Tırların yaşı ile yapılan bakım harcamaları arasındaki gerçek ilişkiyi
belirleyen model henüz belirlenmiş değildir. Bunun için modelde bulunan
parametrelerin (0 ve 1) bilinmesi gerekir.
0 ve 1 birer parametre olduklarından, gerçek değerlerinin bulunması için
taşıma işinde kullanılan tüm tırların (populasyonun) bakım harcamaları ve
yaşlarının bilinmesi gerekmektedir. Bu da çoğu zaman imkansız olduğundan
elimizdeki örneği kullanarak parametreleri tahminleriz veya başka bir ifade
şekliyle grafikteki noktalara en iyi uyan bir doğruyu buluruz.
17
Böylece veri noktalarımızdan geçen en iyi doğru denklemi:
Yˆ  b0  b1 X
Gerçek Y’nin tahmincisi
Traktör örneğimiz için gereken hesaplamaları yapıp normal denklemleri
oluşturalım:
 Y  n.b  b  X
0
yaş (yıl)
(X)
bakım
harcaması
(Y)
X2
Y2
XY
2.0
2500
4
6250000
5000
4.5
9200
20.25
84640000
41400
4.5
4950
20.25
24502500
22275
4.0
5500
16
30250000
22000
5.0
7900
25
62410000
39500
5.5
10500
30.25
110250000
57750
5.0
9700
25
94090000
48500
0.5
1950
0.25
3802500
975
6.0
8000
36
64000000
48000
1.0
2025
1
4100625
2025
1.0
3700
1
13690000
3700
3.0
6800
9
46240000
20400
toplam
42.0
72725.0
188.0
544225625.0
311525.0
ortalama
3.5
6060.4
1
 XY  b0  X  b1  X 2
72725 = 12b0+42b1
311525= 42b0 +188b1
3.5*(72725 = 12b0+42b1)
311525= 42b0 +188b1
254537.5 =42b0 +147b1
- 311525 = 42b + 188b
0
1
-56988 = -41b1
b1=1390
18
72725 =12b0 +42b1
72725 =12b0 +42*1390
b0 = 1195
Tahmincileri elde etmek için normal
denklemler yerine formüller kullanılırsa da
aynı sonuçlar elde edilir.
Doğrunun denklemi:
Yˆ  1195  1390 X
Hesaplanan bu denklem kullanılarak yaşını bildiğimiz bir tır için
yapılacak ortalama bakım masrafını tahmin edebiliriz. Örneğin x=4
yaşındaki bir tır için bakım masrafları:
Yˆ  1195  1390 X
Yˆ  1195  (1390)( 4)  6755
olarak bulunur.
19
Örnek: Firmanın 1993-1999 yılları arasındaki yıllık satışları aşağıda verildiği gibidir. Bu
verilere dayanarak regresyon (yalın regresyon)
denkleminin tahminlenmesi
istenmektedir. (Satışlar 1000 br olarak)
Yıllar
Satışlar (Y)
X
XY
X2
1993
15
1
15
1
1994
18
2
36
4
 Y  nb  b  X
 X Y  b  X b  X
i
0
i i
1
0
i
i
1
2
i
1995
25
3
75
9
1996
30
4
120
16
1997
40
5
200
25
1998
60
6
360
36
1999
82
7
574
49
1380  28b0  140b1

270
28
1380
140
300  28b1  b1  300 / 28  10.7
270  7b0  28b1
1380  28b0  140b
1
1080  28b0  112b1
Paremetrelerin E.K.K.tahminlerini elde etmek için
 X Y
(28)(270)
n
7
b1 

 10.7
2
2
(
X
)
(28)

140 
X2  n
7
270
28
b0  Y  b1 X 
 (10.7)
 4.2
7
7
 XY 
1380 
Y = - 4.2 +10.7 x şeklinde
regresyon denklemi elde
edilir.
20
Determinant metodu ile parametre tahminlerinin hesaplaması ise ;
Y  X   X  XY 270(140)  28(1380)
30




7
n X  ( X )
7(140)  (28)
2
b0
2
b1 
2
n XY   X  Y
n X 2  ( X ) 2
2

7(1380)  28(270) 75

2
7
7(140)  (28)
orjin kaydırma ile parametre tahmini ise;
Yıllar
1993
1994
1995
1996
1997
1998
1999
Toplam
Y
15
18
25
30
40
60
82
270
y
-23.5
-20.5
-13.5
-8.5
1.5
21.5
43.5
Y 
X
1
2
3
4
5
6
7
x
-3
-2
-1
0
1
2
3
b1
xy
70.5
41
13.5
0
1.5
43
130.5
300
x2
9
4
1
0
1
4
9
28
b0
 xy

x
30 75

X
7
7
b0
2
Y


n
Y 270

Y 

 38.5
b1 
Y = 38.5 + 10.7 x
n
7
 xY  300  75  10.7
 x 28 7
2
21
Y
Y
Y=-4.2+10.7X
Y=38,5+10,7x

38.5
3
0
0
- 4.2
X
x
tg = b 1 =10.7
Y 
30 75

x
7
7
Modeli için
Y=38.5+10.7x modeli de yapılacak aynı tahminler de aynı
sonucu verecektir.
a) 2001 yılı satışları ne olacaktır?
Y2001=-4.2+10.7(9)=92.1
a) 2001 yılı satışları ne olacaktır?
Y=38.5+10.7(5)=92 br.
b) Hangi yıl 100 birim satar?
100 = -4.2 + 10.7 x
x = 9.7
b) Hangi yıl 100 birim satar?
100=38.5+10.7 x
x=5.7 (2001 yılı 8. ayın ortaları)
2001 yılı 8. ayın ortalarında
22
REGRESYON DENKLEMİNİN İNCELENMESİ
Regresyon denklemini incelerken genellikle bizi en çok ilgilendiren
soru incelediğimiz iki değişken arasında gerçekten bir ilişki olup
olmadığı sorusudur. Bu soru aslında basit doğrusal regresyonda 1’in
değerinin 0 olup olmadığının araştırılmasıdır. Bu araştırmayı yaparken
istatistiksel testle kullanmak gerektiğinden hata terimi ve parametre
tahmincilerinin dağılışları hakkında bazı varsayımlarda bulunmak
gerekir.
Hata terimi e’ler, ortalaması 0 ve varyansı s2 olan birbirinden bağımsız
normal dağılışlar gösterirler.
E(e)=0
Var(e)= s2
- Tahminin Standart Hatası ve Varyansı
Tahminin standart hatası s, noktaların regresyon doğrusu etrafındaki
dağılımlarının ortalama bir ölçüsünü verir.
2
2
e
e


23
s
s2 
nk
nk
Tahminlenen Regresyonun Duyarlılığı
Regresyon denklemi tahminlendikten sonra bu denklemin ilişkiyi ne
derece açıkladığı ve bu denklem kullanılarak yapılacak tahminlerin ne
derece hassas olacağının araştırılması gerekir. Bunun için gözlenen
değerler ile tahmini değerleri arasındaki farkı yazıp y’lerin ortalamasını
buna ekleyip çıkarırsak aşağıdaki ifadeyi elde ederiz. Bu ifadenin
grafiksel karşılığı şekilde görülmektedir.


(Y  Y)  (Y  Y)  (Y Y)
e
Gözlem değeri (Y)
(Y  Yˆ )
(Y  Y )
(Yˆ  Y )
Regresyon doğrusu
Yˆ  b0  b1 X
Y ortalama
doğrusu
Yi tahmin değeri
24


(Y  Y)  (Y  Y)  (Y Y)
Daha sonra her iki tarafın kareleri alınıp tüm gözlemler için toplanırsa;


 (Y  Y )   (Y  Y )   (Y  Y )
2
2
2
İfade tekrar düzenlenirse:


 (Y  Y )   (Y  Y )   (Y  Y )
2
Ortalama etrafındaki
kareler toplamı
(genel KT)
Gözlem
değeri (Y)
(Y  Y )
(Y  Yˆ )
(Yˆ  Y )
Yi tahmin değeri
2
Regresyon kareler
toplamı
2
Regresyondan
sapmalar (hata)
kareler toplamı
Regresyon doğrusu
Yˆ  b0  b1 X
Y
ortalama
doğrusu
25
Eğer gözlenen değerlerin hepsi tahmin edilen doğru üzerinde olsaydı, hata
kareler toplamı “0” olacak ve uyumun çok iyi olduğu söylenebilecektir. Bu
bilgiyi kullanarak, regresyon doğrusunun ne derece iyi tahminlenmiş olduğunu
regresyon kareler toplamının ortalama etrafındaki kareler toplamına oranına
bakarak söyleyebiliriz. Bu orana BELİRLEME KATSAYISI adı verilir ve R2 ile
gösterilir.

2
regresyon
kareler
to
plamı

(
Y

Y
)
R2 

genel kareler toplamı
( Y  Y ) 2
R2’nin 1’e yaklaşan değerleri bize uyumun iyi olduğunu belirtir. (0<R2<1)
Şekilden de görüldüğü gibi,
Gözlem
regresyon kareler toplamının
değeri (Y)
(Y  Yˆ ) Regresyon doğrusu büyümesi, gözlem değerinin
Yˆ  b0  b1 X
(Y  Y )
tahminlenmiş regresyon doğrusuna
(Yˆ  Y )
yaklaşması anlamına gelmektedir ve
Y
bu da belirleme katsayısını arttırır.
ortalama
Yi tahmin değeri
doğrusu
26
Hesaplama kolaylığı açısından kareler toplamları formülleri aşağıdaki
şekilde de kullanılabilir:
Genel kareler toplamı (GKT)
( Y  Y ) 2   Y 2  (  Y ) 2 / n


Regresyon kareler toplamı (RKT)
(Y  Y) 2  b12  X 2  ( X) 2 / n


Hata kareler toplamı (HKT)
(Y  Y) 2  ilk ikisinin farkı
27
Korelasyon Katsayısı
Korelasyon katsayısı, regresyon modeli ile bulunan tahmini Y
değerlerinin, gerçek değerlere uygunluğunu ölçmede kullanılır.
Korelasyon katsayısı -1 ile 1 arasında değişir.
Katsayının -1 çıkması, iki değişken arasında ters yönlü tam bir
ilişkinin olduğunu, 1 çıkması ise doğru yönlü tam bir ilişkinin
olduğunu ifade eder.
Katsayının -1’e doğru yaklaşması, değişkenler arasında ters yönlü
kuvvetli bir ilişkiyi gösterirken, 1’e yaklaşması değişkenler arasında
doğru yönlü kuvvetli bir ilişkiyi ifade eder.
Korelasyon katsayısının işareti, regresyon doğru veya eğrisine ait
eğim katsayısının işaretidir.
Korelasyon
katsayısının
karesi,
(determinasyon katsayısını) verir.
belirleme
katsayısını 28
Sınırlı sayıda veri üzerinden hesaplanan korelasyon katsayısı bir
istatistiktir ve r ile gösterilir. Bu istatistiğin anakütle parametresi
olarak karşılığı  ’dur.
Korelasyon katsayısı için genel formül; r  
ya da
 xy
( x )(  y
r
2
2
2
ˆ
(
Y

Y
)

2
(
Y

Y
)

)
Bu formülde;
 xy   XY 
 y  Y
2
2

( X )(  Y )
n
2
2
x

X
  
( X ) 2
n
( Y ) 2
n
29
Bütün bu değerler n katsayısı ile çarpılırsa sonuç değişmez ve
korelasyon katsayısı;
r
n XY  ( X )( Y )
n X
2

 ( X ) 2 n Y 2  ( Y ) 2

Hesaplanan korelasyon katsayısının gerçekten önemli olup olmadığını
anlamak için belirli bir önem seviyesinde test etmek gerekir. Doğrusal
korelasyon katsayısının önemli olup olmadığını test ederken test
hipotezleri,
H0 :   0
H1 :   0
30
v=n-2 sd. ve  2 değerlerine göre t kritik değerleri tespit edilir.
Test istatistiği;
r
th 
sr
sr korelasyon katsayısının standart hatasıdır.
1 r 2
sr 
n2
31
Test istatistiği, mutlak olarak kritik değerden büyük çıktığında X
ile Y değişkenleri arasında önemli bir ilişki olduğunu
söyleyebiliriz. Bununla birlikte bu değişkenlerin arasında mantıki
bir ilişkinin bulunması şarttır. Bazen hiç alakası olmayan
değişkenler arasında da yüksek bir korelasyon çıkabilmektedir. Bu
tip korelasyonlara sahte korelasyon denir.
ÖRNEK
Bir süper market yöneticisi tesadüfi olarak seçilen bir saatlik
sürelerde kasaya gelen müşteri sayısını ve ödedikleri toplam para
miktarını aşağıdaki gibi kaydetmiştir.
Müşteri Sayısı
Ödenen Para
(10000 TL)
25
12.5
20
10.4
50
25.3
35
20.2
40
24.1
32
Müşteri sayısını bağımsız (X), kasalara ödenen para miktarını
bağımlı değişken(Y) olarak kabul ederek, doğrusal korelasyon
katsayısı;
r
n XY  ( X )( Y )
n X
2

 ( X ) 2 n Y 2  ( Y ) 2

formülü ile kolayca hesaplanabilir.
Toplam
X
Y
XY
X2
Y2
25
12.5
312.5
625
156.2
20
10.4
208
400
108.1
50
25.3
1265
2500
640.09
35
20.2
707
1225
408.04
40
24.1
964
1600
580.81
170
92.5
3456.5 6350
1893.3
33
r
5(3456.5)  170(92.5)
56350  170 5(1893.3)  (92.5) 
2
2
 0.9669
Korelasyon katsayısının önemli olup olmadığı %5 önem düzeyinde
test edilirse, test hipotezleri
H0 :   0
H1 :   0
şeklinde kurulur.
v=n-2=5-2=3 sd. ve  2  0.05 2  0.025 önem seviyesine göre
kritik değerler  3.182‘dir.
34
th 
r
1 r 2
n2

0.9669
1  (0.9669) 2
52
 6.5635
Test istatistiği, kritik t değerinden büyük olduğu için %5 önem
seviyesinde H0 hipotezi reddedilerek hesaplanan doğrusal
korelasyon katsayısının önemli olduğuna karar verilir.
35
Katsayıların Standart Hataları
2
s
 X 2  ( X ) 2 / n
E(b0)=0
Var (b0 ) 
E(b1)=1
s2  X 2
Var (b1 ) 
n  X 2  ( X ) 2 / n

s(bˆ0 )  s.

s(bˆ1 ) 
2
X

n x 2
s
2
x

Katsayıların Güven Aralıkları
bˆ0  ttabs(bˆ0 )
bˆ1  ttabs(bˆ1 )
36
Parametrelerin teker teker anlamlılığı testi:
Sabit terim 0’ın testi için hipotezler:
H0 :0=0
H1 :00
ˆ b
b
test istatistiği: t  0 0
Var (b0 )
Eğim katsayısı 1‘in testi için hipotezler:
H0 :1=0
H1 :10
test istatistiği: t 
bˆ1  b1
Var (b1 )
t istatistiği değerleri genelde paket programlar tarafından hesaplanıp
verilmektedir. Hesaplanan test istatistikleri (n-2) serbestlik dereceli t
dağılışı değeri ile kontrol edilir.
37
Regresyon doğrusunun tüm parametrelerinin istatistiksel açıdan anlamlı
olup olmadığını test etmek için önce Varyans Analizi Tablosu aşağıdaki
şekilde oluşturulur:
Varyasyon
kaynağı
Regresyon
Hata
Genel
(toplam)
Serbestlik Kareler toplamı
derecesi
1
RKT
n-2
HKT=GKT-RKT
n-1
GKT
Kareler ortalaması
RKO=RKT/1
HKO=HKT/(n-2)
Daha sonra sabit terim dışındaki parametrelerin 0’dan farklı olup
olmadığı hipotezi test edilir.
H0 : 1=0
H1 : 10
Test İstatistiği: F  Regresyon Kareler Ortalamas ı
Hata Kareler Ortalamas ı
Serbestlik derecesi: 1, (n-2)
38
TAHMİNİN VARYANSI VE GÜVEN ARALIĞININ BULUNMASI
Regresyon denkleminin elde edilmesinin en önemli amaçlarından
biri bağımsız değişkenin herhangi bir değeri için Y’nin alacağı
değerin tahminlenmesidir.
Yˆk  b0  b1 X k şeklinde hesaplanan bu tahminin, varyansı ve o
noktadaki gerçek değer için güven aralıklarının bulunması istenir. Bu
tahminin varyansı:
Hatanın varyansı
1
 2
(Xk  X )
s  
.s
2
2
 n  X  ( X ) / n 
2
2
yˆ k
1 ( X k  X )2
yada s yˆ k  s 1  
2
n
x

Xk noktasında Y’nin alacağı ortalama değer için güven % (1- )’lık
güven aralığı:
Yˆk  t / 2,n2.s yˆ k
39
Örnek:1996-2005 yıllarındaki Türkiye’nin turizm gelirleri ile
Türkiye’ye gelen turist sayısı tabloda verilmiştir.
Yıllar
Turizm
Gelirleri
Yabancı Ziyaretçi
Sayısı
1996
5.650
8.614
1997
7.008
9.689
1998
7.177
9.752
1999
5.193
7.464
2000
7.636
10.412
2001
8.090
11.569
2002
8.481
13.247
2003
9.677
14.030
2004
12.125
17.517
2005
13.929
21.122
40
Turizm Gelirleri ile Yabancı Ziyaretçi Sayısı verileri
arasındaki dağılma diyagram
Turizm Gelirleri
16
14
12
10
8
6
4
2
0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
Yabancı Ziyaretçi Sayısı
41
Doğrusal gelir fonksiyonunun normal denklemler yoluyla tahmini:
Tablo 2: Verilerin normal denklemler ile çözüm için düzenlenmesi
Y
X
YX
X2
5.650
8.614
48.6691
74.201
7.008
9.689
67.9005
93.8767
7.177
9.752
69.9901
95.1015
5.193
7.464
38.7605
55.7113
7.636
10.412
79.5060
108.4097
8.090
11.569
93.5932
133.8418
8.481
13.247
112.3478
175.4830
9.677
14.030
135.7683
196.8409
12.125
17.517
212.3936
306.8452
13.929
21.122
294.2083
446.1388
Y=84.966
X=123.416 YX=1153.138 X2=1686.4501
42
Doğrusal gelir fonksiyonunun normal denklemler yoluyla tahmini:
Y = b0.n + b1.X
YX = b0.X + b1. X2
84.96 = b0.10 + b1. 123.4
1153.13= b0.123.4 + b1. 1686.4
b0=0.597
b1=0.640
Yˆ  0.597  0.640 X
Yabancı ziyaretçi sayısı arttıkça turizm geliri artmaktadır.
43
Doğrusal gelir fonksiyonunun formülden tahmini:
bˆ0 
2
X
  Y   X  YX
n X   X 
2
2
(1686.45) * (84.966)  (123.416) * (1153.138)

 0.597
2
10 * (1686.45)  (123.416)
(
bˆ1 
n YX   X  Y
n X   X 
2
2
10 * (1153.138)  (123.416) * (84.966)

 0.640
2
10 * (1686.45)  (123.416)
44
Doğrusal gelir fonksiyonunun ortalamadan farklara göre tahmini
2
xX X
yx
x
-2.8466
-3.7276
10.6109
13.8950
8.1031
-1.4886
-2.6526
3.9486
7.0362
2.2159
-1.3196
-2.5896
3.4172
6.7060
1.7413
-3.3036
-4.8776
16.1136
23.7909
10.9137
-0.8606
-1.9296
1.6606
3.7233
0.7406
-0.4066
-0.7726
0.3141
0.5969
0.1653
-0.0156
0.9054
-0.0141
0.8197
0.0002
1.1804
1.6884
1.9929
2.8506
1.3933
3.6284
5.1754
18.7784
26.7847
13.1652
5.4324
8.7804
47.6986
77.0954
29.5109
y=0.0000
x=0.0000
yx=104.5212
x2=163.2991
y2=67.9499
y  Y Y
y2
45
b1
yx 104.5212



 0.640
 x 163.2991
2
b0  Y  b1 X  8.4966  (0.640) *12.3416  0.590
46
Tahminin standart hatası ve varyansı:
s
e
2
nk
s 
2
2
e

nk
e  Y  Yˆ
Y
Y2
Yˆ  0.597  0.640 X
5.65
31.92
0.597 + 0.640(8.614) = 6.1099
-0.460
0.2115
7.008
49.11
0.597 + 0.640(9.689) = 6.7979
0.210
0.0441
7.177
51.51
0.597 + 0.640(9.752) = 6.8382
0.339
0.1147
5.193
26.96
0.597 + 0.640(7.464) = 5.3739
-0.181
0.0327
7.636
58.31
0.597 + 0.640(10.412) = 7.2606
0.375
0.1408
8.09
65.45
0.597 + 0.640(11.569) = 8.0011
0.089
0.0078
8.481
71.93
0.597 + 0.640(13.247) = 9.0750
-0.594
0.3529
9.677
93.65
0.597 + 0.640(14.030) = 9.5762
0.101
0.0101
12.125
147.02
0.597 + 0.640(17.517) = 11.8078
0.317
0.1005
13.929
194.02
0.597 + 0.640(21.122) = 14.1150
-0.186
0.0346
 Y2 =789.8721
Yˆ  84.966
0.010
 e2 = 1.0501
e2
47
2
e

1.0501

 0.362
nk
10  2
s
s 2  (0.362) 2  0.131
Katsayıların standart hata ve varyansları:
2
X

s(bˆ0 )  s.
1686.45
 0.362 *
 0.367
2
n x
10 *163.299
s(bˆ1 ) 
s
0.362

 0.028
2
163.299
x
Var(bˆ0 )  (0.367)2  0.134
Var (bˆ1 )  (0.028) 2  0.00078
Yˆ  0.597  0.640 X
s (bi ) (0.367) (0.028)
t (1.626) (22.85)
48
Katsayıların güven aralıkları
bˆ1  ttabs(bˆ1 )
bˆ0  ttabs(bˆ0 )
0.597 2.306. (0.367)
0.640  2.306 . (0.028)
0.640  0.0645
0.597  0.8463
-0.2493  b0  1.4433
0.5755  b1  0.7045
Katsayıların anlamlılıklarını testi
H0 : b0= 0
H1 : b0 0
t0.05/2, 8 = 2.306
thes =1.626 < t0.05/2 , 8= 2.306
thes
bˆ0  b0 0.597  0
H0 Reddedilemez.


 1.626
ˆ
0.367
s(b0 )
b0 istatistiki olarak anlamsız
49
H0 : b1= 0
H1 : b1 0
thes
t0.05/2
,8
= 2.306
bˆ1  b1 0.640  0


 22.85
0.028
s(bˆ1 )
thes =22.85 > t0.05/2 , 8= 2.306
H0 Red
b1istatistiki olarak anlamlı
50
Yˆ  0.597  0.640 X
s (bi ) (0.367) (0.028)
t (1.626) (2.306)
Genel kareler toplamı (GKT)
( Y  Y ) 2   Y 2  (  Y ) 2 / n


Regresyon kareler toplamı (RKT) ( Y  Y) 2  b12  X 2  ( X) 2 / n
Hata kareler toplamı (HKT)
X2=1686.4501


(Y  Y) 2  ilk ikisinin farkı
X=123.416
Y=84.966
 Y2 =789.8721
2
2


(
X
)


(
123
.
416
)

2
2
2
ˆ
RKT  b1  X  (
  (0.640) 1686.4501 
  66.8873
n 
10



GKT  (Y  Y ) 2   Y 2  ( Y ) 2 / n  789.8721  7219.229 10  67.9499
51
Turizm örneği için varyans analizi tablosunu oluşturup regresyonun
anlamlılığını test edersek:
H0 : 1=0
H1 : 10
Regresyon
Hata
Genel
sd
1
8
9
KT
66.8873
1.0501
67.9499
KO
66.8873
0.1312
2


(
123
.
416
)
2
RKT  (0.640) 1686.4501 
  66.8873
10


2
HKT   e  1.0501
GKT  (Y  Y ) 2   Y 2  ( Y ) 2 / n  789.8721  7219.229 10  67.9499
F
66.8873
 509.81
0.1312
F0.05,1,8 = 5.32
Fhesap> Ftablo ; H0 reddedilir, katsayı istatistiksel olarak anlamlıdır.
52
R2 Belirlilik Katsayısı:

2
regresyon
kareler
to
plamı

(
Y

Y
)
66.8873
2
R 


 0.9844
2
genel kareler to plamı
67.9499
(Y  Y )
YORUM: Bu sonuç bize, turizm gelirlerindeki değişkenliğin
(varyasyonun) %98.44’ünün gelen ziyaretçi sayısı ile
açıklanabildiğini göstermektedir.
Korelasyon Katsayısı
r  0.98.44  0.9922
Turizm geliri ile gelen ziyaretçi
değişkenleri arasında pozitif yönde
kuvvetli bir ilişki vardır.
53
Tahminin Güven Aralığı
1 (Xk  X )
ˆ
Yk  ttab .s 1  
2
n
x
Xk = 8.614
Yˆk  6.1099
2
(İlk gözlem)
1 (8.614  12.3416) 2
6.1099  2.306 (0.362) . 1  
10
163.2991
5.20124  YkXk  7.0185
  0.05
 2  0.025
n  2  8 sd.
ttab  2.306
54
ÖRNEK
İstatistik dersi sınavına çalışmak için 5 öğrencinin etkin olarak
harcadıkları süreler ve sınav sonuçları aşağıda verilmiştir. Bu veriler
ışığında çalışılan süre ile sınav notu arasındaki ilişkiyi çiziniz,
denklemini tahmin ediniz. Belirleme katsayısını hesaplayarak
yorumlayınız. Daha sonra varyans analizi tablosunu hazırlayarak
belirlediğiniz doğrunun eğiminin 0 olup olmadığını kontrol ediniz.
Aynı hipotezi t testi ile tekrar kontrol ediniz ve bulgularınızı
karşılaştırınız.
Süre (X)
5
3
1
6
10
Toplam
25
Ortalama 5
Not (Y)
4.1
3.5
2
4.5
4.9
19
3.8
X2
25
9
1
36
100
171
XY
20.5
10.5
2
27
49
109
Y2
16.81
12.25
4
20.25
24.01
77.32
55
 Y  n.b0  b1  X  0
 XY  b0  X  b1  X 2  0
6
5
not
4
3
19 - 5. b0 - 25b1 = 0
2
1
109-25b0 - 171b1 =0
0
5*(19 - 5b0 - 25b1 = 0)
0
1
2
3
4
5
6
7
8
9 10 11
süre
109 - 25b0 - 171b1 =0
95 - 25b0 - 125b1 = 0
19 - 5. b0 - 25b1 = 0
- 109 - 25b - 171b =0
0
19-5b0 -25*0.3=0
-14 + 46b1=0
b0 = 2.3
b1 = 0.3
1
Formülle hesaplarsak:
b1 
( X ).(  Y )
25 *19
109 
n
5  14  0.3

625
( X ) 2
46
2
171

X 
5
n
 XY 
b0  Y  b1 X  3.8  0.3 * 5  2.3
56
Böylece doğrunun denklemi:
Yˆ  b0  b1 X  2.3  0.3 X
(Y  Y ) 2   Y 2  ( Y ) 2 / n  77.32  19 2 / 5  5.12
(Yˆ  Y ) 2  b12  X 2  ( X ) 2 / n  0.32 171  252 / 5  4.14




2
ˆ
regresyon
kareler
to
plamı

(
Y

Y
)
4.14
2
R 


 0.81
2
genel kareler to plamı
5.12
(Y  Y )
YORUM: Bu sonuç bize, sınavdan alınan notların değişkenliğinin
(varyasyonunun) %81’inin çalışılan saatler arasındaki farklılıklar ile
açıklanabildiğini göstermektedir.
57
Download