p - SABİS

advertisement
BİYOİSTATİSTİK
HİPOTEZ TESTLERİ
Doç. Dr. Mahmut AKBOLAT
*Bir ana kütlenin herhangi bir özelliği hakkında karar vermek için
ana kütledeki bütün elemanların ölçüme tabi tutulması en iyi yoldur.
*Ana kütlenin tamamım incelemek bazen mümkün olmadığı gibi veri
sayısı arttıkça işgücü, zaman ve maliyet de artmaktadır. Bu durumda
ana kütleden örnekleme metotlarına göre ana kütleyi temsil
edebilecek bir örneklem alınır.
*Bu örneklem, uygun bir istatistiksel test ile analiz edilerek bir
sonuca ulaşılır ve bu sonuca göre, ana kütlenin herhangi bir özelliği
hakkında karar verilir. Dolayısıyla, ana kütlenin herhangi bir özelliği
hakkında karar vermek için, örneklemden elde edilen bilgiden
faydalanılır.
M. AKBOLAT-SAU İşletme Fakültesi- Biyoistatistik
*Örneğin; yeni geliştirilen bir ilacın hastalığın tedavisinde etkin olup
olmadığı, hizmet sürecinde yapılan bir değişikliğin hizmet kalitesini
yükseltip yükseltmediği, cihazların kalibrasyonunda yapılan bir
değişikliğin varyansı değiştirip değiştirmediği veya geliştirilen bir
öğretim sisteminin eskisine göre bir farklılık gösterip göstermediği
gibi konularda karar verilmesi gibi.
*Bu tür kararların verilebilmesi için istatistik karar verme tekniği
olarak hipotez testlerinden faydalanılır.
M. AKBOLAT-SAU İşletme Fakültesi- Biyoistatistik
*Elbette ki hizmet üretim prosesinde yapılan bir değişiklikten sonra
elde edilen ölçüm sonuçları ile önceki ölçüm sonuçları arasında
farklılıklar çıkacaktır.
*Bu farklılık iki sebepten kaynaklanmış olabilir. Birincisi rassal
sebeplerden kaynaklanan farklılıklar, ikincisi ise yapılan
ayarlamadan kaynaklanan farklılıklardır.
*Üretim prosesinde yapılan değişikliğin kaliteyi yükselttiğine karar
verebilmek için bu farkın rassal sebeplerden ileri gelmeyecek kadar
önemli bir fark olması gerekir.
*Bu farkın belirlenebilmesi için bazı istatistik testlerden faydalanılır.
İşte bu testlere hipotez testleri adı verilir.
M. AKBOLAT-SAU İşletme Fakültesi- Biyoistatistik
*Genel anlamda hipotez ana kütle hakkında ileri sürülen, doğru veya
yanlış olması mümkün olan, iddialardır.
*İstatistik hipotez testleri ise belli bir kütle parametresinin (µ,  vs.)
değeri hakkında ileri sürülen ve geçerliliği istatistik testlerle ortaya
konabilen varsayımlardır.
*Mesela şeker hastalarının ortalama ömrünün 67 yıl olduğu
şeklindeki varsayım bir hipotezdir. Bu hipotezin doğru ya da yanlış
olması mümkündür.
*Bunun doğruluğunu test etmek için kullanılabilecek en basit
yaklaşım ana kütle için tam sayım yapmaktır. Yani bütün hastaların
hangi yaşta öldüğünün belirlenmesidir.
M. AKBOLAT-SAU İşletme Fakültesi- Biyoistatistik
*Tüm hastaların tek tek kayırlardan çıkarılıp incelenmesi genellikle
imkansızdır yas da çok uzun zaman alabilecektir ve dolayısıyla
böyle bir yöntemin yüksek maliyetli de yüksek olacaktır.
*Bunun yerine hastalara arasından rastgele bir örneklem alarak şeker
hastalarının ortalama ömrü hakkında ileri sürülen iddia belli bir risk
düzeyinde test edilebilir.
*Bunun için söz konusu parametrenin (burada ortalama) örnekleme
dağılımının bilinmesi gerekir. Örnekleme dağılımı dikkate alınarak
hipotezler test edilir.
M. AKBOLAT-SAU İşletme Fakültesi- Biyoistatistik
*Hipotez testi ile de belli bir hata payı içerecek şekilde, ileri sürülen
hipotezin doğru veya yanlışlığı hakkında karar verilebilir. Hipotez
testinde “sıfır ve alternatif hipotez” olmak üzere iki farklı hipotez
kullanılır.
*Sıfır Hipotezi; ana kütlenin araştırmadan önce varsayılan gerçek
değeri ile örneklemden elde edilen değeri arasında önemli bir
farklılık olmadığını, görülen farklılığın rassal sebeplerden ileri
geldiğini ve önemsiz olduğunu iddia eder.
*Sıfır hipotezi, ana kütlenin varsayılan değeri ile örneklemden elde
edilen değeri arasında önemli bir farklılık olmadığını iddia
ettiğinden, bu iki değer eşitlik biçiminde formüle edilir ve
reddedilmek maksadıyla kurulur. Sıfır hipotezi H0 sembolü ile
gösterilir. Sıfır hipotezinin reddedilmesi durumunda alternatif
hipotez kabul edilmiş olur.
M. AKBOLAT-SAU İşletme Fakültesi- Biyoistatistik
*Alternatif Hipotez; ana kütlenin araştırmadan önce
varsayılan gerçek değeri ile örneklemden elde edilen değeri
arasında önemli bir farklılık olduğunu iddia eder.
*Araştırmacının şüphe ettiği veya ispatlamak istediği iddia
alternatif hipotez biçiminde yazılır. Alternatif hipotez H1
sembolü ile gösterilir.
M. AKBOLAT-SAU İşletme Fakültesi- Biyoistatistik
*Örnek)
Toplumda şeker hastası olanların ortalama yaşam
süresi 67 yıldır. Yeni bir tedavi metoduyla, hastanın yaşam
süresinin artırılabileceği iddia ediliyorsa, sıfır hipotezi ve
alternatif hipotez şöyle kurulur:
* H0 :
 = 67 yıl (yeni tedavi metodu, hastanın ortalama
ömründe bir değişiklik yapmamıştır. Hastanın ortalama ömrü
yine 67 yıldır).
*H1:
> 65 yıl (Yeni teknik, hastaların ortalama yaşam süresini
artırmıştır).
M. AKBOLAT-SAU İşletme Fakültesi- Biyoistatistik
*Eğer yeni teknikle, hastaların ömründe farklılık olacağı iddia
edilseydi, sıfır hipotezi ve alternatif hipotez şöyle olurdu:
*H0:  = 67 yıl (yeni tedavi metodu, hastanın ortalama
ömründe bir değişiklik yapmamıştır. Hastanın ortalama ömrü
yine 67 yıldır).
*H1: 67 yıl yıl (yeni teknik, hastanın ömründe farklılık
meydana getirmiştir).
*Eğer yeni teknikle, hastaların ortalama ömrünün azalacağı
iddia edilseydi, sıfır hipotezi ve alternatif hipotez şöyle
olurdu:
*H0:  = 67 yıl (yeni tedavi metodu, hastanın ortalama
ömründe bir değişiklik yapmamıştır. Hastanın ortalama ömrü
yine 67 yıldır).
*H1: < 65 yıl (Yeni teknik, hastaların ortalama yaşam süresini
azaltmıştır).
M. AKBOLAT-SAU İşletme Fakültesi- Biyoistatistik
*“Yeni
tedavi metodu, hastaların ortalama ömrünü arttırmıştır”
biçimindeki alternatif hipotez için ana kütleden alınmış olan
örneklemin ortalama değeri 𝑋 > 67 yıl olarak bulunmayıp, 𝑋< 67
yıl olarak bulunmuşsa, alternatif hipotezi  > 65 şeklinde yazmak
anlamsız olacaktır.
*Böyle
bir durumda teste gerek kalmadan “ > 67” yıl hipotezi
reddedilir. Bu sebeple. alternatif hipotez belirlenirken; hem
iddia
edilen
değer,
hem
de
örneklemin
değeri
dikkate
alınmalıdır.
M. AKBOLAT-SAU İşletme Fakültesi- Biyoistatistik
*I. Tip Hata: Gerçekte doğru olan bir sıfır hipotezinin
reddedilmesidir.
*II. Tip Hata: Gerçekte yanlış olan bir sıfır hipotezinin kabul
edilmesidir.
*ideal olarak, bir hipotezin gerçekte doğru olup olmadığının
anlaşılabilmesi için ana kütledeki bütün elemanların ölçüme
tabi tutulması gerekmektedir.
*Ana kütlenin tamamı ile çalışılmıyorsa, hata yapma riski
daima olacaktır. Hata yapma riskinin minimize edilmesi
gerekir. Bu ise kolay bir iş değildir. Çünkü, belli bir
örneklem hacmi için bu hatalar her zaman olacaktır. Her iki
hata tipini de azaltmanın en ideal yolu veri sayısını
arttırmaktır.
M. AKBOLAT-SAU İşletme Fakültesi- Biyoistatistik
*Örnek)
Bir ilacın zehirleme etkisinin olmadığı iddia
edilmektedir.
*H0: İlacın zehirleme etkisi vardır.
*H1: İlacın zehirleme etkisi yoktur.
*I. Tip Hata: İlacın zehirleme etkisi olmasına rağmen, H0
hipotezi reddedilerek, ilacın zehirleme etkisinin olmadığına
karar verilebilir.
*Sonuç: İlacın zehirleme etkisi olmadığı düşüncesiyle hastaya
verilir ve hasta zehirlenir.
*II. Tip Hata: İlacın zehirleme etkisi olmamasına rağmen, H0
hipotezi kabul edilerek ilacın zehirleme etkisi olduğuna karar
verilebilir.
*Sonuç: İlaç hastaya verilmez ve zehirlenme olmaz. Bu
durumda hastanın tedavi süresi uzatılmış olur. Dolayısıyla,
birinci tip hatanın azaltılması gerekmektedir.
M. AKBOLAT-SAU İşletme Fakültesi- Biyoistatistik
*Birinci tip hata yapma olasılığı  ile, ikinci tip hata olasılığı ise 
ile gösterilir.
*P
(Birinci Tip Hata) =  olmak üzere, sıfır hipotezinin kabul
olasılığı 1- olur. (İkinci Tip Hata) =  olmak üzere, alternatif
hipotezin kabul olasılığı ise 1- olur. Bu durun aşağıdaki tabloda
özetlenmiştir:
H0 Doğru
H0 Yanlış
H0 Kabul
Doğru Karar
(p = 1-)
Yanlış Karar (2. Tip Hata}
(p =)
H0 Ret
Yanlış Karar
(I. Tip Hata)
(p=)
Doğru Karar
(P = 1-)
M. AKBOLAT-SAU İşletme Fakültesi- Biyoistatistik
*
M. AKBOLAT-SAU İşletme Fakültesi- Biyoistatistik
*
M. AKBOLAT-SAU İşletme Fakültesi- Biyoistatistik
*Örnek
hacmi sabit kalırken,  olasılığının azalması  olasılığının
artmasına sebep olurken, aksine  olasılığının artması  olasılığının
azalmasına sebep olmaktadır.
*Hem
I. tip hatanın hem de II. tip hatanın
birlikte azaltılması
isteniyorsa, örnek hacminin arttırılması yoluna gidilir. Ancak bu
çoğu zaman pahalı, bazen de imkansızdır. Dolayısıyla böyle
durumlarda I. tip ve II. tip hatalardan hangisinin daha önemli
olduğuna karar vermek suretiyle  ve  değerleri uygun şekilde
belirlenmelidir.
M. AKBOLAT-SAU İşletme Fakültesi- Biyoistatistik
*Tek yönlü hipotez testi: Hipotezin red bölgesinin dağılımın
sadece bir bölgesi olması durumudur. Yani alternatif hipotezin
büyüklük ya da küçüklük şeklinde oluşturulmasıdır.
*Çift yönlü hipotez testi: Hipotezin red bölgesinin dağılımın
her iki bölgesinde de bulunması durumudur. Yani alternatif
hipotezin farklılık şeklinde oluşturulması durumudur.
M. AKBOLAT-SAU İşletme Fakültesi- Biyoistatistik
*1. Aşama Hipotez testinin oluşturulması: Araştırmanın başında
H0 ve H1 hipotezlerinin belirlenmesi gerekir. H0 hipotezi ana
kütle parametresinden bir eşitliği temsil ederken; H1 büyük,
küçük ya da farklı şeklinde oluşturulabilir.
Parametre
Ortalama ()
Oran (P)
Ortalamaların farkı (1-2)
Oranların farkı (P1-P2)
Testin Yönü
İki yönlü test
Tek yönlü test
Sağ Kuyruk Sol Kuyruk
H0: =0
H0: =0 H0:=0
H1: 0
H1:>0
H1:<0
H0: P=P0
H0: P=P0 H0:P=P0
H1:P>P0
H1:P<P0
H1: PP0
H0: 1=2
H0: 1=2 H0:1=2
H1: 12
H1:1>2 H1:1<2
H0: P1=P2
H0: P1=P2 H0:P1=P2
H1:P1>P2 H1:P1<P2
H1: P1P2
M. AKBOLAT-SAU İşletme Fakültesi- Biyoistatistik
*2. Aşama anlam düzeyinin seçilmesi: Hipotezin anlam düzeyi 
ile gösterilmekte ve doğru hipotezin reddi (I. Tip hata) riskini ifade
etmektedir.  ve β hatalarının önemine göre bir anlam düzeyi
seçilir. Genel olarak anlam düzeyi olarak 0,01 ve 0,05 olasılıkları
seçilmektedir.
*3.
Aşama olasılık dağılımının belirlenmesi: Hipotezin testi için
kullanılan örnek istatistiğinin hangi olasılık dağılımına sahip
olduğunun belirlenmesi gerekir. Zira test işlemi bu dağılım
kullanılarak yapılır. Ortalamaların, oranların ve farkların dağılımı
büyük örnek hacimlerinde normale yaklaşırken, küçük örneklerde t
dağılımına
yaklaşmaktadır. Varyansların dağılımı Ki-kare
dağılımına uyarken, varyansların karşılaştırılması için kullanılan
varyans oranlarının dağılımı F dağılımına uymaktadır.
M. AKBOLAT-SAU İşletme Fakültesi- Biyoistatistik
*
M. AKBOLAT-SAU İşletme Fakültesi- Biyoistatistik
M. AKBOLAT-SAU İşletme Fakültesi- Biyoistatistik
Z 
X 

n
M. AKBOLAT-SAU İşletme Fakültesi- Biyoistatistik
*Örnek:
Bir firma tarafından üretilen pillerin ömürlerinin
ortalaması 300 saat ve standart sapma 49 saat olarak
belirlenmiştir. Bu pillerin satıcısı bir bayi pillerin ömürlerinin
300 saatten az olduğunu düşünmektedir. Bunu araştırmak için
üretilen pillerden rastgele 49 pil seçilerek ömür testine tabi
tutulmuş ve ortalama ömrün 295 saat olduğu görülmüştür.
a)
Çekilen bu 49 birimlik bir örneğe göre ortalama ömrünün
300 saat olduğu iddiasını %5 anlam düzeyinde test ediniz.
b)
49 birimlik örneğin ortalaması en fazla ne kadar olursa %1
anlam düzeyinde hipotez reddedilerek µ<300 alternatif
hipotezi kabul edilir?
M. AKBOLAT-SAU İşletme Fakültesi- Biyoistatistik
*
Z
X 
295  300  5


 Z  0,713

49
7
n
49
M. AKBOLAT-SAU İşletme Fakültesi- Biyoistatistik
*
M. AKBOLAT-SAU İşletme Fakültesi- Biyoistatistik
Z
X 

 2,33 
n
 2,33 
X  300
49
49
X  300
7
X  283,69 saat
M. AKBOLAT-SAU İşletme Fakültesi- Biyoistatistik
M. AKBOLAT-SAU İşletme Fakültesi- Biyoistatistik
*Araştırmaların bir çoğunda araştırmaya ayrılan para, zaman ve diğer
imkanların sınırlı olması gibi nedenlerle, örneklem hacmini, daha
önceki açıklamalarımızda belirtilen büyüklükte (genellikle n ≥ 30
birim) sağlamak mümkün olmayabilir. Örneğin; çok nadir görülen
bir hastalıkla ilgili araştırmada vaka sayısını, uzun süren deneylere
dayanan araştırmalarla ve maliyeti yüksek olan laboratuvar
çalışmalarında örneklem hacmini arttırmak çok güçtür. Örneklem
hacminin az olduğu bu gibi durumlarda, küçük örneklemler için
geliştirilmiş test yöntemlerine başvurulur.
M. AKBOLAT-SAU İşletme Fakültesi- Biyoistatistik
*Standart
normal dağılmış bir rassal değişkenle ki- kare
dağılmış bir rasgele değişkenin özel bir fonksiyonu şeklinde
tanımlanan yeni rassal değişken t ya da student t dağılımı olarak
bilinir.
*X1≈ N(0,1) ve X2 ≈ 2v olup,
*v: serbestlik derecesi
*X1 ve X2 istatistik olarak bağımsız rassal değişkenler iken,
X1
t
X2
v
*Şeklinde tanımlansın.
M. AKBOLAT-SAU İşletme Fakültesi- Biyoistatistik
*Değişken dönüştürme tekniği ile t değişkeninin olasılık yoğunluk
fonksiyonu aşağıdaki gibi yazılır.
 v 1


2

t
2
 1 
f (t )  

v
v

  v
2




v 1
2
 t  
1. M. AKBOLAT-SAU İşletme Fakültesi- Biyoistatistik
*v
serbestlik derecesi ile tanımlanan sonsuz sayıda t
dağılımı vardır. v parametresi daima pozitif tamsayıdır.
tv : v serbestlik dereceli t rassal değişkenini ifade eder.
*tv
değişkeninin olasılık yoğunluk fonksiyonunun grafiği
merkezi 0 olan çan eğrisine benzeyen bir grafiktir.
*v nin değeri artarken tv rassal değişkeninin varyansı azalır.
Böylece serbestlik derecesi artarken t dağılımı normal
dağılıma yaklaşır. Esasen t dağılımı simetrik olmakla
birlikte normale göre daha basık bir dağılıma sahiptir.
M. AKBOLAT-SAU İşletme Fakültesi- Biyoistatistik
*t
dağılımı gösteren bir değişken standart değişkene şöyle
dönüştürülür.
X 
t
S
n
M. AKBOLAT-SAU İşletme Fakültesi- Biyoistatistik
Olasılık ()
t tablosu
[P(T<t)]
Serbest
Derece
0,400
0,300
0,200
0,100
0,050
0,025
0,010
0,005
1
0,325
0,727
1,376
3,078
6,314
12,706
31,821
63,657
2
0,289
0,617
1,061
1,886
2,920
4,303
6,965
9,925
3
0,277
0,584
0,978
1,638
2,353
3,182
4,541
5,841
4
0,271
0,569
0,941
1,533
2,132
2,776
3,747
4,604
5
0,267
0,559
0,920
1,476
2,015
2,571
3,365
4,032
6
0,265
0,553
0,906
1,440
1,943
2,447
3,143
3,707
7
0,263
0,549
0,896
1,415
1,895
2,365
2,998
3,499
8
0,262
0,546
0,889
1,397
1,860
2,306
2,896
3,355
9
0,261
0,543
0,883
1,383
1,833
2,262
2,821
3,250
10
0,260
0,542
0,879
1,372
1,812
2,228
2,764
3,169
11
0,260
0,540
0,876
1,363
1,796
2,201
2,718
3,106
12
0,259
0,539
0,873
1,356
1,782
2,179
2,681
3,055
13
0,259
0,538
0,870
1,350
1,771
2,160
2,650
3,012
14
0,258
0,537
0,868
1,345
1,761
2,145
2,624
2,977
15
0,258
0,536
0,866
1,341
1,753
2,131
2,602
2,947
Olasılık ()
t tablosu
[P(T<t)]
Serest.
derec.
0,400
0,300
0,200
0,100
0,050
0,025
0,010
0,005
16
0,258
0,535
0,865
1,337
1,746
2,120
2,583
2,921
17
0,257
0,534
0,863
1,333
1,740
2,110
2,567
2,898
18
0,257
0,534
0,862
1,330
1,734
2,101
2,552
2,878
19
0,257
0,533
0,861
1,328
1,729
2,093
2,539
2,861
20
0,257
0,533
0,860
1,325
1,725
2,086
2,528
2,845
21
0,257
0,532
0,859
1,323
1,721
2,080
2,518
2,831
22
0,256
0,532
0,858
1,321
1,717
2,074
2,508
2,819
23
0,256
0,532
0,858
1,319
1,714
2,069
2,500
2,807
24
0,256
0,531
0,857
1,318
1,711
2,064
2,492
2,797
25
0,256
0,531
0,856
1,316
1,708
2,060
2,485
2,787
26
0,256
0,531
0,856
1,315
1,706
2,056
2,479
2,779
27
0,256
0,531
0,855
1,314
1,703
2,052
2,473
2,771
28
0,256
0,530
0,855
1,313
1,701
2,048
2,467
2,763
29
0,256
0,530
0,854
1,311
1,699
2,045
2,462
2,756
30
0,256
0,530
0,854
1,310
1,697
2,042
2,457
2,750
*Örnek: Belli bir parçanın üretimi için gereken ortalama
zamanın 11,5 dakika olduğu biliniyor. İşe alınan 10
işçinin bu mamulü üretim süreleri gözlemleniyor ve
aşağıdaki sonuçlar elde ediliyor.
Süre 10,5 12.8
13
12.7
11
14
10,4 13,6 12,7
13
*%5 anlam düzeyinde yeni işe alınan işçilerin bu mamulü
üretim süresinin eski
olmadığını araştırınız.
işçilerden
daha
fazla
olup
M. AKBOLAT-SAU İşletme Fakültesi- Biyoistatistik
*Çözüm:
*Örneğin aritmetik ortalaması ve standart sapması hesaplanır.
Süre
10,5
12,8
X i  X -1,87
( X i  X )2
3,50
S
12,7
11,0
14,0
10,4
13,6
12,7
13,0 Topl
0,43
0,63
0,33
-1,37
1,63
-1,97
1,23
0,33
0,63
0,18
0,40
0,11
1,88
2,66
3,88
1,51
0,11
0,40 Topl
X

X 
n
13,0
i
123,7
14,6
123,7

 12,37
10
2
(
X

X
)
 i
n 1
14,6

 S  1,27
10  1
M. AKBOLAT-SAU İşletme Fakültesi- Biyoistatistik
*H0: µ = 11,5 dakika
(Yeni işçileri üretim süresi de eskiler gibi 11.5 dakikadır.)
*H1: µ > 11,5 dakika
(Yeni işçilerin üretim süresi 11, 5 dakikadan fazladır.)
*Anlam düzeyi: 0,05
*Kritik tablo değeri: t0,05,10-1 t0,05,9= 1,833
*Deneysel dağılım değeri (test istatistiği)
X   12,37  11,5
t

 2,17
s
1,27
n
10
*Karar: t0,05,9 = 1,833 < tdeneysel=2,17
olduğundan Ho hipotezi reddedilir.
M. AKBOLAT-SAU İşletme Fakültesi- Biyoistatistik
Yeni işçilerin bu mamulü üretim süresi eskilerden yüksekdir.
*Problem: Adapazarı İstanbul hattında çalışan trenlerin bu yolu
alış sürelerinin ortalamasının 140 dakika olduğu iddia
edilmekte, varyansının 625 dk olduğu ve bilinmektedir.
*a)
Bu hatta çalışan rasgele 36 tren gözlemlendiğinde bu yolu
alış süresinin ortalamasının en az 146 dk olma olasılığını
bulunuz.
*b)
Bu yolun alınış süresinin ortalamasının 140 dk. olduğu
iddiasının geçerliliği için 36 sefer gözlemlendiğinde ortalama
süre 150 dk çıktığına göre trenlerin bu yolu alış sürelerinin
ortalamasının 140 dakikadan fazla olup olmadığını %5 anlam
düzeyinde test edip karar veriniz.
*c) 36 gözlemde ortalama süre için güven aralığı
132; 148 dk
AKBOLAT-SAU İşletme Fakültesi- Biyoistatistik
arasında çıktığına göre güven düzeyiniM.belirleyiniz.
M. AKBOLAT-SAU İşletme Fakültesi- Biyoistatistik
Download