ÖRNEKLEME TEORİSİ VE TAHMİN TEORİSİ 1 TEMEL KAVRAMLAR PARAMETRE: • Populasyonun sayısal açıklayıcı bir ölçüsüdür ve anakütledeki tüm elemanlar dikkate alınarak hesaplanabilir. • Anakütledeki tek bir eleman dahi işlemin dışında kalır ise elde edilen sonuç parametre olarak kabul edilemez. ÖRNEK İSTATİSTİĞİ (PARAMETRE TAHMİNLEYİCİSİ): • Bir örneğin sayısal betimsel ölçüsüdür ve örnekteki gözlemlerden hesaplanır. • Diğer bir deyişle bilinmeyen bir parametrenin sayısal değerini bulabilmek (tahminlemek) için kullanılır. 2 PARAMETRE VE ÖRNEK İSTATİSTİKLERİ İÇİN ÖRNEKLER Parametre • Anakütle ortalaması • Anakütle Medyanı M • Anakütle Varyansı 2 • Anakütle Standart Sapması • Anakütle Oranı P Örnek istatistiği ˆ • Örnek ortalaması • Örnek Medyanı • Örnek Varyansı • Örnek Standart Sapması • Örnek Oranı x m s2 s p 3 Bir Populasyon Parametresi Hakkında En Geniş Bilgiyi Hangi Örnek İstatistiğinin İçerdiğine Nasıl Karar Verilecek? Örneğin anakütle ortalaması için • Aritmetik ortalama • Geometrik ortalama • Harmonik ortalama • Medyan vb. örnek istatistiklerinden hangisi tercih edilmelidir. 4 Örnek 1a Bir zar atılışında x üst yüzdeki sayıyı göstersin. E(x)= anakütle parametresini (anakütle ortalamasını) bulunuz. x 1 2 3 4 5 6 P(x) 1/6 1/6 1/6 1/6 1/6 1/6 xP(x) 1/6 2/6 3/6 4/6 5/6 6/6 6 1 2 6 21 E ( x) xP( x) ...... 3,5 6 6 6 6 x 1 5 Örnek 1b • Ancak bu değerinin bir an için bilinmediği ve bunu tahmin etmek için populasyondan 3 örnek alındığını varsayılsın. 6 • Zar 3 kez atılsın ve örnek sonuçları; x1=2, x2=2, x3=6 elde edilsin. x 2 2 6 10 x 3,333 ve m=2 hesaplanabilir. m:medyan n 3 3 1 2 m=2 =3.5 3 4 5 6 X=3.3 SONUÇ: x değeri değerine daha yakındır. 7 • Zar 3 kez daha atılsın ve örnek sonuçları; x1=3, x2=4, x3=6 elde edilsin. x 13 4,3 ve m=4 3 1 2 3 4 5 6 x m SONUÇ: m değeri değerine daha yakındır. 8 Örnek için Yorum 1. Örnekten hesaplanan örnek istatistikleri (tahminleyiciler) birer şans değişkenidir. 2. Ne örnek aritmetik ortalamasıx Ne de örnek medyanı (m), populasyon ortalamasına daima denilemez. Sonuçların genellenebilmesi için dağılışına gerek duyulmaktadır. örnek daha yakındır istatistiklerinin 9 ÖRNEKLEME DAĞILIMLARI • Anakütleden n adet ölçümden x1, …, xn oluşan bir örnekten alınmış olsun. • Anakütledeki eleman sayısı N olsun. • Anakütleden alınabilecek her biri n adet eleman içeren tüm mümkün örnek sayısı: N nk 10 ÖRNEKLEME DAĞILIMLARI • Bu koşullar (N, n) altında hesaplanabilecek örnek istatistiği sayısı k adettir. • Örnek istatistiğinin anakütlesindeki eleman sayısı k olur. • Örnek verilerinden hesaplanan bir örnek istatistiği için elde edilen bu anakütle örnekleme dağılışı olarak adlandırılır. 11 ÖRNEKLEME DAĞILIMLARI • Örnekleme dağılımı bu istatistiğin bir olasılık dağılışıdır. • Örnekleme dağılımı anakütledeki eleman sayısı N ve n örnek hacminin bir fonksiyonudur. 12 Örnek 2 • Büyük bir populasyondan alınmış 3 ölçümün (0, 3, 12) olasılık dağılışı aşağıdaki gibidir; x 0 3 12 P(x) 1/3 1/3 1/3 n=3 a) Örnek ortalaması ( x)’nın örnekleme dağılışı b) Örnek medyanı (m)’nın örnekleme dağılışını bulunuz. • DİKKAT: ANAKÜTLEDEKİ ELEMAN SAYISI N BİLİNMİYOR. FAKAT ŞANS DEĞİŞKENİNİN OLASILIK DAĞILIMI P(x) BİLİNİYOR. 13 Mümkün Örnekler 0 0 0 0 0 0 0 0 0 3 3 3 3 3 3 3 3 3 12 12 12 12 12 12 12 12 12 0 0 0 3 3 3 12 12 12 0 0 0 3 3 3 12 12 12 0 0 0 3 3 3 12 12 12 x 0 3 12 0 3 12 0 3 12 0 3 12 0 3 12 0 3 12 0 3 12 0 3 12 0 3 12 0 1 4 1 2 5 4 5 8 1 2 5 2 3 6 5 6 9 4 5 8 5 6 9 8 9 12 m 0 0 0 0 3 3 0 3 12 0 3 3 3 3 3 3 3 12 0 3 12 3 3 12 12 12 12 Örnek 2 Olasılık 1/27 1/27 1/27 1/27 1/27 1/27 1/27 1/27 1/27 1/27 1/27 1/27 1/27 1/27 1/27 1/27 1/27 1/27 1/27 1/27 1/27 1/27 1/27 1/27 1/27 1/27 1/27 p= x / n (x tek sayı gelmesi durumu) 0/3 1/3 0/3 1/3 2/3 1/3 0/3 1/3 0/3 1/3 2/3 1/3 2/3 3/3 2/3 1/3 2/3 1/3 0/3 1/3 0/3 1/3 2/3 1/3 0/3 1/3 0/3 Örnek 3 14 Örnek 2 • Aritmetik Ortalama Örnekleme Dağılışı x P( x ) 0 1 2 3 4 5 6 8 9 12 1/27 3/27 3/27 1/27 3/27 6/27 3/27 3/27 3/27 1/27 • Medyan Örnekleme Dağılışı m 0 3 12 P(m) 7/27 13/27 7/27 15 Niçin Örnek? Anakütle parametrelerinin örnek değerleri (örnek istatistikleri) yardımıyla tahmin edilmesine imkan sağlamak modern istatistiğin önemli bir görevidir. Anakütlenin tamamı incelenmez. Anakütleden bir şans örneği alınır. Elde edilen örnek değerlerinin anakütle parametresi yerine kullanılması için iki şart vardır: a. Örnek şans örneği olmalı. Anakütledeki her birimin örneğe girme şansı eşit olmalı b. Örnek yeterince büyük olmalı 16 Tahminleyicilerin Özellikleri 1. Sapmasızlık P(X ) Sapmasız A Sapmalı B X N birimlik aynı anakütleden farklı sayıda örneklem seçilebileceği için tahmin edicinin değeri de seçilen örnekleme göre değişmektedir. Bu durumda örneklem sayısı kadar elde edilen tahmin edici, bir rassal değişken olup, ortalaması ve varyansı olan bir olasılık dağılımına sahiptir. Bu dağılımın beklenen değerinin anakütle parametresine eşit olmasına, diğer bir ifadeyle bir istatistiğin beklenen değeri ile bilinmeyen anakütle parametresi arasındaki farkın sıfıra eşit olmasına 17 “sapmasızlık” denir. E(X) E(X) 0 Tahminleyicilerin Özellikleri 2. Tutarlılık (Kararlılık) Büyük örnek hacmi P(X) B Küçük örnek hacmi A X Örneklemdeki birim sayısı sonsuza doğru arttırıldığında, tahmin edicinin değerinin anakütle değerine yaklaşması ve n=N olması durumunda aralarındaki farkın sıfıra inmesi özelliğine “tutarlılık” denir. lim P 1 n ̂ ,’nın tutarlı tahmincisidir. 18 Tahminleyicilerin Özellikleri 3. Etkinlik Etkin Tahminci P(X) B A X Birden fazla sapmasız ve tutarlı tahminci olması durumunda, bir tahmincinin varyansının, aynı anakütle parametresinin başka bir tahmincisinin varyansından daha küçük olması durumunda elde edilen tahmincilere “etkin” tahminci adı verilmektedir. 19 ÖRNEKLEME DAĞILIMI ÖRNEK HACMİNİN BİR FONKSİYONUDUR Örnek hacmi büyüdükçe tahminleyicinin varyansı küçülür. P(X) Büyük örnek hacimli durum B Küçük örnek hacimli durum A X 20 Örnek 3 • Örnek 2 verileri için aritmetik ortalama ve örnek medyanının tahminleyici özelliklerini araştırınız. 21 Örnek 3 Aritmetik ortalama x , anakütle ortalamasının sapmasız bir tahminleyicisi midir? x 0 3 12 P(x) 1/3 1/3 1/3 N E x xi P ( xi ) i 1 1 1 1 0 3 12 3 3 3 5 22 Örnek 3 x P( x ) 0 1 2 3 4 5 6 8 9 12 1/27 3/27 3/27 1/27 3/27 6/27 3/27 3/27 3/27 1/27 N x E x xi P ( xi ) i 1 1 3 0 1 27 27 5 1 12 27 23 Örnek 3 Sonuç: Ex olduğundan aritmetik ortalama (tahminleyici), anakütle ortalamasının (parametrenin) sapmasız bir tahminleyicisidir. 24 Örnek 3 Örnek medyanı m, anakütle ortalamasının sapmasız bir tahminleyicisi midir? m 0 3 12 P(m) 7/27 13/27 7/27 7 13 7 E m mi P mi 0 3 12 i 27 27 27 4.56 E m 25 Örnek 3 Sonuç: E m olduğundan örnek medyanı (tahminleyici), anakütle ortalamasının (parametrenin) sapmalı bir tahminleyicisidir. 26 Örnek 3 • Aritmetik ortalama x, anakütle ortalamasının Minimum Varyanslı bir tahminleyicisi midir? x 0 3 12 P(x) 1/3 1/3 1/3 x2 0 9 144 x2P(x) 0 9/3 144/3 153 E x x P ( xi ) 3 2 2 i V x E x E x 2 x 2 153 2 5 3 26 2 27 Örnek 3 Aritmetik ortalamanın varyansı 2 x xi 0 1 2 3 4 5 6 8 9 12 P( xi ) 1/27 3/27 3/27 1/27 3/27 6/27 3/27 3/27 3/27 1/27 xi 2 xi 2P( xi ) 0 1 4 9 16 25 36 64 81 144 0 3/27 12/27 9/27 48/27 150/27 108/27 192/27 243/27 144/27 909 E x xi P xi 27 2 2 V x E ( x ) E ( x ) 2 2 909 (5)2 27 = 8,66 28 Örnek 3 2 Örnek medyanının varyansı m mi 0 3 12 P(mi) 7/27 13/27 7/27 0 9 144 0 117/27 1008/27 mi 2 2 mi P(mi) E m 2 mi 2 P mi 41.66 V m E ( m 2 ) E ( m) 2 41.66 (4.56)2 =20.86 29 Örnek 3 Sonuç: V x V m Aritmetik ortalama x , anakütle ortalamasının Sapmasız ve Minimum Varyanslı bir tahminleyicisidir. 30 BEKLENEN DEĞER VE VARYANS OPERATÖRLERİNİN ÖZELLİKLERİ BEKLENEN DEĞER OPERATÖRÜ E(.) • Şans değişkeni x anakütle ortalaması ve anakütle varyansı 2 olsun. • a ile b birer sabit sayı olmak üzere, E(a)=a E(ax)=aE(x)=a E(ax+b)=aE(x)+b=a+b 31 BEKLENEN DEĞER VE VARYANS OPERATÖRLERİNİN ÖZELLİKLERİ VARYANS OPERATÖRÜ V(.) • Şans değişkeni x anakütle ortalaması ve anakütle varyansı 2 olsun. • a ile b birer sabit sayı olmak üzere, V(a)=0 V(ax)=a2V(x)= a22 V(ax+b)= a2V(x)= a22 32 MERKEZİ LİMİT TEOREMİ • Şans değişkeni x’in dağılımı ne olursa olsun bu anakütleden alınan n hacimli örneklerden hesaplanan aritmetik ortalamanın x dağılımı yaklaşık olarak normal dağılıma sahiptir. • Örnek hacmi büyüdükçe aritmetik ortalamanın x dağılımının normal dağılıma yakınsaması artar. 33 Şans Değişkenlerinin Standartlaştırılması • Standart değişkenler genellikle z ile gösterilir. • Ortalaması sıfır, E(z)=0 • Varyansı bir, V(Z)=1. şans değişkeni-anakütle ortalaması z anakütle standart sapması 34 BAZI ÖNEMLİ TAHMİNLEYİCİLER İÇİN ÖRNEKLEME DAĞILIMLARININ BELİRLENMESİ • Aritmetik ortalama x • Örnek varyansı s2 • Örnek oranı p 35 BİR DAĞILIMIN BELİRLENMESİ • Dağılışın tipinin belirlenmesi, (Normal, Üstel, Poisson vb.) • Dağılımın parametrelerinin belirlenmesi 36 ARİTMETİK ORTALAMA x İÇİN ÖRNEKLEME DAĞILIMI Şans değişkeni x anakütle ortalaması ve anakütle varyansı 2 olsun. x i 1 i x n n x1 x2 n xn Cevaplanması gereken sorular • Dağılımın tipi? • Parametreleri; Ex ? V x ? 37 DAĞILIMIN TİPİ • Merkezi limit teoremine göre aritmetik ortalamanın dağılımı yaklaşık olarak normal dağılıma sahiptir. • Normal dağılımın parametreleri: – Anakütle ortalaması – Anakütle varyansı 38 Dağılımın Parametreleri: Aritmetik Ortalama için Anakütle Ortalaması in1 xi Ex E n 1 E x1 n 1 E x n E xn n n Ex 39 Dağılımın Parametreleri: Aritmetik Ortalama için Anakütle Varyansı in1 xi V x V n 1 2 V x1 n 1 V x 2 2 n V x V xn 2 n 2 2 n 2 n 40 ARİTMETİK ORTALAMA x İÇİN ÖRNEKLEME DAĞILIMI x ~N x ; N x ; n 2 x 2 x 41 Aritmetik Ortalamanın Standartlaştırılması z x - x x x - x z x n 42 Normal populasyondan örnekleme • Merkezi eğilim Populasyon dağılımı = 10 X • Yayılım X n – yerine koyarak örnekleme 50 X Örnekleme dağılımı n=4 X = 5 n =16 X = 2.5 50 X X 43 Merkezi Limit Teoremi Örnek hacmi yeterince büyükse (n 30) ... x n x Örnekleme dağılışı hemen hemen normal olur. X 44 Alıştırma • Türk Telekom’da çalışan bir operatörsünüz. Uzun mesafeli telefon görüşmeleri = 8 dk. & = 2 dk. ile normal dağılmaktadır. Eğer 25’lik örnekler seçerseniz örnek ortalamalarının % kaçı 7.8 & 8.2 dk. arasında olacaktır? 45 Çözüm X 7.8 8 Z .50 n 2 25 Örnekleme dağılımı Z X X = .4 n 8.2 8 2 25 .50 Standart normal dağılım Z = 1 .3830 .1915 .1915 7.8 8 8.2 X -.50 0 .50 Z46 ÖRNEK ORANI: p • Anakütle başarı olasılığını “P” ’yi tahminlemek amacıyla populasyondan alınan örnekten elde edilen bilgiler doğrultusunda örnek oranı p hesaplanır. • İlgilenilen başarı olasılığının P’nin bilinmediği durumlarda n hacimlik örnek alındığında ve x örnekteki başarı sayısı olarak ele alındığında, örnekten elde edilen başarı olasılığı (örnek oranı); x p n 47 ÖRNEK ORANI p İÇİN ÖRNEKLEME DAĞILIMI Şans değişkeni x sabit n hacimli denemede ortaya çıkan başarı sayısı olsun. x ~B n; p Örnek oranı: x p n Cevaplanması gereken sorular • Dağılımın tipi? • Parametreleri; p E p ? p2 V p ? 48 DAĞILIMIN TİPİ • Merkezi limit teoremine göre örnek oranının dağılımı eğer n örnek hacmi yeterince büyük ise yaklaşık olarak normal dağılıma sahiptir. • Bunun temel sebebi örnek oranının, n adet denemede ortaya çıkan ortalama başarı sayısını temsil etmesidir. • Normal dağılımın parametreleri: – Anakütle ortalaması – Anakütle varyansı 49 Dağılımın Parametreleri: Örnek Oranı için Anakütle Ortalaması x 1 E p E E x n n E(x)=nP np E p n E p p Not: x şans değişkeni binom dağılımına sahip olduğundan: E(x)=nP 50 Dağılımın Parametreleri: Örnek Oranı için Anakütle Varyansı x 1 V p V 2 V x n n V p V p V(x)=nP(1-P) np 1 p n2 p 1 p n Not: x şans değişkeni binom dağılımına sahip olduğundan: V(x)=nP(1-P) 51 ÖRNEK ORANI p İÇİN ÖRNEKLEME DAĞILIMI p 1 p 2 p ~N p ; p N p; n 52 Örnek Oranının Standartlaştırılması z z p - p p P-p p 1 p n 53 Örnek Hacminin Örnek Oranı Üzerindeki Etkisi Anakütle oranı P sabitken örnek hacmi arttığında örnek oranının standart hatası küçülür. Aşağıdaki şekilde görüldüğü gibi örnek hacmi arttığında p’in kendi ortalaması etrafında yoğunlaştığı görülmektedir. f ( p) n=400 n=100 .68 .72 .76 .80 .84 .88 .92 p 54 Örnek 4 Büyük bir populasyondan alınan 3 ölçüm ile ilgili örneğe dönersek x başarı sayısının örnekte tek sayı gelme olayını göstermek üzere örnek oranının beklenen değerini ve varyansını bularak dağılımını elde ediniz. pi pi 2 P(pi) 0/3 1/3 2/3 3/3 0/9 1/9 4/9 9/9 8/27 12/27 6/27 1/27 E ( p ) pi P pi i E ( p) p p E ( p) 8 0 12 1 6 2 1 3 0.33 27 3 27 3 27 3 27 3 55 Örnek 4 p 1 p I. YÖNTEM V p n 2 p p2 p(1 p) 0.33(1 0.33) 0.074 n 3 II. YÖNTEM E ( p ) E ( p ) 2 p 2 2 E ( p 2 ) pi2 P pi i E( p2 ) 8 0 12 1 6 4 1 9 0.185 27 9 27 9 27 9 27 9 E ( p ) E ( p) 0.185 (0.33) 2 0.074 2 p 2 2 56 Örnek 5 • Gelirler Genel Müdürlüğü’ne göre, bütün vergi beyannamelerinin % 75’i vergi iadesine yol açmaktadır. 100 beyannamelik bir rassal örneklem alınmıştır. a) Vergi iadesine yol açan beyannamelerin örneklem oranının ortalaması kaçtır? b) Örneklem oranının varyansı kaçtır? c) Örneklem oranının standart hatası kaçtır? d) Örneklem oranının 0,8’den büyük olma olasılığı kaçtır? 57 Örnek 5 Çözüm: a) E ( p ) p 0,75 b) p2 p(1 p) n 0,75(1 0,75) 0,001875 100 2 p c) Standart Sapma (ya da Standart Hata) p2 p 0,001875 0,0433 58 Örnek 5 p2 p 0,001875 0,0433 d) P( p 0,8) ? P ( p 0,8) P ( P p p 0,8 p p ) 0,8 0,75 0,8 0,75 P( z ) P( z ) 0,0433 0,0433 P ( z 1,15) 0,5 0,3749 0,1251 59 Ki-Kare Dağılışı 2 v = (n - 1) s 2 2 n = örnek miktarı s 2 = örnek varyansı 2 = anakütle varyansı df = serbestlik derecesi = n – 1=v 60 Ki-Kare Dağılışı • Ki-kare dağılımının tek bir parametresi vardır: v • Bu parametre genel olarak serbestlik derecesi olarak adlandırılır. 2 • v şeklinde gösterilir. • Ki-kare dağılımı normal (standart normal) dağılıma sahip şans değişkenlerinden elde edilir. 61 Ki-Kare Dağılışı Şans değişkenleri xi‘ler normal dağılıma sahip olmak üzere, örnek varyansı: s 2 x x 2 n 1 s 2 xi x i n 1 2 Eşitliğin her iki tarafı anakütle varyansına bölünerek n 1 s 2 2 x x i 2 2 n21 62 Ki-Kare Dağılışı Ki-kare şans değişkeninin beklenen değeri: E v2 v Ki-kare şans değişkeninin varyansı: V 2 v 2v 63 Ki-kare istatistiğinin dağılışının özellikleri 1. ki-kare dağılışı simetrik değildir 2. Serbestlik derecesi arttıkça, dağılış daha simetrik hale gelir (normale yaklaşır). df = 10 Simetrik değil df = 20 0 x2 Tüm değerler sıfır veya pozitif 0 5 10 15 20 25 30 35 40 45 64 ÖRNEK VARYANSININ ÖRNEKLEME DAĞILIMI Anakütle ortalaması x ve anakütle varyansı x2 olan bilinmeyen bir populasyondan x1, x2,…, xn ile gösterilen n adet rassal bir örnek alındığında populasyon varyansı aşağıdaki gibi bir beklenen değer ifadesine eşittir: x2 E ( xi x )2 Populasyon ortalaması x bilinmediğinde yerine x konularak örnek varyansı aşağıdaki gibi tanımlanır. 1 n 2 s ( x x ) i n 1 i 1 2 x 65 ÖRNEK VARYANSININ ÖRNEKLEME DAĞILIMI Varyansı x2 olan bir populasyondan alınan n hacimlik bir örneğin örnek varyansı s x2 olarak ifade edildiğinde; 2 2 n 1 sx2 2 2 x n 1 n 1 s x 2 n 1 66 ÖRNEK VARYANSININ ÖRNEKLEME DAĞILIMI s x2 ’nin örnekleme dağılımının ortalaması x2 ’dir. E sx2 x2 E n21 n 1 x2 n 1 n 1 E ( sx2 ) x2 67 ÖRNEK VARYANSININ ÖRNEKLEME DAĞILIMI sx2 ’nin örnekleme dağılımının varyansı, örnekleme dağılımın Ki-Kare dağılımına uygun olduğunu sonucundan hareketle ; 4 2 2 2 V x n1 x n 1 2 V sx V 2 n 1 n 1 4 2 x n 1 2 V sx 2 n 1 4 2 x V sx2 n 1 E 2 v V 2 v v 2v 68 ORTALAMALAR ARASI FARKLARIN ÖRNEKLEME DAĞILIMI Ortalamalar arası farkın örnek dağılımının ortalaması μ1 – μ2 ve standart hatası da 1 - 2 ile gösterilir. X1 X2 n1 n 2 2 1 2 2 X Z 1 X 2 1 2 12 22 n1 n 2 69 ORTALAMALAR ARASI FARKLARIN ÖRNEKLEME DAĞILIMI Örnek: İki farklı un fabrikasında paketlenen standart 1 kg’lık un paketleri test edilmiş ve birinci fabrikadan alınan 100 paketin ortalaması 1.03 kg, standart sapması 0.04kg; ikinci fabrikadan alınan 120 paketin ortalaması 0.99 kg, standart sapması 0.05 kg bulunmuştur. Anakütle standart sapmaları bilinmediği için örnek standart sapmalarından hareketle ortalamalar arası farkın standart hatası, X1 X2 12 22 s12 s 22 n1 n 2 n1 n 2 (0.04) 2 (0.05) 2 = 100 120 = 0.006 70 ORANLAR ARASI FARKLARIN ÖRNEKLEME DAĞILIMI Oranlar arası farkın örnek dağılımının ortalaması P1 –P2 ve standart hatası da 1 - 2 ile gösterilir. P 1 Z P2 P1 1 P1 P2 1 P2 n1 n2 p1 p2 P1 P2 P1 1 P1 P2 1 P2 n1 n2 71 ORANLAR ARASI FARKLARIN ÖRNEKLEME DAĞILIMI Örnek: Birinci fabrikadaki kusurlu mamul oranının 0.08 ve ikinci fabrikadaki kusurlu mamul oranının 0.05 olduğu bilinmektedir. Tesadüfi olarak birinci fabrikadan 100, ikinci fabrikadan 150 mamul seçilmiş ve birinci örnekteki kusurlu mamul oranı 0.09, ikinci örnekteki kusurlu mamul oranı 0.06 olarak gözlenmiştir. Buna göre kusur oranları arasındaki farkın standart hatası: P P 1 2 P P 1 2 P P 1 2 P1 1 P1 n1 0.08 0.92 100 0.0324 P2 1 P2 n2 0.05 0.95 150 72 İstatistiksel Tahminleme Nokta Tahmini Populasyon parametresinin tek bir tahmin değerini verir X μ̂ s σ̂ p P̂ Aralık Tahmini Populasyon parametresinin tahmin aralığını verir. Nokta tahmini kullanılarak hesaplanır. 20 μ 60 2.5 σ 3.4 2 0.25 P .035 73 Örneğin yeterince büyük olmaması veya bir örnekten elde edilen istatistiğin bir başka örnekten sağlanan istatistikle aynı olmayışı yüzünden anakütle parametresini bir noktada tahmin etmek yanlış sonuçlar doğurabilir. Bu yüzden anakütle parametresi belirli bir hata seviyesi göz önüne alınarak belirli bir aralıkta aranır. Hata terimini a ile gösterirsek, 1- a güven seviyesinde aralık tahmini yapabiliriz. Hata terimi normal eğrinin her iki ucunda eşit olarak yer alır. 74 Bu a/2 lik hata terimine karşılık gelen ± Z değerleri belirlenerek örnek dağılımının standart hatası ile çarpıldığında hata payı elde edilir. Hata payının örnek istatistiğine eklenip çıkarılması ile aralık tahmini yapılır. Bu şekilde, anakütle parametresinin belirli aralıkta yer aldığını, 1-a güven seviyesinde söyleyebiliriz. Güven sınırlarından küçük olanına alt güven sınırı, büyüğüne ise üst güven sınırı denir. Hata terimi küçüldükçe güven aralığı genişler. Güven sınırlarının belirleneceği olasılık seviyesine göre Z değeri değişir. 75 Güven Aralığı Tahmini Bir değer aralığı verir. Populasyon parametresine yakınlık hakkında bilgi verir. Olasılık terimleriyle ifade edilir. Güven Aralığı Tahmininin Elemanları Populasyon parametresinin aralık içinde bir yere düşmesinin olasılığı Örnek istatistiği Güven aralığı Alt güven sınırı 76 Üst güven sınırı 76 Güven Aralığı Tahminleri Güven Aralıkları Ortalama biliniyor Oran Varyans bilinmiyor n30 Z dağılımı n<30 t dağılımı 77 ORTALAMALAR İÇİN GÜVEN ARALIĞI Bir örnekden elde edilen X istatistiği anakütle ortalaması x in nokta tahminidir. Gerçek anakütle ortalaması, 1-a güven seviyesinde X X P X za 2 X X za 2 1 a n n aralığında yer alır. 78 Güven aralığı X Z X Z n X x_ X 2.58 X X 1.645 X 1.96 X X X 1.645 X X 1.96 Örneklerin 90% X 2.58 X X X Örneklerin 95% Örneklerin 99% 79 Aralıklar ve güven seviyesi Ortalamanın örnekleme dağılımı _ a/2 x 1 -a x = aralık a/2 _ X 'dan Aralıkların %(1 - a) ‘ı ’yü kapsar. X Z 'a kadar uzanir X %a ‘sı kapsamaz. X Z X Çok sayıda aralık 80 Güven Seviyesi • Bilinmeyen populasyon parametresinin aralık içine düşme olasılığıdır. • %(1 - a güven seviyesi a : Parametrenin aralık içinde olmaması olasılığıdır. • Tipik değerler %99, %95, %90 81 %95 güven sınırları belirlenirken a hatası 1-0.95=0.05 dir. Bu hata normal eğrinin sağ ve sol ucuna eşit olarak dağıtıldığında a /2 =0.05/2=0.025 dur. Bu alanları belirleyen biri negatif, diğeri pozitif iki Z değeri vardır. Normal eğri alanları tablosunda 0.50-0.025=0.4750 değerini gösteren Z= ±1.96 değerleri aradığımız Z değerleridir. 82 %99 güven sınırları belirlenirken a hatası 1-0.99=0.01 dir. Bu hata normal eğrinin sağ ve sol ucuna eşit olarak dağıtıldığında a/2=0.01/2=0.005 bulunur. Normal eğri alanları tablosunda 0.5-0.005=0.4950 değerini gösteren Z= ±2.58 değerleri aradığımız Z değerleridir. 83 Aralık genişliğini etkileyen faktörler Aralık X Z X ' ya uzanir. • Verilerin yayılımı ( • Örnek hacmi x 'dan X Z X x n • Güven seviyesi (1 - a) 84 Örnek: Bir fabrikada üretilen 100 ürünün ortalama ağırlığı 1040 gr standart sapması 25 gr bulunmuştur. Bu imalat prosesinde üretilen ürünlerin ortalama ağırlığı %95 güvenle hangi aralıktadır? %95 için z değeri ± 1.96 0.475 a/2=0.05/2=0.025 z=-1.96 = 0 z=1.96 Z 85 X X P X za 2 X X za 2 1 a n n 25 25 P 1040 1.96 X 1040 1.96 0.95 100 100 P 1035.1 X 1044.9 0.95 86 Örnek n = 25 hacimli bir şans örneğinin ortalamasıX = 50 dir. Populasyonun standart sapmasının X = 10 olduğu bilindiğine göre X için 95%’lik güven aralığını oluşturunuz. P(X Zα/2 x μ X Zα/2 x ) 1 α n n P( 50 1.96 10 50 1.96 10 )=0.95 25 25 P( 46.08 53 .92 )=0.95 87 Populasyonun standart sapması X bilinmediğinde ve n 30 olduğunda ortalama için güven aralığı 1. Varsayımlar: Popülasyonun standart sapması bilinmiyor Populasyon normal dağılımlı. 2. Merkezi limit teoremi kullanılarak Z Dağılımı kullanılır. 3. Güven aralığı tahmini: Örneğin standart sapması P(X Z α/2 Sx n μ X Zα/2 Sx n ) 1 α 88 Örnek •Bir ampul şirketi yeni bir ampul geliştirerek piyasaya sürüyor. Üretim bandından 100 tanesi rassal olarak seçiliyor ve bunların standart sapması 140 saat, kulanım süreleri de ortalama olarak 1280 saat bulunuyor. a=0.05 için populasyon ortalamasının güven aralığını bulunuz. P(X Z α/2 Sx n μ X Zα/2 Sx n ) 1 α 140 140 P( 1280 1.96 )=0.95 1280 1.96 100 100 P(1252 .56 1307 .44) 0.95 Yorum: Şirketin ürettiği ampullerin ortalama ömrü, 0.95 89 olasılıkla 1252.56 ile 1307.44 saat arasındadır. Student t Dağılımı • Küçük örneklerden (n<30) elde edilen istatistiklerin dağılımı Student t dağılımına uyar. • Küçük örnek istatistiklerinin gösterdiği dağılım normal eğri gibi simetriktir.Normal eğriye göre daha basık ve yaygın bir şekil alır. Böylece eğrinin kuyruklarında daha büyük bir alan oluşur. • Küçük örnekler için z cetveli yerine,çeşitli örnek büyüklükleri ve olasılık seviyeleri için ayrı ayrı hesaplanmış t cetvelleri kullanılır. 90 Çan şekilli simetrik, ‘Tombul’ kuyruklar Standart Normal t (sd = 13) t (sd = 5) z t 0 91 Student t Tablosu Üst kuyruk alanı sd .25 .10 .05 n=3 sd = n - 1 = 2 a = .10 a/2 =.05 Olsun: 1 1.000 3.078 6.314 2 0.817 1.886 2.920 .05 3 0.765 1.638 2.353 t değerleri 0 2.920 t 92 Populasyonun standart sapması X bilinmediğinde ve n< 30 olduğunda ortalama için güven aralığı 1. Varsayımlar: Popülasyonun standart sapması bilinmiyor Populasyon normal dağılımlıdır. 2. Student’ın t Dağılımı kullanılır. 3. Güven aralığı tahmini: Örneğin standart sapması X t v;α/2 sx n-1 X t v;α/2 sx n-1 93 ORTALAMA İÇİN GÜVEN ARALIĞI Populasyonun sapması standart X bilinmediğinde ve populasyonun normal dağıldığı varsayımı altında güven aralığı tahmini: a /2 a /2 1 - a ta 2 X ta 2,n 1 X t v;α/2 ta s n 1 sx n-1 2 X ta 2,n 1 s n 1 s X t v;α/2 sx n-1 94 ÖRNEK •Bir fabrikada rasgele üretilen 25 ürünün ortalama ağırlığı 1040 gr standart sapması 25 gr bulunmuştur. %95 güvenle bu imalat prosesinde üretilen ürünlerin ortalama ağırlığı hangi aralıkta yer alır? X t v;α/2 sx n-1 X t v;α/2 sx n-1 25 25 1040 2.064 1040 2.064 25 1 25 1 1029.47 1050.53 95 Bir Oranın Güven Aralığı Örnek oranı p anakütle oranı P nin nokta tahminidir. 1. Varsayımları – İki kategorik çıktı vardır. – Populasyon binom dağılımı gösterir. 2. Güven aralığı tahmini: P(p Zα/2 .Sp P p Zα/2 .Sp ) 1 α x p n Özellikli birim sayısı Örnek hacmi Sp p.q n 96 ÖRNEK: •400 lise öğrencisinden oluşan bir örnekte 32 öğrenci üniversite sınavını kazanmıştır. Üniversite öğrencilerinin sınavı kazanma oranı için %95’lik güven aralığını bulunuz. 32 p 0.08 400 P(p Zα/2 .Sp P p Zα/2 .Sp ) 1 α 0.08 1 0.08 0.08 1 0.08 0.95 P 0.08 1.96 P 0.08 1.96 400 400 P 0.053 P 0.107 0.95 97 İki Ortalamanın Farkı İçin Güven Aralığı Örnek ortalamalarından büyük olan X1 ile gösterilirse örnek ortalamaları arasındaki farktan hareketle anakütle ortalamaları arasındaki farkın güven sınırları aşağıdaki gibi olur. Populasyon Varyansları Biliniyorsa: 2 2 2 2 P X1 X2 Za / 2 1 2 1 2 X1 X2 Za / 2 1 2 1 a n1 n 2 n1 n 2 Populasyon Varyansları Bilinmiyor fakat n > 30 olduğunda: 2 2 2 2 S S S S P X1 X2 Zα/2, 1 2 μ1 μ 2 X1 X2 Zα/2, 1 2 1 α n1 n 2 n1 n 2 98 Örnek Bir yabancı dil kursunun A sınıfında bilgisayar destekli ve B sınıfında klasik yöntemlerle eğitim verilmektedir. Kursun başlangıcından 6 hafta sonra her iki sınıfa da aynı test uygulanarak sonuçlar karşılaştırılmıştır. A sınıfından rassal olarak seçilen 40 öğrencinin test sonucunda elde ettiği ortalama başarı notu 86 ve standart sapması 12, B sınıfından rassal olarak seçilen 35 öğrencinin ortalama başarı notu 72 ve standart sapması 14’tür. Her iki sınıftaki öğrencilerin ortalama başarı notları arasındaki farkın güven aralığını %99 olasılıkla belirleyiniz. 99 Örnek X1 86 S1 12 n1 40 X2 72 S2 14 n 2 35 S12 S22 S12 S22 P X1 X 2 Z α/2 μ1 μ 2 X1 X 2 Z α/2 1 α n n n n 1 2 1 2 2 2 2 2 12 14 12 14 0.99 P 86 72 2.58 μ1 μ 2 86 72 2.58 40 35 40 35 P6.18 μ1 μ 2 21.82 0.99 100 Örnek İki anakütleden tesadüfi olarak seçilen n1 ve n2 hacimlerindeki iki küçük örnekten hareketle anakütle ortalamaları arasındaki farkın güven sınırları belirlenebilir. Birinci örneğin serbestlik derecesi n1 -1 ve ikinci örneğin serbestlik derecesi n2 – 1 dir ve toplam serbestli derecesi v n1 n2 2 olur. Anakütle ortalamaları arasındaki farkın güven aralığı belirlenirken v n1 n2 2 serbestlik derecesine ve a 2 hata payına göre t tablo değerleri bulunur. s12 s22 s12 s 22 Pr X1 X 2 t α/2,n1n 2 2 μ1 μ 2 X1 X 2 t α/2,n1n 2 2 1 α 101 n1 1 n 2 1 n1 1 n 2 1 ÖRNEK 13 deneme sonrasında bir benzin pompası ortalama 125 ml fazla benzin ölçümü yaparken standart sapma 17 ml olmuştur.Bir başka benzin pompası ise 10 deneme sonrasında deneme başına ortalama 110 ml fazla benzin ölçümü yapılmış ve standart sapması 19 ml bulunmuştur. Anakütle ortalamaları arasındaki farkın %99 güven sınırlarını bulunuz. v 13 10 2 21 ttab 2.831 2 2 2 2 s s s s Pr X1 X2 t α/2,n1 n 2 2 1 2 μ1 μ 2 X1 X2 t α/2,n1 n 2 2 1 2 1 α n 1 n 1 n 1 n 1 1 2 1 2 17 2 19 2 (125 110) 2.831 13 1 10 1 7.68 1 2 37.68 Pompaların fazla ölçümleri arasındaki fark %99 güvenle -7.68 102 ml ile 37.68 ml arasındadır. İki Oran Farkının Güven Aralığı 1. Varsayımları İki kategorik çıktı vardır. Populasyonlar binom dağılımı gösterir. 2. Güven aralığı tahmini: Örnek oranlarından büyük olan p1 ile gösterilirse örnek oranları arasındaki farktan hareketle anakütle oranları arasındaki farkın güven sınırları aşağıdaki gibi olur. Pr p1 p 2 Zα/2 Sp1p2 P1 P2 p1 p 2 Zα/2 Sp1p2 1 a S p1 p2 p1.q1 p2 .q2 n1 n2 İki oran farkının standart sapması 103 İki Oran Farkının Güven Aralığına Örnek İki farklı ilacın bir hastalığı tedavi etme oranlarının farklı olup olmadığı kontrol edilmek istenmektedir. Bu amaçla 1000’er adet hasta üzerinde A ve B ilaçları denensin. Tedavi sonunda A ve B ilaçlarının uygulandığı hastaların sırasıyla 825 ve 760’ının iyileştiği gözlendiğine göre ilaçların hastalığı tedavi etme oranlarının farkının %95’lik güven aralığını bulunuz. n1 = 1000, n2 = 1000 S p1 p2 825 p1 0.825 1000 760 p2 0.760 1000 p1.q1 p2 .q2 0.825.(1 0.825) 0.760.(1 0.760) n1 n2 1000 1000 0.018 104 Pr p1 p2 Zα/2 Spˆ1pˆ 2 P1 P2 p1 p2 Zα/2 Sp1p2 1 a Pr 0.82 0.760 1.96 0.018 P1 P2 0.82 0.760 1.96 0.018 0.95 Pr 0.029 P1 P2 0.10 0.95 105 Eşleştirilmiş Örnek t Testi Aynı veya benzer denekler üzerinde birbirinden farklı iki işlemin uygulanması sonucu elde edilen verilere eşleştirilmiş örnekler denir. 1. İki ilişkili populasyonun ortalamasını test eder. – Çift ya da eşleştirilmiş – Tekrarlı gözlemler (önce/sonra) 2. Nesneler arasındaki varyasyonu ortadan kaldırır. Varsayımları – İki populasyon da normal dağılımlıdır. – Eğer normal değilse normale yaklaşmaktadır. (n1 30 & n2 30 ) 106 Eşleştirilmiş Örnek t Testi İki komisyoncunun aynı evlere farklı fiyatlar verdiği iddia edilmektedir. İddiayı test etmek için 12 ev seçiliyor ve komisyonculardan bu evlere 1000$ bazında fiyat vermeleri isteniyor. Elde edilen sonuçlar aşağıdaki gibidir.İki komisyoncunun fiyat ortalamaları arasındaki farka ilişkin güven aralığını hesaplayınız. Komisyoncular Evler B 1 181.0 182.0 -1.0 1.00 2 179.9 180.0 -0.1 0.01 3 163.0 161.5 1.5 2.25 4 218.0 215.0 3.0 9.00 5 213.0 216.5 -3.5 12.25 6 175.0 175.0 0.0 0.00 7 217.9 219.5 -1.6 2.56 8 151.0 150.0 1.0 1.00 9 164.9 165.5 -0.6 0.36 10 192.5 195.0 -2.5 6.25 11 225.0 222.7 2.3 5.29 12 177.5 178.0 -0.5 0.25 -2.0 40.22 Toplam D D2 A 107 D D n 2 0.167 12 D ta 2 sD 2 D D n 1 n 2 2 40.22 12 1.904 12 1 s D t D D a ,n 1 v n 1 12 1 11s.d. 2 2 s , n 1 D ttab : t11,0.05 = ± 2.201 0.167 2.201(1.904) D 0.167 2.201(1.904) 4.357 D 4.023 108 BİR POPULASYON VARYANSI İÇİN GÜVEN ARALIKLARI Bir anakütle varyansı için de güven aralığı bulmak gerekir. Bu tahminler örneklem varyansına dayanır. Varyansı 2 olan bir normal anakütleden n gözlemli rassal bir örneklem seçilsin. Örneklem varyansı da s2 ile gösterilsin. n21 (n 1) S x2 2 Rassal değişkeni, (n-1) serbestlik dereceli ki-kare dağılımına uymaktadır. Bu bulgu, normal bir dağılımdan örneklem alındığında anakütle varyansı türetilmesinin temelini oluşturur. için güven aralıklarının Örneklem varyansının gözlenen belli değeri s x2 varyansının güven aralığı aşağıdaki gibidir: ise, anakütle 2 2 n 1 S n 1 S 2 P 1a 2 2 a a , n 1 1 , n 1 2 2 Örneğin a=0.05 n=10 olsun Red Bölgesi Red Bölgesi 1-a an 2 0.975;9 an 2 0.025;9 Örnek Bir çimento fabrikasında üretilen çimentodan yapılan betonların sağlamlığının incelenmesi amacıyla 10 beton örneği alınmış ve bu örneklerin sağlamlılıkları saptanmıştır. Bu örneklerin ortalama ve varyansı x 312 s 2 195 olarak bulunmuştur. Fabrikanın ürettiği tüm betonların varyansına ilişkin güven a=0.10 aralığını hesaplayınız. 1 a 0.90 Red Bölgesi Red Bölgesi a n 2 0.95;9 3.33 a n 2 0.05;9 16.92 111 1 a 0.90 a 0.10 x 312 2 2 n 1 s n 1 s 2 P 2 2 1a a a 1 , n 1 2 2 ,n1 9 195 9 195 2 P 2 2 0.90 0.95;9 0.05;9 3.33 s 2 195 1-a an 16.92 S2 103.72 9 195 9 195 2 P 0.90 3.33 16.92 P 103.72 2 527.02 0.90 527.02 112 ÖRNEK Denenen bir motorun 16 deneme sürüşündeki yakıt tüketimlerinin standart sapması 2.2 golondur. Motorun yakıt tüketiminin gerçek değişkenliğini ölçen anakütle varyansının % 99 güven aralığını hesaplayınız. n=16 Red Bölgesi s=2.2 Red Bölgesi an an 2 2 (n 1) s (n 1) s 2 P 2 2 1a a a 2 ,n 1 1 , n 1 2 n=16 a2 2 ,n 1 2 a 1 ,n1 2 a 0.01 s=2.2 2 0.005,15 32.80 2 0.995,15 4.60 2 2 (n 1) s (n 1) s P 2 2 2 1a a a 2 ,n 1 1 , n 1 2 2 15(2.2) 2 15 ( 2 . 2 ) 2 P 0.99 4.60 32.80 P 2.21 2 15.78 0.99 İKİ POPULASYON VARYANSININ KARŞILAŞTIRILMASI Normal dağılımlı iki populasyonun varyanslarının oranı F dağılımına uymaktadır. F dağılışı simetrik olmayan bir dağılıştır. Bu nedenle güven aralığının hesaplanmasında her iki F değeri için F tablosuna bakmak gerekmektedir. s12 12 Fn1 1,n 2 1 2 s2 22 s12 / 12 PF a 2 2 Fa 1a ; n1 1, n2 1 2 1 2 ;n1 1,n2 1 s2 / 2 s12 12 s12 P 2 F a 2 2 Fa 1a s2 1 2 ;n1 1,n2 1 2 s2 2 ;n1 1,n2 1 115 F a 1 ;n1 1, n2 1 2 1 Fa 2 ;n2 1, n1 1 s12 12 s12 P 2 F a 2 2 Fa 1a s2 1 2 ;n1 1,n2 1 2 s2 2 ;n1 1,n2 1 2 2 2 1 1 s1 s1 P 2 2 2 Fa 1a s2 Fa 2 s2 2 ;n1 1,n2 1 ; n2 1, n1 1 2 116 İKİ POPULASYON VARYANSININ KARŞILAŞTIRILMASI Normal dağılımlı iki populasyonun varyanslarının oranına ilişkin güven aralığı : 0 F1-α / 2;n1 1,n 2 1, Fα / 2;n1 1,n 2 1, F 2 2 2 1 1 s1 s1 P 2 2 2 Fa 1a s2 Fa 2 s2 2 ;n1 1,n2 1 ; n2 1, n1 1 2 117 İKİ POPULASYON VARYANSININ KARŞILAŞTIRILMASI Aşağıda verilen bilgiler yardımıyla pazara sunulan iki ayrı bağımsız hisse senedinin değişkenliklerinin oranına ilişkin çift yönlü güven aralığını bulunuz. s12 123.38 n1 17 a 0.02 n2 11 s22 8.02 2 2 2 1 1 s1 s1 P 2 2 2 Fa 1a s2 Fa 2 s2 2 ;n1 1,n2 1 ; n2 1, n1 1 2 F a 1 ;n1 1, n2 1 2 1 Fa 2 F0.99;16,10 1 F0.01;10,16 ;n2 1, n1 1 1 0.271 3.69 Fa 2 ; n1 1, n2 1 F0.01,16.10 4.56 118 S12 123.38 n1 17 n2 11 S 22 8.02 s12 1 12 s12 P 2 2 2 F0.01;16,10 1 a s2 F0.01;10,16 2 s2 123.38 1 12 123.38 P 2 4.56 1 a 8.02 8.02 3.69 2 12 P 15.38(0.271) 2 15.38(4.56) 0.98 2 12 P 4.168 2 69.67 0.98 2 119 ÖRNEK Pazara yeni sürülmüş on yedi AAA dereceli sınai tahvilden oluşan rassal bir örneklemde vadelerin varyansı 123.35’dir. Onbir yeni CCC dereceli sınai tahvilden oluşan bağımsız bir rassal örneklemde vadelerin varyansı 8.02’dir. Bu iki tahvilin değişkenliklerinin %90 güven aralığını bulunuz. n1=17 n2=11 s12=123.35 s22=8.02 n1-1=16 n2-1=10 sd. 2 2 2 1 1 s1 s1 P 2 2 2 Fa 1a s2 Fa 2 s2 2 ;n1 1,n2 1 ; n2 1, n1 1 2 F0.05,10,16 2.49 F0.05,16,10 2.85 s12 123.35 15.38 2 s2 8.02 F0.05,10,16 2.49 F0.05,16,10 2.85 2 2 2 1 1 s1 s1 P 2 2 2 Fa 1a s2 Fa 2 s2 2 ;n1 1,n2 1 ; n2 1, n1 1 2 1 12 P 15.38( ) 2 15.38(2.85) 0.90 2.49 2 12 P 15.38(0.402) 2 15.38(2.85) 0.90 2 12 P 6.18 2 43.83 0.90 2 121