İTİCÜ Mühendislik ve Tasarım Fakültesi Endüstri Mühendisliği Bölümü İSTATİSTİK VE OLASILIK I 10. Hafta: Örnekleme Teorisi Öğr. Gör. Berk Ayvaz 2013 Örnekleme Teorisi 1. 2. Modern istatistiğin en önemli görevi, anakütle parametrelerinin örneklem değerleri (örnek istatistikleri) yardımıyla tahmin edilmesine imkan sağlamaktır. Uygulamada, bütün anakütlenin incelenmesi çoğu zaman mümkün olmamaktadır. Bunun yerine söz konusu anakütleden alınan bir rassal örneklemin incelenmesi yoluna gidilmektedir. Elde edilen örnek değerlerinin anakütle parametresi yerine kullanılabilmesi için iki önemli şart vardır. Anakütledeki her birimin örneğe girme şansının eşit olmasıdır. Örneğin yeterince büyük olmasıdır. Bu ikinci şarta göre anakütle büyüdükçe örneğin de büyük tutulması gerekecektir. Örnekleme Teorisi Örnekleme ya iadeli veya iadesiz olur. Çekilen birimin anakütleye tekrar iade edilmesi halinde iadeli örnekleme, aksi halde iadesiz örnekleme söz konusudur. Herhangi bir anakütle birimi, iadeli örneklemede örneğe bir kaç kere girebileceği halde, iadesiz örneklemede bir kere girer. Örnekleme ya sınırlı veya sınırsız anakütleler için yapılır. Örneklemenin iadeli olarak yapıldığı sınırlı bir anakütle sınırsız kabul edilir. Örnekleme Teorisi Bir anakütleden alınan RASSAL örneklerin her birisi için örnek istatistikleri hesaplandığında örnek dağılımları ortaya çıkar. Mesela her bir örneğin ortalaması hesaplanmışsa elde edilen X dağılımı ortalamaların örnek dağılımıdır. Aynı şekilde, her örnek için p oranları hesaplandığında oranların örnek dağılımı elde edilmiş olur. İki ayrı anakütlenin karşılaştırılması sözkonusu olduğunda ise farklarla ilgili örnek dağılımları ortaya çıkar. Her iki anakütleden alınan nA ve nB büyüklüğündeki örneklerin ortalamaları hesaplanmış ve bu 𝑋𝐴 ve 𝑋𝐵 değerleri arasındaki farklar tesbit edilmişse elde edilen dağılım ortalamalar arası farkların örnek dağılımıdır. Aynı şekilde, bu anakütlelerden alınan örnekler için oranlar hesaplanmış ve bu oranların anakütleler itibariyle gösterdikleri farklılıklar ortaya konulmuşsa elde edilen dağılım oranlar arası farkların örnek dağılımıdır. Ortalamaların Örnek Dağılımı Ortalamaların örnek dağılımının ortalaması anakütle ortalamasının iyi bir tahmincisidir. Herbiri n hacimli çok sayıda örneğe ait ortalamaların gösterdiği dağılımın değişkenliği tek örneğin değişkenliğinden daha az olacaktır. Ortalamaların örnek dağılımının değişkenliği standart hata terimiyle ifade edilir. Aşırı değerlerin etkisinin önemli ölçüde yok edilmesi, ortalamaların örnek dağılımının değişkenliğini azaltıcı bir faktördür. Anakütle standart sapması biliniyorsa standart sapma (standart hata), 𝛔𝐱 𝛔𝐱 = 𝐧 𝐧 eşitliği ile hesaplanır. Bu formül n≥ 𝟑𝟎 𝐲𝐚𝐝𝐚 𝐍 ≤ 𝟎. 𝟎𝟓 𝐢𝐬𝐞 𝐤𝐮𝐥𝐥𝐚𝐧ı𝐥ı𝐫. Standart hata ortalamanın örnekleme dağılımının değişkenliğini gösterir. Anakütle standart sapması bilinmiyor ve büyük örnek standart sapması, anakütle standart sapmasının yerine kullanılıyorsa, anakütle standart hatasının tahmini değeri, 𝐬𝐱 𝐬𝐱 = 𝐧 Ortalamaların Örnek Dağılımı Sınırlı anakütleden iadesiz örnekleme yapılmışsa ve yukarıdaki standart hata değerleri ≥ 𝟎. 𝟎𝟓 ise düzeltme faktörü ile çarpılır. Standart Z değerleri, 𝑧= 𝑁−𝑛 𝑁−1 𝐧 𝐍 𝑋−𝜇𝑥 𝜎𝑥 formülü ile hesaplanır. Ortalamaların örnek dağılımında X değerlerinin yerini değerinin yerini X ve 𝜎𝑥 değerinin yerini 𝛔𝐱 alır. Bu yüzden herhangi bir X değerinin standart Z değerine dönüştürmesinde aşağıdaki formül kullanılır. 𝑧= X−𝜇𝑥 σx Örnek 1 a) b) Şehirlerarası telefon görüşmeleri 𝝁𝒙 = 8 dk ortalama ve 𝝈𝒙 = 2 dk standart sapma ile normal dağılım göstermektedir. Tesadüfi olarak 49 şehirlerarası telefon görüşmesi seçildiğinde; Ortalamaların örnek dağılımının standart hatası ne olur? Örnek ortalamalarının % kaçı 7.8 dk ile 8.4 dk arasında olur? Çözüm 1 a) σx = b) 𝑍1 = σx 2 = = 0.29 49 n X−𝜇𝑥 𝑍2 = σx = X−𝜇𝑥 σx 7.8−8 0.29 = =-0.69 8.4−8 0.29 =1.38 Örneklem ortalamalarının 7.8 dk ile 8.4 dk arasında olma ihtimali; P(7.8≤ 𝑋 ≤ 8.4)=P (-0.69 ≤Z ≤1.38) = 0.2549+0.4162=0.6711 Örnek 2 Türk telekomda çalışan bir operatörsünüz. Uzun mesafeli telefon görüşmeleri = 8 dk. & = 2 dk. İle normal dağılmakta. Eğer 25 aramalık örnekler seçerseniz örnek ortalamalarının % kaçı 7.8 & 8.2 dk. arasında olacaktır? Çözüm 10 2 X 7.8 8 Z .50 n 2 25 Örnekleme dağılımı Z X X = .4 n 8.2 8 2 25 .50 Standart normal dağılım Z = 1 .3830 .1915 .1915 7.8 8 8.2 X -.50 0 .50 Z Örnek 3 Bir sanaayi kuruluşunda çalışanların gündelikleri 800 TL ortalama ve 90 TL standart sapmaya sahiptir. Rasgele seçilen 81 işçinin gündeliklerinin ortalamasının 810 TL ile 825 TL arasında olma olasılığı nedir? Çözüm 3 Örnek 4 Bir üreticiye göre rulmanların ömrü ortalaması 36.000 standart sapması 4.000 mil olan bir normal dağılıma uymaktadır. 16 rulman içeren rassal bir örneklemde ortalama ömür 34.500 mildir. Buna göre rassal seçilen bir rulmanın ortalama değerde yada daha düşük ömre sahip olma olasılığı nedir? Çözüm 4 =1-0,9332=0,0668 Merkezi Limit Teoremi 15 Bir populasyon parametresini tahminlemek için şans değişkenleri kullanılır: Örnek ortalaması, örnek oranı, örnek medyanı… Örnek hacmi arttıkça (n 30) ... Merkezi Limit Teoremi Örnekleme dağılışı normal dağılıma yaklaşır. X Merkezi Limit Teoremi Evrenin dağılım şekli ne olursa olsun, basit rassal örneklem hacmi büyüdükçe, X dağılımının örneklem dağılımı normal dağılıma yaklaşır. 𝝈𝟐 𝒏 Bu dağılımın ortalaması μ, varyansı Örneklem hacmi n için yeterli büyüklük, kesin olmamakla birlikte uygulamada n ≥ 30 birim olarak kabul edilmektedir. Eğer X ortalaması μ ve varyansı 𝜎 2 olan normal dağılımlı bir evrenden seçilmiş n hacimlik basit bir rassal örneklemin ortalaması ise X ‘nın ′dir. örnekleme dağılımı ortalaması μ, varyansı dağılımdır. X rassal değişkenin dağılımı normal olduğunda; 𝑿𝒊 − 𝝁 𝒁𝒊 = 𝝈 𝒏 𝜎2 𝑛 olan bir normal Merkezi Limit Teoremi Eşitliğiyle standart değişkene dönüştürülür. Böylece, normal dağılımın özellikleri kullanılarak örneklem aritmetik ortalamasından anakütle aritmetik ortalaması hakkında bilgi üretmek kolaylaşır. Normal dağılan bir anakütleden, rassal olarak seçilebilecek birbirinden farklı n < 30 birimlik mümkün bütün örneklemlerin 𝑥−𝜇 seçildiğini, her örneklem için 𝑋𝑖 leri ve onların standart 𝑠𝑥 değerlerini hesaplandığını düşünelim. 𝑥−𝜇 Değerler aralığı − ∞ < < +∞ olan istatistiğin dağılımı (n-1) 𝑠𝑥 serbestlik derecesi (sd = n-1) ile t dağılımı adı verilen sürekli bir dağılım gösterir ve bu istatistik; 𝒕= Burada; 𝑺𝑿 = 𝒔 𝒏−𝟏 𝒙−𝝁 𝑺𝑿 şeklinde hesaplanır. Merkezi Limit Teoremi t dağılımı ortalaması sıfır olan tek modlu ve simetrik bir dağılımdır. Dağılımın şekli standart normal dağılıma benzer fakat değişkenliği daha büyüktür. Bu değişkenlik serbestlik derecesi ile ters orantılıdır. Örneklem hacmi artarken (sd = n-1)büyür, t değerinin hesaplanmasında 𝑆𝑋 nin kullanılması nedeniyle ortaya çıkan değişkenlik küçülür ve t dağılımı standart normal dağılıma (z dağılımına) yaklaşır. Örnek 5 Otomobil lastiği üreticisi bir fabrikanın yöneticisi ürettikleri lastiklerin ortalama ömrünü lastiklerin katettiği km olarak tahmin etmek istiyor. Bu amaçla rassal olarak 100 lastik seçilmiş ve bu lastiklerin ortalama ömrünün X = 40000 km ve standart sapmasının s=15000 km olduğu tespit edilmiştir. Yönetim, ürettikleri lastiklerin 35000 Km ömürlü olmasını planlamıştır. Bu bilgileri kullanarak; a) X’ nın örnekleme dağılımının ortalamasını hesaplayınız. b) İstenen tahminleme yapılırken işlenebilecek hata nedir? c) X’ nın standart z değerini hesaplayınız. Çözüm 5 E (X ) = μ = 4000 km n= 100 lastik olduğu için standart hata (n≥ 30 birim) anakütle standart sapması bilinmediği için SX = s 15000 = n 100 = 150 km hesaplanır. Üretilen lastiklerin tümünün ömrünü yukarıdaki verilere göre tahminlerken işlenebilecek hata düzeyi 150 km’dir bilgisi elde edilebilir. Zi = X−μ Sx 40000−35000 =33,3 150 = Oranların Örnek Dağılımı Oranların örnek dağılımının ortalaması, anakütle oranına eşittir. Bir örnekten elde edilen oranı p ve anakütle oranını P ile görterirsek, oranların örnek dağılımının standart hatasını, 𝛔𝒑 = eşitliği ile elde ederiz. Sınırlı anakütlelerde yapılan iadesiz örneklemeler için standart hatanın düzeltme faktörü ile çarpılması gerekir. Bir örnek oranının standart Z değeri, 𝒛= 𝑷(𝟏 − 𝑷) 𝒏 eşitliği ile hesaplanır. 𝒑−𝑷 𝑷(𝟏−𝑷) 𝒏 Örnek 6 Büyük bir alış-veriş merkezinde 15 TL’dan alışveriş yapan müşterilerin %30’unun kredi kartı kullandığı tesbit edilmiştir. 15 TL’dan fazla alışveriş yapan 100 müşteri için oranların örnek dağılımının standart hatası ne olur? 15 TL’dan fazla alışveriş yapan 100 müşteriden %20 ile %25’inin kredi kartı kullanması ihtimalini bulunuz. Çözüm 6 a) σp = b) 𝒁𝟏 = 𝒁𝟐 = P(1−P) = n 𝒑−𝑷 𝑷(𝟏−𝑷) 𝒏 𝒑−𝑷 𝑷(𝟏−𝑷) 𝒏 = = 0.3(1−0.3) =0.0458 100 𝟎.𝟐−𝟎.𝟑 0.3(1−0.3) 100 𝟎.𝟐𝟓−𝟎.𝟑 0.3(1−0.3) 100 = -2.18 = -1.09 P(0.2 ≤ 𝑋 ≤ 0.25)=P (-2.18 ≤Z ≤-1.09) = 0.4854+0.3621=0.1233 Örnek 7 Bir imalatçı herbiri 100 elektrik ampülünden meydana gelen 1000 koli ampül gönderiyor. Ampüllerin %95 ’i sağlam olduğuna göre kolilerin kaç tanesinde, a) 90 taneden az sağlam ampül b) 98 veya daha fazla sağlam ampül çıkacağını hesaplayınız. Çözüm 7 a) σp = P(1−P) = n 0.95(1−0.95) 100 =0.0218 100 üründen 90’ı yani p = 0,90 için; 𝒁 = b) 𝒑−𝑷 𝑷(𝟏−𝑷) 𝒏 = 𝟎.𝟗𝟎−𝟎.𝟗𝟓 0.95(1−0.95) 100 = -2.29 P(𝑍 ≤ −2.29)=0,011 p=0,98 için; 𝒁 = 𝒑−𝑷 𝑷(𝟏−𝑷) 𝒏 = 𝟎.𝟗𝟖−𝟎.𝟗𝟓 0.95(1−0.95) 100 P(𝑍 ≥1.38)=0,0838 = 1.38 Ortalamalar Arası Farkların Örnek Dağılımı Ortalamalar arasındaki farkın örnek dağılımı sözkonusu olunca dağılımın ortalamasını 𝜇1 − 𝜇2 ve standart hatasını 𝜎𝑥1−𝑥2 ile gösterebiliriz. σ1 , birinci anakütlenin standart sapmasını; σ2 ise ikinci anakütlenin standart sapmasını; 𝑛1 birinci anakütle için ömek büyüklüğünü; 𝑛2 ise ikinci anakütle için örnek büyüklüğünü ifade ederse, ortalamalar arası farkların ömek dağılımının standart hatası, 𝛔𝐱𝟏 −𝐱𝟐 = 𝒁= 𝛔𝟏 𝟐 𝐧𝟏 + 𝛔𝟐 𝟐 𝐧𝟐 𝑿𝟏 − 𝑿𝟐 − (𝝁𝟏 − 𝝁𝟐 ) 𝝈𝟏 𝟐 𝝈𝟐 𝟐 + 𝒏𝟏 𝒏𝟐 Anakütle varyanslarının varyansları kullanılır. bilinmemesi durumunda örneklem Örnek 8 İki farklı un fabrikasında paketlenen standart 1 kg’lık un paketleri test edilmiş ve birinci fabrikadan alınan 100 paketin ortalaması 1.03 kg, standart sapması 0.04 kg; ikinci fabrikadan alınan 120 paketin ortalaması 0.99 kg, standart sapması 0.05 kg bulunmuştur. a) Anakütle standart sapmaları bilinmediği için örnek standart sapmalarından hareketle ortalamalar arası farkın standart hatasını bulunuz. b) Ortalamalar arasındaki farkın X1 − X 2 = 0.05 kg’dan fazla olması ihtimalini bulunuz. Çözüm 8 a) σx1 −x2 = b) Z= σ1 2 n1 + σ2 2 n2 X1 −X2 −(μ1 − μ2 ) σ1 2 n1 + σ2 2 n2 = = 0.042 100 + 0.05 =1,17 0.006 0.052 120 = 0.085 Her iki anakütlenin ortalaması 1 kg olduğu için μ1 − μ2 =0 dır. P[(X1 − X2 ) > 0.05] = P Z > 1,17 = 0,121 Örnek 9 A ve B firmalarının ürettikleri kabloların ortalama kırılma gücü sırasıyla 200 kg ve 180 kg, standart sapmaları ise 13,5kg ve 9kg’dir. A marka 100 parça kablo ile B marka 50 parça kablo teste tabi tutulduğunda A’nın ortalama kırılma gücünün B’den; En fazla 17 kg fazla, En az 15 kg fazla olma olasılığı nedir? Çözüm 9 a) σx1−x2 = Z= σ1 2 n1 + σ2 2 = n2 X1 −X2 −(μ1 − μ2 ) σ1 2 n1 + σ2 2 n2 13.52 100 + 17−20 = 1.86 = 92 50 = 1.86 -1.61 P[(X1 − X2 ) ≤ 17] = P Z ≤ −1.61 = 𝟎. 𝟎𝟓𝟑𝟕 b) Z= X1 −X2 −(μ1 − μ2 ) σ1 2 n1 + σ2 2 n2 15−20 = 1.86 = -2.69 P[(X1 − X2 ) > 17] = P Z > −2.69 = 𝟎. 𝟗𝟗𝟔𝟒 Oranlar Arası Farkların Örnek Dağılımı Bu dağılımın ortalaması P1 − P2 ve standart hatası, 𝝈𝑷𝟏 −𝑷𝟐 = eşitliği ile hesaplanır. Birinci anakütleden alınan örneğin hacmi n1 ve ikinci anakütleden alınan örneğin hacmi ise n2 ile gösterilmiştir. İki örnek oranı arasındaki farka ait Z değerleri, 𝒁= 𝑷𝟏 (𝟏 − 𝑷𝟏 ) 𝑷𝟐 (𝟏 − 𝑷𝟐 ) + 𝒏𝟏 𝒏𝟐 𝒑𝟏 − 𝒑𝟐 − (𝑷𝟏 − 𝑷𝟐 ) 𝑷𝟏 (𝟏 − 𝑷𝟏 ) 𝑷𝟐 (𝟏 − 𝑷𝟐 ) + 𝒏𝟏 𝒏𝟐 formülü yardımıyla hesaplanır, p değerleri örneklerden elde edilen oranları gösterir. Örnek 10 Birinci fabrikadaki kusurlu mamul oranının 0.08 ve ikinci fabrikadaki kusurlu mamul oranının 0.05 olduğu bilinmektedir. Tesadüfi olarak birinci fabrikadan 100, ikinci fabrikadan 150 mamul seçilmiş ve birinci örnekteki kusurlu mamul oranı 0.09, ikinci örnekteki kusurlu mamul oranı 0.06 olarak gözlenmiştir. a) Buna göre kusur oranları arasındaki farkın standart hatasını bulunuz. b) Fabrikalardaki kusurlu mamul oranları arasındaki farkın en fazla 0.01 olması ihtimalini hesaplayınız. Çözüm 10 a) σP1−P2 = P1 (1−P1 ) + n1 P2 (1−P2 ) n2 = 0.08(1−0.08) + 100 0.05 (1−0.05) 150 = 0.0324 b) Z= p1 −p2 −(P1 −P2 ) P1 (1−P1 ) P (1−P2 + 2 n1 n2 = ) 0.01−0.03 0.0324 = - 0.62 Buna göre kusurlu mamul oranları arasındaki farkın en fazla 0.01 olması ihtimali, P(Z ≤-0.62) = 0.5 - 0.2324 = 0.2676 Örnek 11 A fabrikasında imal edilen pillerin %80’i 200 saatin üzerinde performans sağlarken, B fabrikasında üretilen pillerin %73’ü 200 saatin üzerinde performans sağlayabilmektedir. A fabrikasından 50 ve B fabrikasından 60 pil incelemeye tabi tutulursa performans oranları arasındaki farkın en az %10 olma ihtimali nedir? Çözüm 11 a) σP1−P2 = P1 (1−P1 ) + n1 P2 (1−P2 ) n2 = 0.8(1−0.8) + 50 0.0805 b) Z= p1 −p2 −(P1 −P2 ) P1 (1−P1 ) P2 (1−P2 + n1 n2 = ) P(Z > 0.37) = 0.3557 0.1−0.07 0.0805 = 0.37 0.73 (1−0.73) 60 =