Anakütle Dağılımları İstatistik ve Olasılık Ders 5: Rastgele Değişkenlerin Dağılımları II Prof. Dr. İrfan KAYMAZ Erzurum Teknik Üniversitesi Anakütle Dağılımları Sık Kullanılan Dağılımlar Frekans tablolarına dayalı histogram ve frekans poligonları, verilerin dağılımı hakkında genel bilgiler vermektedir. Yapılan araştırmalardan elde edilen verilere ait dağılımın şeklinin ve dağılım fonksiyonunun ampirik olarak belirlenmesi kolay değildir. Bu nedenle, verilerin özelliklerine göre uygunluk gösterecekleri bazı anakütle dağılımları teorik olarak geliştirilmiştir. Bazı önemli anakütle dağılımları: Kesikli Anakütle Dağılımları Kesikli düzgün dağılım Sürekli Anakütle Dağılımları Sürekli düzgün dağılım Bernoulli dağılımı Normal dağılım Binom dağılımı Üstel dağılım Poisson dağılımı Lognormal dağılım Hipergeometrik dağılım Gamma dağılımı Negatif binom dağılımı Ki-kare dağılımı .................... .................... .................... .................... Erzurum Teknik Üniversitesi Binom Dağılımı Anakütle Dağılımları Kesikli dağılımların en yaygın kullanılanıdır. Atılan bir paranın yazı veya tura gelmesi, Montajdaki parçanın toleransa uygunluğu ve uygunsuzluğu öğrencinin bir dersten başarılı veya başarısız olması gibi iki sonuçlu olayların olasılığının hesaplanmasında kullanılır. Binom dağılımına uyması için aşağıdaki şartları sağlaması gerekir: Deneme belirli sayıda (n) tekrarlanır. Her deneyin başarılı ve başarısız olmak üzere iki sonucu vardır. Deneyler birbirinden bağımsızdır. Başarı olasılığı (p) ve başarısızlık olasılığı q=1-p dir. n deneyde elde edilen başarılı sonuçlar x değişkenine atanır. Erzurum Teknik Üniversitesi Binom Dağılımı Anakütle Dağılımları Binom dağılımın olasılık fonksiyonu: Binom dağılımının ortalaması ve varyansı ise aşağıdaki formüllerle hesaplanır. Erzurum Teknik Üniversitesi Binom Dağılımı Anakütle Dağılımları Örnek 1: a)10 yazı/tura atmada 4 yazı gelme olasılığını hesaplayınız b)Bir zarın 20 kez atılması durumunda tam 12 kez altı gelme olasılığını hesaplayınız. Örnek 1 ÇÖZÜM: a) Binom dağılımın uygun olduğu rastgele olaylarda başarılı ve başarısız olarak iki durumun olduğu olaylarla ilgilenildiğinden: başarılı: yazı gelmesi (p=0.5) başarısız: yazı gelmemesi (q=0.5) Olarak tanımlama yapılabilir. n=10;X=4 olduğundan istenilen olasılık: Erzurum Teknik Üniversitesi Binom Dağılımı Anakütle Dağılımları Örnek 1 ÇÖZÜM: b) başarılı: 6 gelmesi (p=1/6) başarısız: yazı gelmemesi (q=5/6) Olarak tanımlama yapılabilir. n=20;X=12 olduğundan istenilen olasılık: Erzurum Teknik Üniversitesi Poisson Dağılımı Anakütle Dağılımları İlgilenilen zaman aralığı, uzunluk veya hacimde sık sık karşılaşılmayan olayların özel durumları için geliştirilen dağılımdır. Örneğin: belirli bir trafik noktasında meydana gelen trafik kazası sayısı, 1 m2 kumaştaki kusur sayısı, 1 cm3 kandaki anormal hücre sayısı,......vb sayılabilir. Poisson dağılımının olasılık fonksiyonu aşağıda verilmiştir. 2 np olarak ifade edildiğinden dağılımın tek parametresi olduğu söylenebilir. Erzurum Teknik Üniversitesi Anakütle Dağılımları Poisson Dağılımı Örnek 2: Bir sınıftaki öğrenciler üzerine yapılan bir araştırmada dersi dinlemeyen öğrenci sayısının ortalama olarak 3 kişi olduğu belirlenmiştir. Herhangi bir derste; a) En az bir kişinin dersi dinlememesi olasılığını hesaplayınız. b) En fazla iki kişinin dersi dinlememesi olasılığını hesaplayınız Örnek 2 Çözüm: Dersi dinlememek nadiren karşılaşılan bir olay! olduğu için poisson dağılımı kullanılmalıdır. np 3 olup bu olaya ait poisson olasılık fonksiyonu : e 3 3 X P( X ) X! . Erzurum Teknik Üniversitesi Sürekli Rastgele Değişken Dağılım Anakütle Dağılımları En sık kullanılan sürekli rastgele değişkenlere ait Anakütle Dağılımları Sürekli Anakütle Dağılımları Sürekli düzgün dağılım Normal dağılım Üstel dağılım Lognormal dağılım Gamma dağılımı Ki-kare dağılımı .................... .................... Erzurum Teknik Üniversitesi Düzgün (Üniform) Dağılım Anakütle Dağılımları X sürekli rastgele değişken belirli bir aralıktaki her değerinin meydana gelme olasılığı eşit ise bu rastgele değişkenin dağılım düzgün (Ünifrom) dağılımdır. Ünifrom dağılıma ait olasılık fonksiyonu: Erzurum Teknik Üniversitesi Düzgün (Üniform) Dağılım Anakütle Dağılımları Örnek 3 : Süper marketteki kasaya 30 dakikalık periyotta bir müşteri gelmiştir. Bu müşterinin son 5 dakikada gelmiş olma ihtimalini hesaplayınız. Örnek 3 ÇÖZÜM : Olasılık yoğunluk fonksiyonu: Erzurum Teknik Üniversitesi Düzgün (Üniform) Dağılım Anakütle Dağılımları ÜNİFORM DAĞILIM İLE İLGİLİ MATLAB KOMUTLARI [a, b] aralığında üniform dağılmış rasgele değişkenin bu aralık içerindeki herhangi bir x değerini alma ihtimali unifcdf komutu ile hesaplanır. Örneğin bir önceki örnek aşağıda verilen MATLAB komutu yardımıyla kolaylıkla hesaplanabilir: prob=unifcdf(5,0,30) Erzurum Teknik Üniversitesi Normal Dağılım Anakütle Dağılımları Sürekli olasılık dağılımlarının en önemlisi ve en çok kullanılanı normal dağılımdır. Normal dağılıma, bu dağılımı geliştiren kişilerin isimlerine atfen Gauss-Laplace dağılımı, Eğrinin biçimine izafeten de çan eğrisi de denilmektedir. Evrendeki birçok olay normal dağılıma uygunluk gösterdiğinden yapılan araştırmalarda elde edilen verilerin değerlendirilmesinde çok yaygın olarak kullanılmaktadır. Erzurum Teknik Üniversitesi Normal Dağılım Anakütle Dağılımları Normal dağılımın olasılık yoğunluk fonksiyonu Normal yoğunluk fonksiyonu iki parametreye sahiptir: ortalama standart sapma Normal dağılım fonksiyonu ve kümülatif dağılım fonksiyonu grafiksel olarak aşağıda verilmiştir. Erzurum Teknik Üniversitesi Normal Dağılım Anakütle Dağılımları Ortalama ve Standart sapma değerlerine bağlı olarak Normal dağılımın yeri ve biçimi değişmektedir. Örneğin: Aşağıda şekilleri verilen A, B ve C normal dağılmış rastgele değişkenler arasında: Erzurum Teknik Üniversitesi Anakütle Dağılımları Normal Dağılım Normal dağılımın süreklilik özelliğinden dolayı X rastgele değişkeninin sadece belirli bir aralıkta değer alması söz konusudur. İlgilenilen aralıkta değer alma olasılığı, olasılık yoğunluk fonksiyonunun entegrali ile elde edilir. Örneğin: P( a X b) olasılığını hesaplamak için işlemi yapılmalıdır. Görüleceği üzere oldukça fazla işlem yükü gelmektedir. İşlem yükünü azaltmak için bu dağılım yerine geliştirilen standart normal dağılım kullanılmaktadır. X rastgele değişkeni normal dağılıyorsa aşağıdaki şeklinde gösterilir: X ~ N( ; 2 ) . Erzurum Teknik Üniversitesi Standart Normal Dağılım Anakütle Dağılımları X normal değişkeni sonsuz değer alabileceğinden nümerik olarak çözüm elde edilebilmesi için normal dağılmış rastgele fonksiyon standart normal dağılmış rastgele değişkene dönüştürülür: Standart normal dağılım: ortalaması 0 ve varyansı 1 olacak şekilde dönüşüm yapılır: Bu ifade normal rastgele değişkenin olasılık yoğunluk fonksiyonun yazılırsa standart normal değişkene ait olasılık yoğunluk fonksiyonu elde edilir: belirli entegraline eşit olur. Erzurum Teknik Üniversitesi Standart Normal Dağılım Anakütle Dağılımları Dağılımın genel özellikleri dikkate alınarak standart normal değişken (Z) için integralleri hesaplanarak standart normal dağılımla ilgili tablolar hazırlanmıştır. Erzurum Teknik Üniversitesi Standart Normal Dağılım Anakütle Dağılımları Z tablosu olarak adlandırılan bu tablolar farklı şekillerde düzenlenmektedir. Bu ders kapsamında kullanılacak olan tablo P(Z > z0) olasılığını vermektedir. Verilen tablo yardımıyla normal dağılıma ait her türlü olasılık hesaplanabilmektedir. Ayrıca, dağılım simetrik olup dağılımın tepe noktasının yatay ekseni kestiği noktanın koordinatı sıfırdır (dağılımın ortalamasıdır) ve eğri altında kalan alanın değeri 1’e eşittir. Dağılım simetrik olduğu için P(Z > 0) = P(Z < 0)= 0.5 dir. Bu nedenle, ortalamanın sağında kalan kısmı tablolarda verilmekte, diğer yarısının aynı olduğu bilinmektedir. Erzurum Teknik Üniversitesi Standart Normal Dağılım Anakütle Dağılımları İstenen X rastgele değişkeninin belirli aralıkta değer alma olasılığını hesaplamak için izlenecek yaklaşımlar şöyle özetlenebilir: 1. Verilen a < X < b aralığı m < Z < n aralığına dönüştürülür. Yani, Bu amaçla Z X dönüşümü kullanılır. 2. Karşı gelen P(m<Z<n) değeri tablo yardımıyla belirlenir. Öyle ise P(A<X>b): hesaplanır. Erzurum Teknik Üniversitesi Olasılık Tabloların okunuşu Anakütle Dağılımları Z tablosundan istenilen olasılık değeri bulunulurken verilen değer; tamsayı kısmı ile birinci ondalık kısmı ikinci ondalık kısmı olmak üzere iki parçaya ayrılır Z tablosundan bir olasılık değeri okumak için aşağıdaki adımlar takip edilir: 1. tamsayı kısmı ile birinci ondalık kısmı düşey eksende işaretlenir. 2. ikinci ondalık kısmı için yatay eksende eksende işaretlenir. 3. Bu değerlere yatay ve düşey eksende karşı gelen değerlerin kesiştiği hücredeki değer aranan olasılık değeridir. Erzurum Teknik Üniversitesi Normal Dağılım-MATLAB Anakütle Dağılımları NORMAL DAĞILIM İLE İLGİLİ MATLAB KOMUTLARI Normal dağılmış bir rastgele değişkenin belirli bir X değerine karşılık olasılık yoğunluk fonksiyonu değeri aşağıdaki komut yardımıyla hesaplanır: P = normpdf(X,MU,SIGMA) Burada MU ve SIGMA sırasıyla normal dağılmış rastgele değişkenin ortalamasını ve standart sapma değerini göstermektedir. Normal dağılmış rastgele değişkenin – ile belirli bir x değerini alma olasılığı P(X<x) = normcdf(X,MU,SIGMA) P olasılığını veren - dan X’e olasılık hesabında X rastgele değişkeni belirlemek X = norminv(P,MU,SIGMA) Erzurum Teknik Üniversitesi Anakütle Dağılımları Normal Dağılım-MATLAB Standart normal dağılmış bir fonksiyona ait olasılık hesaplamaları için normcdf komutu aşağıdaki şekilde verilmedir. P = normcdf([Z]) Probability Between Limits is 0.81859 0.4 Verilen iki sınır değer arasında normal rastgele değişkene ait olasılık dağılım fonksiyonunu çizmek için: 0.35 0.3 [p,h] = normspec(specs, mu, sigma) Density 0.25 0.2 0.15 Burada specs: limit değerleri göstermektedir. p: olasılık değerini göstermektedir. 0.1 0.05 0 -4 -3 -2 -1 0 Critical Value 1 2 3 4 Erzurum Teknik Üniversitesi Örnekler Anakütle Dağılımları Örnek 4 : Eğer Z standart normal dağılmış bir rastgele değişken ise aşağıdaki olasılıkları grafiksel olarak gösterip hesaplayınız. a) P(0<=Z<=2) b) P(-2<=Z<=2) c) P(0<=Z<=1.53) d) P(0.28 < Z < 1.28) Erzurum Teknik Üniversitesi Anakütle Dağılımları Örnekler Örnek 4 ÇÖZÜM: a) P(0<=Z<=2) MATLAB komutu: normspec([0,2],0,1) Probability Between Limits is 0.47725 0.4 0.35 0.3 Density 0.25 0.2 0.15 0.1 0.05 0 -4 -3 -2 -1 0 Critical Value 1 2 3 4 Erzurum Teknik Üniversitesi Anakütle Dağılımları Örnekler Örnek 4 ÇÖZÜM: b) P(-2<=Z<=2) MATLAB komutu: Probability Between Limits is 0.9545 0.4 normspec([-2,2],0,1) 0.35 0.3 Density 0.25 0.2 0.15 0.1 0.05 0 -4 -3 -2 -1 0 Critical Value 1 2 3 4 Erzurum Teknik Üniversitesi Anakütle Dağılımları Örnekler Örnek 4 ÇÖZÜM: c) P(0<=Z<=1.53) MATLAB komutu: Probability Between Limits is 0.43699 0.4 normspec([0,1.53],0,1) 0.35 0.3 Density 0.25 0.2 0.15 0.1 0.05 0 -4 -3 -2 -1 0 Critical Value 1 2 3 4 Erzurum Teknik Üniversitesi Anakütle Dağılımları Örnekler Örnek 4 ÇÖZÜM: d) P(0.28 < Z < 1.28) MATLAB komutu: Probability Between Limits is 0.28947 0.4 normspec([0.28,1.28],0,1) 0.35 0.3 Density 0.25 0.2 0.15 0.1 0.05 0 -4 -3 -2 -1 0 Critical Value 1 2 3 4 Erzurum Teknik Üniversitesi Anakütle Dağılımları Örnekler Örnek 5 : P(Z > z1)=0.025 ise z1=? Örnek 5 ÇÖZÜM: Önceki problemlerde eksen değerlerinden hareketle olasılık değeri bulunurken bu problemde olasılık değerinden hareketle eksen değerleri bulunmaktadır. Yani tabloya bakış yönteminde değişiklik var. Probability Greater than Lower Bound is 0.024998 0.4 Tablodan 0.025 olasılık değerine karşı gelen z değeri araştırılırsa bunun 1.96 (yani z1=1.96) olduğu görülür. 0.35 0.3 Density 0.25 MATLAB komutu 0.2 z1=norminv(0.975,0,1) 0.15 0.1 0.05 0 -4 -3 -2 -1 0 Critical Value 1 2 3 4 Erzurum Teknik Üniversitesi Anakütle Dağılımları Örnekler Örnek 6: P(-z1 < Z < z1)=0.90 ise z1=? Örnek 6 ÇÖZÜM: değer çift taraflı olduğundan (her iki kuyruğu kapsadığından) her parçanın olasılığı (1-0.90)/2=0.05 dir. Tablodan 0.05 olasılık değerine karşı gelen z değeri araştırılırsa bunun 1.64 (yani z1=1.64) olduğu görülür. Erzurum Teknik Üniversitesi Örnekler Anakütle Dağılımları Örnek 7: Bir imalathanede üretilen millerin çaplarının ortalaması 3.0005 inç ve standart sapmalarının ise 0.001 inç olan normal dağılıma uyduğu tespit edilmiştir. Üretilen miller eğer 3.0000.002 inç aralığının dışında iseler bu miller hatalı üretim kabul edilmektedir. Buna göre toplam üretimdeki hatalı ürün miktarını bulunuz. Erzurum Teknik Üniversitesi Örnekler Anakütle Dağılımları Örnek 7 ÇÖZÜM: İstenilen olasılık ifadesi: Bu olasılık değerini hesaplamak için X sürekli normal değişkeni standart normal hale dönüştürülür: Erzurum Teknik Üniversitesi Dağılım Tipinin Belirlenmesi Anakütle Dağılımları Ham olarak elde edilen rasgele değişkene ait dataların dağılım tipini (Normal, exponensiyal, Log-nomal v.b. ) belirlemek rasgele değişken kullanılarak yapılacak analizler için çok önemlidir. Bu işlemlerde rasgele değişkenin nasıl bir dağılım davranışı gösterdiği ve bu dağılımın parametreleri kullanılmaktadır. Ham olarak elde edilen bu datalara bir dağılım uydurmak (distirbution fitting) için aşağıda verilen adımlar takip edilir: Dağılım tipini grafiksel olarak belirlemek Belirlenen bu dağılım tipine ait parametreleri tahmin etmek Belirlenen bu dağılım tipinin uygunluğunu test etmek. Erzurum Teknik Üniversitesi Dağılım Tipinin Belirlenmesi Anakütle Dağılımları Dağılım tipini grafiksel olarak belirleme: Ham olarak elde edilmiş rasgele değişkene ait dataların hangi dağılım tipine uygun olduğunu belirlemede genellikle bu dataların grafiksel olarak gösterimi ile birlikte uygunluk testi (goodness-of-fit) uygulanarak elde edilir. Erzurum Teknik Üniversitesi Dağılım Tipinin Belirlenmesi Anakütle Dağılımları Dağılım parametrelerinin Tahmini: Belirlenen dağılıma ait parametrelerin (ortalama, standart sapma, çarpıklık, basıklık gibi) için başlıca iki metot kullanılır: • Momentler metodu (method of moments) • Maksimum olabilirlik metodu (method of maximum likelihood) Bu metotlar vasıtasıyla edilen parametreler daha sonra gerçekleştirilecek analizlerde rasgele değişkenlerin kullanılmasını sağlar. Erzurum Teknik Üniversitesi Dağılım Tipinin Belirlenmesi Anakütle Dağılımları Seçilen dağılım fonksiyonun uygunluk testi: Son adım olarak, rasgele değişkenlere ait belirlenmiş dağılım tipinin uygunluk testi yapılarak istatistiksel olarak ne kadar uygun olduğu tespit edilir. Bu adımda kullanılan belli başlı uygunluk testi yöntemleri: • Ki-kare uygunluk testi (Chi Square test) • Kolmogorov Smirnov test • Anderson Darling test Bu testlerden sadece ilk ikisine ait teorik bilgiler verilecektir. Erzurum Teknik Üniversitesi Dağılım Tipinin Belirlenmesi Anakütle Dağılımları Kİ-KARE UYGUNLUK TESTİ: Ki-kare istatistik değerini hesaplamak için öncelikle datalar belirli sayıda aralıklara (intervals) ayrılır ve bu aralıkların beklenen değeri (Expected value) uydurulan dağılımdan hesaplanır. Sonra Chi-square istatistik değeri aşağıdaki bağıntı yardımıyla hesaplanır: Erzurum Teknik Üniversitesi Gelecek Dersin Konusu Anakütle Dağılımları Örnekleme Planları ve Dağılımları … Erzurum Teknik Üniversitesi