AST416 Astronomide Sayısal Çözümleme

advertisement
AST416
Astronomide Sayısal Çözümleme - II
2. Temel İstatistik Kavramlar ve
Dağılımlar
Bu derste neler öğreneceksiniz?
• Sıklık Dağılımı ve Olasılık Dağılımı
• Olasılık ve Kümüatif Dağılım Fonksiyonları
• Dağılım Fonksiyonu Elemanları
• Örnek Dağılım ve Ana Dağılım (Sample Dist. & Parent Dist.)
• Tekdüze Dağılım (Uniform Dist.)
• Normal/Gauss Dağılım (Normal/Gaussian Dist.)
• Log-Normal Dağılım
• Pareto Dağılımı
• Binom ve Bernoulli Dağılımları
• Poisson Dağılımı
• Üstel Dağılım (Exponential Dist.)
• Gamma Dağılımı
• Lorentz Dağılımı (Cauchy Dağılımı)
• Ki-kare Dağılımı (Chi-squared Dist.)
• Öğrencinin t Dağılımı (Student’s t Dist.)
• F Dağılımı
• Beta Dağılımı
Dağılım?
Olasılık teorisi terminolojisi henüz tam olarak yerleşmiş
sayılmaz. Aşağıdaki terimlerin birbirleri yerine kullanıldığını
görebilirsiniz.
•
•
•
•
•
•
•
Sıklık dağılımı (Frequency distribution)
Olasılık dağılımı (Probability dist.)
Dağılım fonksiyonu (Distribution function)
Olasılık dağılım fonksiyonu (Probability distribution func.)
Olasılık kütle fonksiyonu (Probability mass func.)
Olasılık yoğunluk fonksiyonu (Probability density func.)
Olasılık fonksiyonu (Probability func)
Sıklık Dağılımı ve Olasılık Dağılımı
Sıklık dağılımı (frequency distribution),
bir örnek grubunda (Örn. ölçümler)
sonuçların ne miktarda olduğunun
gösterilmesidir.
Boy (m)
Öğrenci Sayısı
Kümülatif Sayı
< 1.6
6
6
1.6 – 1.8
12
18
1.8 – 2.0
10
28
2.0 <
3
31
Olasılık dağılımı (probability dist.), bir deney
sonucunun
gerçekleşme
ihtimalinin
gösterilmesidir.
Para Fırlatma
Sayısı
Yazı Gelme
Sayısı
Yazı Gelme
İhtimali
4
1
%25
100
66
%66
1000
589
%58.9
10000
4882
%48.82
Öğrenci Boyları Dağılımı
14
12
10
8
6
4
2
0
Yazı Gelme Olasılığı Dağılımı
70
60
50
40
30
20
10
0
Para Fırlatma Sayısı
Boy
< 1.6
1.6 - 1.8
1.8 - 2.0
2.0 <
4
100
1000
10000
Olasılık Yoğunluğu Fonksiyonu
(Probability Dens. Func.)
Bir deney sonucunun gerçekleşme olasılığını veren fonksiyondur. Herhangi bir olguya
ilişkin ölçümlerin dağılımı, olgunun sahip olabileceği değerlerin gerçek olma ihtimali
olarak da düşünülebilir. Normalize olasılık dağılım fonksiyonlarında her bir ölçüme
ilişkin olasılık değerlerinin toplamı 1 değerine normalize edilir.
Bir kablosuz haberleşme hattındaki
sinyalin zayıflama profili ve matematiksel
ifadesi. (Gamma dağılımı)
200 defa fırlatılan bir parada yazı gelmesinin
olasılık kütle fonksiyonu grafiği ve
matematiksel ifadesi. (Binom dağılımı)
Kümülatif / Birikimli Dağılım
Fonksiyonu (Cumulative Dist. Func.)
Olasılık dağılım fonksiyonunun sahip olduğu değerlerin
toplanarak temsil edildiği fonksiyonlardır. Olasılık değerlerinin
tamamı 1 ya da %100 ihtimale sahip olduğu için 1 değerine
yakınsamaktadır.
Dağılım Fonksiyonu Elemanları
Dağılım fonksiyonlarının yapısını belirleyen elemanlar
bulunmaktadır. Bu elemanlar:
• Ortalama değer (Average/Weighted Average/Mean)
• Varyans (Variance)
• Çarpıklık (Skewness)
• Basıklık (Kurtosis)
Ortalama Değer / Beklenen Değer
Bir dağılımın ortalama değeri, bu dağılımı oluşturan ölçümlerin
doğruluğunu belirlemektedir.
Beklenen değerden farklılık gösteren ortalama değerler sistematik
hatalardan kaynaklanabileceği gibi, beklenen değerin gerçek değer
olmamasından (örn. Teorik hesapların eksik/yanlış olmasından) ya
da yeterli ölçümün yapılmamasından kaynaklanabilir.
Doğruluk
Ortalama Değer / Beklenen Değer
X değeri için yapılan farklı
sayıda
ölçümlerin
histogramları. Sırasıyla 5, 50,
100,
1000
defa
ölçüm
yapılmıştır.
Ölçüm
sayısı
arttıkça,
dağılımın
yapısı
belirginleşmiş, ortalama değeri
ve ortalama değer etrafındaki
saçılma belirginleşmiştir.
Ortalama Değer / Beklenen Değer
Özellikle simetrik olmayan dağılımlar söz
konusu olduğunda, tercihe göre beklenen
değer olarak ortalama değer yerine mod ya
da medyan değeri kullanılabilmektedir. Bu
tercih gözlenen/ölçülen olgunun türüne
göre yapılabilmektedir.
Örneğin gelir dağılımı, az sayıda yüksek
gelirli bir grubun olması sebebiyle, yüksek
gelir bölgesine doğru kaymış bir ortalama
değer verecektir. Bu sebeple insanların
büyük bir kısmı ortalama gelirden daha
düşük gelire sahip olmaktadır.
Varyans ve Standart Sapma
(Variance & Standard Deviation)
Varyans ve standart sapma (σ), dağılım değerlerinin ortalama değer
etrafında ne kadar çok saçılmış olduğunu belirler. Dolayısıyla yapılan
ölçümlerin ne kadar hassas olduğunu belirlemektedir.
Varyans ve Standart Sapma
(Variance & Standard Deviation)
Varyansın bazı özellikleri
• Varyans ve standart sapma değerleri negatif olamaz.
• Tüm ölçümler aynı değere sahip ise varyans sıfır değerini alır.
• Varyans değeri, dağılımın konumundan bağımsızdır. Tüm değerler
aynı miktarda kaydırıldığında varyans değişmez.
• Varyansın birimi, ölçülen değerin biriminin karesidir. Standart
sapmanın birimi ise ölçülen değerin birimidir.
Varyans ve Standart Sapma
(Variance & Standard Deviation)
Çarpıklık (Skewness)
Bir dağılımın asimetrisinin ölçütüdür. Bu ölçütün
basit ve standart bir matematiksel ifadesi yoktur.
Temel olarak iki tür çarpıklık vardır.
Negatif Çarpıklık: dağılımın sol kuyruğu uzundur;
dağılımın önemli bir çoğunluğu sağ tarafta
toplanmıştır.
Pozitif Çarpıklık: dağılımın sağ kuyruğu uzundur;
dağılımın önemli bir çoğunluğu sol tarafta
toplanmıştır.
Çarpıklık (Skewness)
Farklı çarpıklıklara sahip iki adet
log-normal dağılımdaki mod,
medyan ve ortalama değerlerin
karşılaştırması.
Basıklık (Kurtosis)
Bir dağılımın ne kadar geniş
olduğunun ya da ‘kuyruklu’
olmasının ölçütüdür. Çarpıklık
gibi basit ve standart bir
matematiksel ifadesi yoktur.
Örnek Dağılımı ve Ana Dağılım
(Sample Dist. & Parent Dist.)
Yapılan gözlemlerin sayısının arttırılması, gözlemlerin oluşturduğu dağılımı, ilgili
olgunun gerçek dağılımına daha fazla yaklaştıracaktır. Ancak sonsuz adet gözlem
yapmanın mümkün olmaması sebebiyle yapılan gözlemler gerçek dağılımın bir
örneği niteliğini taşımaktadır.
Bir dağılımı oluşturmak için mümkün olan sonsuz sayıdaki tüm değerlerin
kullanılması kabulu, elde edilen dağılımın ana dağılım olarak kabul edilmesi
anlamına gelmektedir. Gerçekte herhangi bir olayın tam olarak ne tür bir dağılım
gösterdiğini bilemeyiz. Ancak bu dağılımı yeterli hassasiyette temsil ettiği kabul
edilen matematiksel bir fonksiyonu, olgunun ana dağılımı olarak kabul ederiz.
Bu kabulden sonra, yapılan gözlemlerin oluşturduğu ve sonlu sayıdaki değerler ile
üretilen örnek dağılımı kullanarak ana dağılıma ilişkin parametreleri elde edebilir
ya da ana dağılımın geçerliliğini sorgulayabiliriz.
Örnek Dağılımı ve Ana Dağılım
(Sample Dist. & Parent Dist.)
Bir grup öğrenci, bir top ile serbest
düşme deneyi yapıp, topun 2 metrelik
mesafeyi kaç saniyede kat ettiğini
ölçmüşlerdir. 50 defa tekrarlanan bu
deneyin sonunda ölçümleri yandaki
histograma yerleştirmişlerdir.
Bu dağılımın ölçümlerdeki rastgele
hatalardan kaynaklandığı kabulü ile
ortalama değer ve standart sapmasını
hesaplamışlar ve bir Gauss dağılımı
üretip düz çizgi ile histogramın üzerine
çizmişlerdir. Bu eğrinin, ana dağılımı
temsil etmesi beklenmektedir.
Kesikli çizgi ile çizilen eğri ise aynı
deneye ilişkin teorik hesaplamalar ile
elde edilen dağılımı göstermektedir.
Bu iki dağılım arasındaki farklar nelerdir?
Aralarındaki farklar nasıl giderilebilir?
Örnek Dağılımı ve Ana Dağılım
(Sample Dist. & Parent Dist.)
Ana dağılımın ξi olası değeleri için
hesaplanabilen standart sapması yanda
verilmiştir.
Ana dağılımın varlığının kabulu ile artık
bir
ortalama
değer
belirlenmiş
olduğundan, örnek uzayın standart
sapmasının
hesabında
karekök
içerisindeki payda ölçüm sayısından 1
çıkararak hesaplanmalıdır.
Bu hesabın gerekçesi, bir ana dağılımın
varlığı durumunda ortalama değerin
belirlenmiş
olmasıdır.
Dolayısıyla
standart sapma hesaplanırken olası
değerlerin bulunabileceği serbestlik
derecesi 1 eksik olmaktadır.
Tekdüze Dağılım (Uniform Dist.)
Tekdüze dağılım, bir aralık
içerisindeki
değerlerin
tamamının
aynı
olasılıkla
bulunabileceği bir dağılım
türüdür.
Bu dağılım türü bir ön bilgiye
sahip
olunmayan
(uninformative) ya da belirli
değerlerde farklılık göstermesi
beklenmeyen
olguların
dağılımlarını temsil etmek için
kullanılır.
Normal (Gauss) Dağılım
Ölçümlerde rastgele hataların varlığı
sebebiyle oluşan dağılıma normal dağılım
ya da Gauss dağılımı adı verilir.
Doğada gözlenen bir çok olguya ilişkin
ölçümlerin dağılımı Gauss dağılımı ile
temsil edilebilmektedir. Bu sebeple Gauss
dağılımına ‘normal’ adı verilmiştir.
Matematiksel olarak iki parametreye bağlı
bir
dağılım
fonksiyonudur.
Bu
parametreler, ortalama değer ve standart
sapmadır.
Ortalama değerin sıfır ve standart
sapmanın 1 alındığı durumda ‘standart
normal dağılım’ elde edilmektedir.
Merkezi Limit Teoremi (Central
Limit Theorem)
Çoğu
durumda,
bağımsız
rastgele
sonlu
değişkenlerin eklenmesi durumunda, toplamın
dağılımı normal dağılıma yaklaşmaktadır. Buna
merkezi limit teoremi adı verilmektedir. Toplanan bu
değişkenlerin başlangıçtaki dağılımlarının türü
önemsizdir.
Yandaki örnekte 6 yüzlü adil bir zarın n defa atılması
ile
gelen
sayıların
toplamlarının
dağılımı
görülmektedir. Başlangıçta tekdüze dağılım gösteren
bu deney, n sayısı büyüdükçe normal dağılıma
yaklaşmaktadır.
Teorem, farklı bir çok istatistiksel yöntemde, başka
tür dağılımların söz konusu olduğu durumlarda bile
normal dağılım kullanarak yaklaşım yapılabileceği
sonucunu çıkarmaktadır.
Merkezi Limit Teoremi (Central
Limit Theorem)
Bazı dağılımlar için merkezi limit teoremi örnekleri:
• Binom dağılımı B(n,p), ortalama değer np ve
varyans np(1-p) durumlarında, eğer n ve p
yeterince büyük rakamlar ve sıfır ya da bire yakın
değillerse normal dağılıma yakınsar.
• Poisson dağılımı λ parametresinin ortalama değer
ve varyans olduğu ve yeterince büyük olduğu
durumlar için normal dağılıma yakınsar.
• Ki-kare dağılımı, ortalama değer k ve varyansın 2k
olduğu ve k’nin yeterince büyük olduğu durumlarda
normal dağılıma yakınsar.
• Öğrencinin t-dağılımı, ortalamanın sıfır, varyansın 1
olduğu ve v değerinin yeterince büyük olduğu
durumlarda normal dağılıma yakınsar.
Log-Normal Dağılım
Bir
değişimin
logaritmasının
normal
dağılım
göstermesi
durumunda olasılık yoğunluk
fonksiyonu log-normal dağılım
fonksiyonu ile temsil edilir.
Doğada gözlenen olayların önemli
bir kısmı log-normal dağılım
gösterir. Örneğin, büyüyen canlı
doku alanı, Internet tartışma
forumlarında yapılan yorumların
uzunlukları,
parçacık
boyutu
dağılımları, satranç oyununun süre
dağılımı vs.
Pareto Dağılımı
Üstel değişim gösteren bir
dağılımdır. Jeolojik, sosyal ve
bilimsel bir çok farklı alanda
kullanılmaktadır.
Örneğin, harddisk sürücü
hata oranları, yerleşim yeri
boyutları, kum tanelerinin
boyutları, meteorit boyutları,
orman yangınlarında yanan
bölgelerin büyüklükleri vs.
Binom (Binomial) ve Bernoulli
Dağılımları
Binom dağılımı (binomial dist.), n defa
yapılan bir deneyin sonuçlarının
evet/hayır benzeri bir cevabı olması
durumunda başarılı ya da başarısız
deneylerin gerçekleşme ihtimalini
veren dağılımdır.
Deneyin sadece 1 defa yapılmış olması
durumunda olasılık dağılımına Bernoulli
dağılımı adı verilir.
Para atma deneyi birden çok kez
yapılması durumunda binom dağılımı,
sadece 1 kez yapılması durumunda
Bernoulli dağılımı gösterir.
Poisson Dağılımı
Süreksizlik gösteren olayların modellenmesi
için uygun bir dağılım fonksiyonudur. Görece
nadir gerçekleşen ve birbirinden zaman
bağımsız olan olayların olasılığı için
kullanılmaktadır.
Poisson dağılımının kullanılması için 3 gerekli
koşul bulunmaktadır.
1.
Ölçümler
sayısıdır.
nadir
görülen
olayların
2.
Tüm ölçümler birbirinden bağımsızdır.
3.
Ölçümlerin görülme sıklığı ilgili zaman
aralığında değişim göstermemektedir.
Radyoaktif bozulma süreçleri ya da foton
sayımı
süreçleri
Poisson
dağılımı
göstermektedir.
Poisson Dağılımı
Poisson dağılımının, ortalama değeri
değişmesi (sırasıyla 1, 3, 10, 50)
durumundaki değişimi.
Büyük λ değerleri söz konusu
olduğunda (λ > 1000) Poisson
dağılımı, λ ortalamalı ve λ standart
sapmalı bir Gauss profili ile temsil
edilebilmektedir.
Bunun
için
süreklilik düzeltmesi gerekmektedir.
Poisson Dağılımı
Poisson dağılımı gösteren
bir
olayda
ortalama
değere (λ) ilişkin en iyi
tahminin hatası √λ olur.
Poisson
dağılımının
ortalama
değerinin
değişimi
ile
birlikte
değişen asimetriye dikkat
edilmelidir.
Üstel Dağılım
Üstel
değişim
gösteren
dağılımlar
için
kullanılmaktadır.
Poisson
dağılımı gösteren olayların
bir
sonrakinin
gerçekleşmesinin
dağılımı
için sıklıkla kullanılmaktadır.
Örneğin
bir
sonraki
radyoaktif bozunmaya kadar
geçen süre, bir sonraki
telefon aramanıza kadar
geçen süre vs.
Lorentz Dağılımı
Cauchy dağılımı olarak da
bilinmektedir. Daha çok fizikçilerin
kullandığı bir dağılımdır. Tayf
çizgilerindeki basınç genişlemesi
gibi homojen çizgi genişleme
mekanizmaları Lorentz dağılımı
göstermektedir.
Olasılık yoğunluğu fonksiyonunda
x0 konum parametresi ve γ ölçek
parametresidir (HWHM).
Sağ üstte görülen Lorentz
dağılımının
ölçek
parametre
değeri, 2γ = 2.354σ’dır.
Gamma Dağılımı
İki parametreli sürekli bir dağılım fonksiyonudur.
Üç farklı parametre ikilisiyle gösterimi yapılabilir:
1.
Şekil parametresi k ve ölçek parametresi θ
2.
Şekil parametresi α = k ve ters ölçek parametresi
β = 1/θ
3.
Şekil parametresi k ve ortalama parametresi μ =
k/ β
Doğrudan modelleme amacıyla bekleme sürelerinin
modellenmesi
temelinde,
yağmur
birikimi
modellerinde, sigortacılıkta, ölüme kadar geçen
bekleme süresinde, kablosuz iletişim sinyal
zayıflamasında vs. kullanılmaktadır.
Modelleme amacıyla kullanımda genellikle k ve θ
parametreleri, istatistiksel çıkarımda (özellikle Bayes
istatistiği) α ve β parametreleri ile gösterimi yaygındır.
Ki-Kare Dağılımı (Chi-Squared Dist.)
Serbestlik derecesi, k, kadar bağımsız standart normal
rastgele değişkenin toplamının dağılımıdır. Gamma
dağılımının özel bir halidir. Hipotez testi, güven aralığı
(confidence interval), uyum iyiliği (goodness of fit) gibi
bir çok istatistiksel çıkarımda kullanılmaktadır.
Doğal olayların modellenmesinde nadir olarak
kullanılmaktadır. Nadiren Helmert dağılımı olarak da
isimlendirilir.
Çoğu dağılım durumu merkezi limit teoremi gereği,
asimptotik olarak normal dağılıma yakınsar. Standart
normal dağılımın karesi basit bir ki-kare dağılımı
olduğu için, normal dağılımın kabul edildiği
durumlarda ki-kare dağılımı da kabul edilebilir.
Ki-kare olasılık yoğunluğu fonksiyonunda k, serbestlik
derecesidir!
Ki-Kare Dağılımı (Chi-Squared Dist.)
Test istatistiği parametresi olarak ki-kare değerleri
aşağıdaki şekilde hesaplanmaktadır.
Burada 𝜒 2 , Pearson test istatistiği parametresidir ve
asimptotik
olarak
bir
ki-kare
dağılımına
yaklaşmaktadır. Oi, i türünden yapılan gözlemlerin
değeri; Ei, aynı türden beklenen değerleri; n ise
toplam gözlem sayısını vermektedir.
Öğrencinin t Dağılımı (Student’s tdistribution)
Standart sapmanın bilinmediği bir normal dağılım
gösteren ana dağılımdan seçilen örnek bir dağılımın
ortalama değerinin dağılımıdır.
İki örnek dağılımın istatistiksel anlamlılık seviyesi
(statistikal significance) belirlemesinde kullanılan
Öğrencinin t dağılımı testinde, lineer regresyon
analizinde, iki örnek uzay ortalamaları farkının güven
aralığı (confidence interval) oluşturulmasında
kullanılmaktadır.
Normal bir dağılımdan alınan n elemanlı bir örnek
grubu alınması durumunda, n-1 serbestlik derecesine
sahip olan t-istatistiği aşağıdaki şekilde hesaplanabilir.
Öğrencinin t Dağılımı (Student’s tdistribution)
Yandaki görselde, serbestlik derecesinin değişmesi
ile t-dağılımının değişimi görülmektedir. Mavi ile
gösterilen eğri standart normal dağılımdır.
1 serbestlik derecesine sahip olan t-dağılımında
görüleceği üzere, t-dağılımı, daha geniş kanatlara
sahiptir. Bu normal dağılımın ortalama değerinden
daha uzakta ortalama değerlerin bulunma
olasılığının normal dağılıma göre daha fazla
olduğunu göstermektedir.
Serbestlik derecesi arttıkça ya da başka bir değişle
örnek elemanı sayısı arttıkça, t-dağılımı normal
dağılıma yakınsamaktadır.
Bunun sonucu olarak, örnek elemanı sayısının az
olması durumunda Öğrencinin t-dağılımının
kullanılması, normal dağılımın kullanılmasından
daha uygun olmaktadır.
F Dağılımı
F dağılımı, iki dağılımın karşılaştırılması temelindeki Ftestinde kullanılır. Aynı ana da iki örnek dağılımın
standart sapmasının karşılaştırılması ve bu şekilde güven
aralığı hesaplanmasında kullanılır. Örneğin bir olayın
modellenmesinde kullanılan iki farklı modelin güven
aralığının hesaplanması durumunda F-test kullanılabilir.
Bu test istatistikleri F dağılımına sahiptir.
Aşağıdaki X değerleri birer F istatistiğidir. Bu değerler F
dağılımı göstermektedir.
i)
Ui değerleri birer ki-kare dağılımı ve di değeleri bu
dağılımların serbestlik dereceleri,
ii)
𝑠𝑖2 değerleri normal birer sürecin kare toplam
değerlerinin serbestlik derecesin bölümü, 𝜎𝑖2 ise
ilgili normal süreçlerin standart sapmalarıdır.
Beta Dağılımı
Yüzde veya oran ile ifade edilebilen rastgele
olayların modellenmesi için kullanılan bir
dağılım fonksiyornudur. 0 ile 1 değerleri
arasında tanımlıdır. α ve β parametreleri
sıfırdan büyük değere sahip şekil
parametreleridir.
Dalga analizinde, proje yönetiminde, öznel
mantıkta modelleme dağılımı olarak
kullanılmaktadır. 0 ile 1 arasında tanımlı
olması,
Bayes
istatistiğinde
olasılılık
değerlerinin dağılımı olarak Bernoulli, binom
dağılımlarının öncül dağılımı (prior dist.)
şeklinde kullanılabilmesini sağlamaktadır.
Kaynaklar
• Measurements and their Uncertainties, Ifan G.
Hughes & Thomas P.A. Hase, Oxford University
Press, 2010
• Data Reduction and Error Analysis for the Physical
Sciences, Philip R. Bevington & D. Keith Robinson,
MC Graw Hill, 2003
• Görseller; www.stat.uiowa.edu/~mbognar/applets
Download