4 TANIMLAYICI İSTATİSTİKLER 4.1. Merkezi Eğilim Ölçüleri 4.1.1. Aritmetik Ortalama 4.1.2. Ağırlıklı Aritmetik Ortalama 4.1.3. Geometrik Ortalama 4.1.4. Harmonik Ortalama 4.1.5 Kuadratik Ortalama 4.1.6. Medyan 4.1.7. Kartiller 4.1.8. Decile ve Percentile 4.1.9. Mod 4.2. Değişkenlik Ölçüleri 4.2.1. Varyans Ve Standart Sapma: 4.2.2. Ortalama Mutlak Sapma –OMS 4.2.3. Nispi Varyasyon Ölçüleri 4.3. Asimetri Ölçüleri 4.3.1.Pearson Asimetri Ölçüsü 4.3.2. Kartillerden Asimetri Hesaplanması 4.3.3. Bowley Asimetri Ölçüsü 4.4. Momentler 2 4.1. Merkezi Eğilim Ölçüleri Tanımlayıcı örnek istatistikleri, örnek verilerini kullanarak, bunlardan elde edilen dağılışları sayısal olarak özetleyen değerlerdir. Bir veri grubunu tanımlamak diğer tüm veri gruplarından ayırt edilebilecek en az sayıda örnek istatistiği ile yapılmalıdır. Bu istatistiklerin en genel olarak elde edilmesini sağlayan değerler momentlerdir. Tanımlayıcı istatistikler üç ana grupta toplanır, 1. Merkezi eğilim ölçüleri (yer ölçüleri) 2. Değişkenlik ölçüleri 3. Asimetri ölçüleri Bunlardan merkezi eğilim ölçüleri, bir veri grubuna ilişkin değişkenin tüm farklı değerlerinin etrafında toplandığı merkezi değerlerdir. Veri setlerinin merkezi değerlerini belirlemeyi sağlar. Çok çeşitli olan ortalamalardan en önemlileri: 12345678910- Aritmetik ortalama (mean) Ağırlıklı aritmetik ortalama Kesilmiş aritmetik ortalama (trancated mean) Geometrik ortalama Harmonik ortalama Kuadratik ortalama. Medyan Kartil (çeyrek) Sentil Mod Ortalamalar (averages) başlıca iki amaca hizmet ederler: 1) Herhangi bir örnekten elde edilen kantitatif (sayısal) veri grubunun kısa açıklaması; 2) İndirek (dolaylı) olarak ve belli bir doğruluk derecesinde populasyonu açıklamasıdır. Merkezi Eğilim Ölçüleri ( Yer Ölçüleri) içerisinde, hesaplamalarında verilerin tamamının kullanıldığı veya verilerin tamamının fonksiyonu olan ortalamalar Aritmetik Ortalama Ağırlıklı aritmetik ortalama Geometrik Ortalama Harmonik Ortalama Kuadratik Ortalama Verilerin tamamının hesaplamaya dahil olmadığı veya verilerin tamamının fonksiyonu olmayan ortalamalar ise Kesilmiş aritmetik ortalama Medyan Mod Kartil – Çeyrek (1/4) Sentil (1/10) dir. 3 Örnek ortalamaları, populasyon ortalamalarının yakın tahminleyicileri (taktircileri) olduğundan genelleştirmeye müsaittirler ve böylece örnek limitleri dışında açıklamaların yapılmasına yarar. Kısa veya ekonomik şekilde açıklamayı ve daha önemlisi bilimsel araştırmayı olanaklı kılar. 4.1.1. Aritmetik Ortalama Örnek verileri toplamının örnek hacmine bölümüdür. N = Populasyon hacmi n = Örnek hacmi N populasyon aritmetik ortalaması μ = ∑x i =1 i N n örnek aritmetik ortalaması x= ∑x i =1 i n Gruplandırılmış ve gruplandırılmamış(sınıflanmış/sınıflanmamış) verilerin aritmetik ortalaması ayrı ayrı şekillerde hesaplandığı gibi gruplandırılmış verilerin aritmetik ortalamasının hesaplanmasında da aynı sonuca varan 3 ayrı yöntem vardır. Bunlar; 1- Uzun metod 2- Orijinal birimlerle kısa metod 3- Sınıf aralığı birimleriyle kısa metoddur. Gruplandırılmamış verilerin aritmetik ortalaması: x= ∑x = x 1 n + x 2 + ... + x n ⇒ μ ’nün tahminleyicisidir. n Aritmetik ortalamanın özellikleri: 1- Örnek elemanları x ortalama etrafında toplanma eğilimdedir yani örneği en iyi temsil eden tek bir elemandır ve simetri oluşturan değerdir. 2- Aritmetik ortalamadan sapmaların toplamı sıfırdır. ∑ (x − x ) = 0 ∑x x= n nx = ∑ x ∑ x − nx = 0 4 x ∑ x − n ∑n = 0 ∑x−∑x = 0 Sapma: Herhangi bir elemanın değerinden aritmetik ortalamanın veya bir sabitin çıkartılmasıdır. ⎛ ∑ x ⎞⎟ d i = xi − x ve ⎜⎜ x = n ⎟⎠ ⎝ n n n n ∑ d = ∑ ( x − x ) = ∑ x − ∑ x = (x + x i =1 i i i =1 i =1 i 1 i =1 = ∑ xi − nx = ∑ xi − n ∑x i n =0 z 2 = x2 + y 2 …….. ……. ……. ………. ………. ……… z=x+y d = x−a x =a+d z n = xn + y n + ... + xn ) − ( x + x + ... + x ) n d i = xi − a d1 = x1 − a z1 = x1 + y1 2 d n = xn − a Σz=Σ(x+y) Σz/n=Σx/n+Σy/n 3- Örnek elemanlarının aritmetik ortalamadan sapmaları kareleri toplamı minimumdur. n ∑ (x i =1 − x ) = min 2 i Aritmetik ortalamanın merkezi eğilim ölçüsü kabul edilmesinin nedeni budur. ∑ x = nx n 4- Örnek değerlerinde meydana gelen değişim çok küçük de olsa aritmetik ortalama bu değişimden etkilenir. 5- Verilerin tümünün bir fonksiyonudur. 6- Örnek gözlemlerin tümü a gibi bir sabit ile çarpılırsa bu yeni veri setinin aritmetik ortalaması da eski veri setinin aritmetik ortalamasının a ile çarpımı kadar değişir. 7- Örnek gözlemlerin tümü a gibi bir sabit ile toplanırsa bu yeni veri setinin aritmetik ortalaması da eski veri setinin aritmetik ortalamasının a ile toplamı kadar değişir. 8- Aritmetik ortalama tüm verileri hesaplama fonksiyonu içinde kullanması nedeni ile güçlü bir istatistiktir. 5 9- Aritmetik ortalama verilerdeki uç değerlerden etkilenmesi ise bu istatistiğin zayıf yönünü oluşturur. Frekans verilerinde aritmetik ortalamanın hesaplanış şekli 1-Uzun Metod: x= x= ∑ fx = ∑ fx n ∑f La + Lü altlimit + üstlimit = 2 2 (sınıf orta noktası) i: Sınıf Aralığı Örnek : Sınıflar La Lü 2 – 6 7 – 11 12 – 16 17 – 21 22 – 26 Toplam x = ∑ fx ∑f x frekans 8 17 25 12 10 f = 72 4 9 14 19 24 ∑ = fx ∑ 32 153 350 228 240 fx = 1003 A=9 d=x -A -5 0 5 10 15 ∑ A=14 fd=f(x-A) -40 0 125 120 150 fd = 355 i=5 d′ fd ′ -2 -1 0 1 2 -16 -17 0 12 20 ' fd =-1 ∑ 1003 = 13.93 72 2- Orijinal birimlerle kısa metot: x = A+ ∑ fd ∑f A: varsayımlı ortalama (herhangi bir x) d: varsayımlı ortalamalardan sapmalar d = xi − A 355 x =9+ = 13.93 72 ∑ fd Düzeltme faktörüdür, varsayımlı ortalamaya eklendiği zaman aritmetik ∑f ortalama bulunur. 3-Sınıf aralığı birimleri ile kısa metod: ∑ fd x = A+ ∑f x = 14 + ' .i i=6-2+1=5 −1 .5 = 13.93 72 d ' : sınıfların varsayımlı ortalamalarının içinde bulunduğu sınıftan yer farkı (sapma) i: sınıf aralığı (sınıf hacmi) (i = L2 − L1 + 1) 6 4.1.2. Ağırlıklı Aritmetik Ortalama Gözlemler belli bir kritere göre ağırlıklandırılmış ise ağırlıklı aritmetik ortalama kullanılır. Ağırlıklı aritmetik ortalama kullanılırken tüm gözlemlerin ağırlıkları eşit ise aritmetik ortalama ile aynı sonucu verir. İndex sayıların hesaplanmasında, yüzdelerin ortalamasında çarpımların ortalamasının alınmasında kullanılır. Basit seriler için xw Frekans verileri için ∑ wx veya ∑w ∑ wfx x = ∑ wf w f1 x1 + f 2 x 2 + ... f1 + f 2 + ... ˆ xw x w ............... ∑ f x + f 2 x 2 + ........ i i = = 1 1 Xw = 1 1 w1 f 1 + f 2 + ...... ∑ wi x w = Σf i wi / Σwi = Örnek: Bir öğrenci w kredili, f adet dersten x notu almıştır. Buna göre not ortalamasını hesaplayınız. W f x 4 3 100 A(4) 4 2 90 B(3) 3 2 100 A(4) 4 × 3 × 4 + 4 × 2 × 3 + ... + 2 × 2 × 2 149 3 3 85 B(3) = = 2.77 xw = 4 × 3 + 4 × 2 + ... + 2 × 2 54 3 2 75 C(2) 3 2 50 D(1) 3 1 20 F(0) 2 2 60 C(2) Örnek: İstatistiki Bölge Birimleri Sınıflandırmasına göre Türkiye toplam 12 bölgeye ayrılmaktadır. Aşağıda bu bölgelere ilişkin 2000 yılı nüfus ve kişi başına düşen GSYİH (YTL) miktarları verilmektedir. Bu verilerden yola çıkarak Türkiye geneline ilişkin ortalama kişi başına düşen GSYİH miktarını bulunuz. Toplam nüfus BÖLGE ADI GSYİH (1000 YTL) (x) (1 milyon) (w) wx 1 Kuzeydoğu Anadolu 1.1 2.5 2.75 2 Ortadoğu Anadolu 1.3 3.7 4.81 3 Güneydoğu Anadolu 1.4 6.6 9.24 4 İstanbul 3.7 10.0 37 5 Batı Marmara 2.9 2.9 8.41 6 Ege 3.1 8.9 27.59 7 Doğu Marmara 3.9 5.7 22.23 8 Batı Anadolu 2.8 6.4 17.92 9 Akdeniz 2.5 8.7 21.75 10 Orta Anadolu 1.9 4.2 7.98 11 Batı Karadeniz 2.1 4.8 10.08 12 Doğu Karadeniz 1.7 3.1 5.27 TOPLAM 28.4 67.5 175.03 7 Aritmetik ortalama ile hesaplanırsa: x= 1.1 + 1.3 + 1.4 + 3.7 + 2.9 + 3.1 + 3.9 + 2.8 + 2.5 + 1.9 + 2.1 + 1.7 28.4 = = 2.367 12 12 Sakınca nedir? Ağırlıklı aritmetik ortalama ile hesaplanırsa: xw = (1.1× 2.5) + (1.3 × 3.7) + ... + (1.7 × 3.1) = 2.59 2.5 + 3.7 + ... + 3.1 Kesilmiş Aritmetik Ortalama Verilerin içerisinde en büyük ve en küçük değerlerin yaklaşık % 5’i verilerden kopmuş olarak aşırı sapan değerler içeriyor ve bu değerler verilerin doğal yapısına çok uygun olmadığı kanaati var ise, bu durumda verilerin en alt ve üst kısmından % 5 lik kısmı atılarak geri kalan kısmının aritmetik ortalamasının alınması ile elde edilen aritmetik ortalamadır. Örneğin, 100 kişilik bir sınıfta derslere devan etmemiş 5 yada 6 öğrenci var ve bu öğrenciler derslere sadece soruları öğrenmek için gelmişler ise, söz konusu bu öğrencilerin sınav notları olan sıfır değerleri veri setinden çıkarılarak hesaplanan ortalama sınıfın gerçek performansı olan not ortalamasını daha doğru açıklar. 4.1.3. Geometrik Ortalama Geometrik dizi şeklinde artış ya da azalış gösteren verileri en iyi temsil eden merkezi eğilim ölçüsüdür. Tanım: Örnek veri değerleri çarpımının, örnek hacmi derecesinden köküne eşittir. G = n x1 .x 2 .x3 ......x n Özellikleri: 1- xi > 0 olmalıdır. 2- Serideki değerlerin her birinin yerine geometrik ortalama konulduğunda serinin çarpım sonucu değişmez. 2.4.8.16.32 = 32768 = 8.8.8.8.8 3- Geometrik ortalamanın orijinal gözlemlerinin logaritmik sapmaları eşittir. Bu özellikten dolayı ortalama oranlara, değişme oranlarına, logaritmik dağılmış şekiller uygulanır. Örneğin; fiyat indekslerinde geometrik ortalama anlamlı sonuçlar verir. 4- Aritmetik ortalama gerçekte nispi olan değerler yerine mutlak değerlenmiş gibi bir işleme bağlı tutularak çok artan nispi değerleri olduğundan fazla gösterir. Bu yüzden yukarı eğilimlidir. 5- Logaritmik bir dağılımda geometrik ortalamanın tercih nedeni böyle bir dağılımda mutlak sapmaların değil ancak merkezi eğilim etrafında nispi sapmaların simetrik olma eğilimidir. 8 6- G < x x x1 x 2 * * .................... n = 1 G G G 7891011- G birimleri değerleri arasındaki orana göre değer alır. Uç değerlerden x kadar etkilenmez. x1 .x 2 ...........x n = G n G’nin altındaki ve üstündeki orijinal gözlemlerin logaritmik sapmaları eşittir. Diğer bir deyişle, G değeri gözlemlerin G’den nispi sapmalarını dengeler. Bu özellik nedeniyle G, özellikle ortalama oranlara, değişme oranlarına ve logaritmik dağılan serilere daha uygundur. Örneğin, fiyat endeksi. ∏ xi < G G xi = G = ∏ Gxi xi > G Geometrik ortalamanın en yararlı olarak kullanıldığı alanlardan biri de ortalama değişiklik oranıdır. Logaritmaları alınmış değişkenlerin tekrar orijinal şekle dönüştürülmüş ortalamasına geometrik ortalama denir. Basit seride geometrik ortalama hesabı : G = n x1 .x 2 .x3 ......x n ⎛ n ⎞ G = ⎜⎜ ∏ xi ⎟⎟ ⎝ i =1 ⎠ 1 n = ( x1 .x 2 .x3 ........x n ) 1 n G = n x1 .x 2 .x3 ......x n n 1 [log x1 + log x2 + ..... log xn ] = 1 ⎡⎢∑ log xi ⎤⎥ n n ⎣ i =1 ⎦ n 1 G = anti log ∑ log xi n i =! log G = g = n x1 .x 2 ......x n g = 3 3.9.27 = 9 g = 7 3.5.7..810.13.16 = 7 1,747,200 log g = 1 1 log 1,747,200 = 6,2423 = 0,8918 7 7 9 Frekans serilerinde geometrik serinin hesaplanması: f1 f2 x1 x2 … …. xn fn ∑f =N ( G = Σf x1f1 .x2f2 ........xnfn = x1f1 x2f2 ...xnfn )∑ 1 f G = N x1 x1.....x1 x2 x2 .....x2 ............ xn xn .....xn f1tane f 2 tane f n tane fn f1 f 2 = x1 x2 .... xn = x1f1 x2f2 ...xnfn N N N = ∑ fi i =1 1 [ f1 log x1 + f 2 log x2 + ...... + f n log xn ] = 1 Σf Σf n 1 G = anti log ∑ f i log xi Σf i =1 log G = n ∑f i =1 i log xi Geometrik ortalamanın tercih nedeni; geometrik ortalamada merkezi eğilim (mutlak sapma değil) etrafındaki nispi sapmaların simetrik olma eğilimi/özelliğidir. Bileşik Faiz Formülü Pn = P0 (1 + r ) (1 + r ) = n r=n Pn P0 = Pn P0 Pn −1 Po log g = = (1 + r )n n log(1 + r ) = log Pn − log Po n ( 1 log x1f1 ............ N 1 ( f1 log x1 + f 2 log x2 N P0=başlangıç miktarı r= faiz oranı n=yıl (faiz dönemi) Pn=n yıl sonraki meblağ = ∑f i log xi N Pn = P0 (1+ r) n Pn n = (1 + r ) P0 10 1+ r = n Pn P0 Örnek: 3 yılda 1000$, 5000$ a artmıştır. Yıllık ortalama artış yüzdesi nedir? %500 gibi gözükse de bu ortalama % artışı doğru değildir. “r ortalama artış 3 yüzdesini göstermektedir Başlangıç 1000 1 yıl sonra 1000+1000r1000(1+r 2 yıl sonra 1000(1+r)+ 1000(1+r)r=1000(1+r)2 3 yıl sonra 1000(1+r)2+1000(1+r)2r=1000(1+r)3=5000 (1 + r ) 3 Pn = P0 (1 + r ) r = 3 5 −1 =5 n Örnek: A malı B malı baz yıl 1945=100 1945 1955 200 100 100 50 125 100 Fmal 1955 100 100 1945 50 200 x A %100 artmış , B %50 düşmüş fiyatlar %100 artmış yanlış ort. G = 200 * 50 = 100 4.1.4. Harmonik Ortalama Tanım: Gözlemlerin terslerinin aritmetik ortalamasının tersidir. elemanları birbirine eşit olmadıkça Serinin tüm x >G>H bağıntısı mevcuttur. Eğer x1 = x 2 = .......x n ise x = G = H olur. Harmonik ortalama küçük değerlerden çok, büyük değerlerden az etkilenir. Harmonik ortalama aşağı eğimlidir. H.O’da xi > 0 olmalıdır. 1 n H= 1 1 1 1 + + ...... x1 x 2 xn n = n 1 ∑ i =1 xi n veya 1 = H ∑x i =1 n i 11 H.O belli koşullar altında ve belli fiyat tipleri altında zaman serilerini ortalamak için kullanılır. Uygulamada sabit ve değişken birimler vardır. Zaman sabit üretim değişken olduğunda, eşit zaman periyodlarındaki üretim ortalaması için kullanılır. Örneğin; 1 birimlik mal A kişisi tarafından 30 dk’da ve yine 1 birimlik mal B kişisi tarafından 20 dk’da üretiliyorsa mal miktarı sabit, zaman değişkendir. Ortalaması alınan değişkendir yani zamandır. H= 2 = 24 dk’da 1kg mal (ort.) üretilmektedir 1 1 + 20 30 . Uçakla 400 km, trenle 60 km(570km) H .O = 2 1 1 + 400 60 = 2 4800 = ≅ 104km / h 46 46 2400 Üretim birimi sabit, maliyet değişken olduğunda birim başına ortalama maliyet için HO kullanılır. Örneğin bir kişi 1. marketten 3 kilo meyveye 10 lira, diğer marketten aldığı 4 kilo meyveye 10 lira öder ve 3. markette 5 kilo meyveye 10 lira öderse, meyvelerin ortalama fiyatı HO dır. HO = 3 = 2.5lira 10 10 10 + + 3 4 5 Bu örnek ağırlıklı aritmetik ortalama ile de hesaplandığında aynı doğru sonucu verir. Harmonik Ortalama uygulama yerleri Zaman birimi başına hız Para birimi başına satın alınan birim sayısı h= 1 1 1 ∑ n i =1 xi n = n 1 ∑x i 2,4,9 h= 3 = 3.48 1 1 1 + + 2 5 9 Örnek: A ve B gibi iki şehir arasında 100km lik bir yol vardır. Bir otomobilli yolun ilk yarısını 30 km/saat hızla gidiyor. Diğer yarısını 40 km/saat hızla gidiyor. Hız ortalaması nedir? v = ortalama hız ; t = geçen zaman ; d = alınan yol d=v*t d = v1.t1 = v2 .t2 2 t1: Yolun ilk yarısında geçen zaman t2: Yolun ikinci yarısında geçen zaman 12 Buradan d d/2 A t1 = B M d d ve t2 = 2v1 2v2 t = t1 + t2 = d ⎛ 1 1 ⎞ vt ⎛ 1 1 ⎞ . ⎜ + ⎟ = ⎜ + ⎟ yazılır. 2 ⎝ v1 v2 ⎠ 2 ⎝ v1 v2 ⎠ Böylece hız ortalaması v= d vt 2 2 = = = = 34.28 = 1 ⎞ t vt ⎛ 1 1 ⎞ ⎛ 1 1 ⎞ ⎛ 1 ⎜ + ⎟ ⎜ + ⎟ ⎜ + ⎟ 2 ⎝ v1 v2 ⎠ ⎝ v1 v2 ⎠ ⎝ 30 40 ⎠ n 1 ∑x i = Harmonik ortalama 4.1.5 Kuadratik Ortalama Tanım: Gözlemlerin karelerinin aritmetik ortalamasının köküdür. Standart sapmanın hesaplanmasında kullanılır. Ortalama değerlerinin ortalamasında kullanılmaz. K > x > G > H bağıntısı vardır. K= ∑x 2 n ab ≤ a2 + b2 n 4.1.6. Medyan ( x) Büyüklük sırası ile dizilmiş bir dizinin en ortadaki elemanının değeridir. n +1 inci eleman değeri 2 n n Örnek hacmi çift ise ve + 1 inci elemanların aritmetik ortalamasıdır. 2 2 Örnek hacmi tek ise Medyanın en önemli özelliği: Elemanların medyandan mutlak sapmaları toplamı minimumdur. ∑x i − med = min . 13 Medyan’ın Diğer Özellikleri 1) Birim sayısındaki değişmelerden etkilenir, uç değerlerden etkilenmez. 2) Medyanın standart hatası, aritmetik ortalamanınkinden daha büyüktür. Uygulama yerleri: gelir dağılımı, ücret dağılımı gibi değerce tam ortada yer alan değerleri bilinmesinde pratik yarar olan durumlarda tercih edilir. Basit serilerde medyan hesabı Örnek: n tek ise 16 20 21 medyan 20 n çift ise 15 19 23 25 ⇔ 19 + 23 = 21 → medyan 2 Medyan; rütbeler, ücretler, biçiminde belirlenmiş gözlemlerin açıklanmasında anlam taşır. Sigorta hadleri genellikle medyanlardır. Ulaşım sorununda merkezi yer olarak medyanlar seçilir. 3) Medyan verilerin tümünü kullanmayan ve tümünden etkilenmeyen bir istatistik. Özellikle uç değerlerden etkilenmez, daha çok ortanca değerlerden etkilenir. Tüm verilerin bir fonksiyonu olmaması açısından zayıf bir istatistik olmasını sağlar, diğer taraftan uç değerlerden etkilenmemesi ise bazı açılardan güçlü bir özelliktir. Frekans (Sınıflandırılmış) verilerde medyan hesaplanması: 1-İnterpolasyon (aritmetik) metot: Medyan değerini içinde bulunduran sınıfa ‘medyan sınıfı’ denir. Medyanın gerçek değerini bulmak için, medyan sınıfında alt sınıf limitlerinden medyan noktasına kadar dağılmış frekansların, medyan sınıfındaki tüm frekanslara oranı tayin edilir. Medyan = L + Σf / 2 − Σf i i Σf .i = L + ( − Σf i ) fmed f med 2 Σf = n=frekansların toplamı L=medyan sınıfının alt limiti (Σf / 2' yi geçen ilk sınıfın alt limiti) f med = medyan sınıfı frekansı Σf i = medyandan önceki frekansların kümülatif toplamı i= sınıf aralığı İnterpolasyon metodu verilerin sürekli ve seri elemanlarının sınıf aralıklarında eşit dağıldığı varsayımına dayandırılır. Veya sınıf aralığı olarak medyan sınıfı aralığı kullanılır. Prof. Dr. Levent ŞENYAY İstatistik I 13 V- 14 Örnek: ∑f Sınıflar Fr. f Σf 3-5 6-8 9-11 12-14 15-17 18-20 21-23 24-26 10 15 35 50 40 30 28 22 10 25 60 110 150 180 208 230 Σf 230 220 205 170 120 80 50 22 ↓ ↑ = 230 Medyan sınıfı Σf ( − Σf i ) medyan = L + 2 i f medyan 230/2 - 110 .3 Medyan : 15 + 40 = 15.375 Sınıf aralığının belirlenmesi Tüm sınıflarda sınıf aralıkları eşit olabilir veya olmayabilir. a. Sınıflar 1 - 5 6 - 10 11 - 15 16 - 20 b. sınıflar 1.0 – 5.9 6.0 – 10,9 11.0 – 15.9 16.0 – 20.0 c. sınıflar 1.00 – 5.99 6.00 – 10.99 11.00 – 15.99 16.00 – 20.00 i =Lü-La+en küçük ölçüm aralığı i = 5-1+1 (+1 hassasiyet birimi) i= 5.9-1.0+0.1 (+0.1 hassasiyet birim) i=5,99-1.00+0.01 (+0.01 hassasiyet birimi) d. sınıflar 1 – 5 den az (=4) 5 – 10 dan az (=9) 10 – 15 den az (14) i=4-1+1 (+1 hassasiyet birimi) e. Sınıflar 1.0 – 5.0 dan az (=4.9) 5.0 – 10.0 dan az (=9.9) Prof. Dr. Levent ŞENYAY İstatistik I i=4.9-1.0+0.1 (+0.1 hassasiyet birimi) 14 V- 15 2-Grafik (geometrik) metotla medyanın bulunması: ∑f i 230 208 180 150 ∑f 2 = 115 110 60 25 10 3 6 9 12 15 18 21 24 27 alt limitler ∝ 15 Grafik 1 : …den daha az eğrisi Prof. Dr. Levent ŞENYAY İstatistik I 15 V- 16 ↑ ∑ fi 225 220 205 170 ∑f 2 = 115 120 80 60 22 10 5 8 11 14 17 20 23 26 üst limitler ∝ 15 Grafik 2 : …den daha çok eğrisi ∑f i ve ↑ ∑f i Medyan sınıf limitleri Grafik 3: den daha az ve den daha çok eğrilerinin birlikte çizildiği grafik Prof. Dr. Levent ŞENYAY İstatistik I 16 V- 17 4.1.7. Kartiller (Q ) = kuarter=çeyrek Veri setini yüzdelik olarak dört eşit parçaya ayıran nokta sırasıyla Q1 , Q2 , Q3 olarak gösterilir. % 25 % 25 e n a lt ç e y re k Q1 Q1 = L + ∑f 4 − ∑ fi fθ1 Q 2 = Medyan = L + Q3 = L + % 25 ü s t- o r ta ç e y re k a lt- o r ta ç e y re k Q2 % 25 en üst ç e y re k Q3 i ∑f 2 − ∑ fi f θ2 ×i 3∑ f 4 − ∑ f i fθ 3 Örnek: Bir mağazada bir günlük satış tutarları ve alışveriş yapan müşteri sayısı aşağıdaki gibi sınıflanmıştır. Müş. ∑f x Miktarı 0- 8 9-17 Q1 18-26 Sayısı 10 8 12 10 18 30 4 13 22 Q 2 27-35 Q 3 36-44 28 58 31 18 14 10 76 90 100 40 49 58 Satış ∑ 45-53 54-62 100 Q1 = L + ∑f 4 − ∑ fi fθ1 i L= kümilatif frekans ¼’ü geçen sınıfın alt limiti ∑f i = Q1 ' den bir önceki sınıfa kadar f n toplamı fθ1 = Q1 sınıf frekansı Prof. Dr. Levent ŞENYAY İstatistik I 17 V- 18 i= sınıf aralığı Q1 = 18 + 25 − 18 × 9 = 23.25 12 Q 2 = Medyan = L + Q 2 = 27 + Q3 = L + ∑f 2 − ∑ fi f θ2 ×i 50 − 30 × 9 = 33.43 28 3∑ f 4 − ∑ f i fθ3 ×i L=kümilatif frekansı ¾’ü geçen ilk sınıfın ∑ alt limiti f i = Q 3 ' den bir önceki sınıfa kadar fr. Toplamı f θ 3 = Q 3 sınıfı frekansı Q3 = 36 + 75 − 58 × 9 = 44.5 18 4.1.8. Decile ve Percentile Decile bir dağılımı 10 eşit parçaya böler ve 9 tane decil vardır, Percentile ise bir dağılımı 100 eşit parçaya bölen 99 tanedir. Basit ve frekans serilerinde hesaplanışları medyan veya kartil hesaplamalarına benzer şekildedir. range percentile %30 %70 70. percentile 4.1.9. Mod Dağılımın en çok tekrar eden değeridir. Mod’un özelliği seride en yüksek olasılıklı bir eleman oluşudur. Halk dilinde ortalama olarak en çok kullanılan mod’dur. Birden fazla değer aynı frekansa sahip olduğunda tek bir mod saptanması olanaksızdır. Kesiksiz seride değerler birbirini sürekli biçimde izlediklerinden, veriler gruplandırılmadıkça mod diye bir eleman olmayabilecektır. Kesikli veriler durumunda Prof. Dr. Levent ŞENYAY İstatistik I 18 V- 19 bile birden fazla tekrarlanmayan değerlerle karşılaşılabilir, bu durumda da tabi mod yoktur. (örneğin şehir nüfusları). a. Basit serierde mod hesabı xi = 3,3,5,1 3 ⇒ mod değeri Mod tüm verilerin bir fonksiyonu olmayan bir istatistik, yani tüm verilerden etkilenmez. b. Frekans (Sınıflandırılmış) Verilerde Mod’un Hesaplanması: 1-)İnterpolasyon (aritmetik ) metot: Mod = L + Δ1 .i Δ1 + Δ 2 L=mod sınıfının alt limiti İ= sınıf aralığı Δ 1 = modal sınıf frekansı ile premodal(möddan bir önceki) sınıf frekansı arasındaki mutlak fark Δ 2 = modal sınıf frekansı ile postmodal(moddan bir sonraki) sınıf frekansı arasındaki mutlak fark Prof. Dr. Levent ŞENYAY İstatistik I 19 V- 20 Δ1 = 1 Δ 2 = 2 Δ1 1 = Δ1 + Δ 2 3 L+i mode Δ1 Δ1 + Δ 2 Δ1 Δ2 ∗ L 1/3 2/3 Örnek: sınıflar frekanslar 3-5 6-8 9-11 12-14 15-17 18-20 21-23 24-26 Mod= 12 + 10 15 35 50 40 30 28 22 premodal sınıf mod sınıfı postmodel sınıf ( 50 − 35) × 3 = 13.8 ( 50 − 35) + ( 50 − 40 ) Veya i=5-1+1=5 Prof. Dr. Levent ŞENYAY İstatistik I 20 V- i=10-5=5 21 2-)Grafik(Geometrik ) Metodu Fr. 50 40 35 9 12 MOD 15 alt limit 3-)Denel (Ampirik) Metot Bu metod asimetrik dağılımlarda aritmetik ortalama ile mod arasındaki uzaklığın, aritmetik ortalama ile medyan arasındaki arasındaki uzaklığın 3 katı olduğu varsayımına dayanır. Fazla güvenilir bir sonucu her zaman vermeyebilir. x − mod = 3 * ( x − medyan ) varsayılan eşitlik Tek modlu frekans eğrilerinde, moderate asimetri halinde aşağıdaki deneysel ilişki vardır. x − Mod = x − Medyan 3 Simetrik dağılışlarda ise; x = mod = medyan x > medyan > mod dağılımında(+)asimetri varsa dağılımında(-)asimetri varsa x < medyan < mod Prof. Dr. Levent ŞENYAY İstatistik I 21 V- 22 (+) Asimetri mod med x (-) Asimetri x med mod med=15 x = 15.31 x − mod = 3 * ( x − med ) mod=13.8 ve görüldüğü gibi (+) asimetrik bir dağılımdır. x > med > mod Bu varsayım orta derecede asimetrik bir dağılımda söz konusudur çünkü; orta derecede bir asimetrik dağılımda medyan, mod’a oranla ortalamadan üçte biri kadar uzakta bulunup asimetrik dağılımda x , mod, ve medyanın birbirinden uzaklaşma nedeni, mod dağılımının en yüksek ordinatıdır, medyan ise dağılımı iki eşit parçaya ayıracağından uzun olan tarafa gider, ortalama ise uç (extramum) değerlerden çok etkilendiği için küçük değerlerin yönüne doğru medyandan daha uzaklaşır. Elementer mod hesaplama metodlarının ayrı sonuç vermesi beklendiğinden, seriyi açıklama konusunda seçilecek mod değerleri hakkında araştırmacı kendi yargılamasını kullanmalıdır. Prof. Dr. Levent ŞENYAY İstatistik I 22 V- 23 ÖRNEK: Bir doğru üzerinde birbirine bitişik iki doğru parçasının uzunlukları a ve b olsun. Bu iki doğru parçası çap olmak üzere bir yarım çember çizelim. Çemberin r yarıçapının a ve b nin aritmetik ortalaması olduğunu ve dik “h” uzunluğunun bunların geometrik ortalaması olduğunu gösteriniz. x h y a b 2r = a + b a+b r= 2 2 a + h2 = x2 ⇒ aritmetik ortalama b2 + h2 = y 2 → 2. pisagor → 1. pisagor x 2 + y 2 = ( a + b) 2 → 3. pisagor ⇒ a 2 + b 2 + 2h 2 = a 2 + b 2 + 2ab ⇒ 2h 2 = 2ab ⇒ h = 2 ab = ab ⇒ geometrik ortalama Örnek: Bir köydeki 10 çiftçinin dönüme buğday verimleri ve sahip oldukları buğday arazileri aşağıda verilmiştir. Çiftçi No 1 2 3 4 5 6 7 8 9 10 Verim (kg/dön) 250 340 305 300 195 275 310 330 375 210 Arazi(dön) 15 25 12 30 35 5 20 17 10 23 Sadece verim dikkate alındığında aritmetik ortalama : x= 2890 = 289kg / dön 10 Ağırlıklar (arazi) dikkate alındığında ise ağırlıklı aritmetik ortalama : xw = 250.15 + 340.25 + ... + 375.10 + 210.23 53500 = = 278.6458kg / dön 15 + 25 + ... + 10 + 23 192 Prof. Dr. Levent ŞENYAY İstatistik I 23 V- 24 Görüldüğü gibi ağırlıklı ortalama, aritmetik ortalamadan daha küçüktür. xw < x Bunun anlamı; yüksek verim elde eden çiftçilerin arazileri nispeten daha küçüktür. 4.2. Değişkenlik Ölçüleri Tanımlayıcı istatistiklerden merkezi eğilim ölçüleri verilerin önemli bir çok özelliğini açıklamasına rağmen, veri grubunu diğerlerinden tam olarak ayıracak şekilde tam olarak açıklayamaz. Bu eksiklik verilerin öncelikle değişkenlik farklılığından gelir ve son olarak da asimetri yapılarının farklılıklarından meydana gelir. Diğer bir deyişle, aynı merkezi eğilim değerlerine sahip olan farklı veriler olabilir ve bu farklılık ya değişkenlik değerlerinden veya asimetri değerlerinden ya da hem değişkenlik hem de asimetri değerlerinin farklılığından kaynaklanabilir. 70 80 130 140 105 Yukarıdaki iki dağılım ayrı ranglı (ve yayılımlı) fakat aynı ortalamalı iki dağılımdır. 80-130 limitleri arasındaki dağılım homogen (türdeş) 70-140 limitleri arasındaki dağılım hetorogen (ayrı tür) dağılımlardır. RANG: Üst limit - Alt limit +1 (+1 hassasiyet birimi) Yukarıdaki dağılımların rangları = 130-80+1=51 diğeri ise 140-70+1=71’dir. Varyasyon, yaygınlık miktarını ; asimetri ise simetrinin bozulma miktarını belirler. Değişkenlik (yaygınlık) derecesini gösteren tanımlayıcı istatistikler Bu grupta yer alan değişkenlik istatistikleri, tek bir değere dayalı istatistiklerdir. Diğer bir değişkenlik istatistikleri grubu ise bu tek değere dayalı değişkenlik istatistiklerinin bir birlerine değişik şekillerde oranları olarak ifade edilen ve yorumlanan değişkenlik istatistikleridir. 1-) Toplam rang Prof. Dr. Levent ŞENYAY İstatistik I 24 V- 25 2-) Kartiller arası rang 3-) Yarı kartiller arası rang 4-)Standart sapma σ 5-)Ortalama sapma(A.D) Nispi varyasyon (oranlanan değişkenlik) ölçüleri 1-) Varyasyon katsayısı 2-) Ortalama sapma katsayısı 3-) Kartil sapma katsayısı Asimetri miktarı ise (x − mod ) ’dan bulunur. Dağılımlar Arasında Diklik ya da Basıklık Ölçüsü lepta kurtik(fazla dik) mezo kurtik (orta diklik) plati kurtik (yatik tepeli) Kurtosisler Kartiller Arası Rang = Q 3 − Q1 = 44,5 − 23,25 = 21,25 Yarı Kartiller Arası Rang= Q.D = Q 3 − Q1 21,25 = = 10,63 2 2 Q .D (yarı kartiller arası rang) çok küçük ise merkezi elemanların ufak varyansa sahip olduğu anlaşılır, ya da çok yüksek derecede tek düzen olduğu anlaşılır. Q 2 ∓ QD ancak dağılımın %50’e yakın bir rangı kapsar. 33,43 ∓ . 10,63= 22,8-44,6 dağılımın %50’si. 4.2.1. Varyans Ve Standart Sapma: Aritmetik ortalamadan sapmaların karelerinin aritmetik ortalamasının kare köküne standart sapma adı verilir.Standart sapmanın karesine varyans denir. Bir anlanda sapma karelerinin ortalamasıdır. Prof. Dr. Levent ŞENYAY İstatistik I 25 V- 26 S =Örnek standart sapması σ 2 = Populasyon standart sapması S 2 =Örnek varyansı σ 2 = populasyon varyansi Basit serilerde standart sapmanın hesaplanışı ∑(x − x ) σ= ∑x 2 = N 2 N ⎛∑x⎞ −⎜ = ⎜ N ⎟⎟ ⎝ ⎠ 2 ∑x N 2 − x2 Açıklama : ∑ (x − x) 2 = ∑x −2 2 σ2 = ∑x −2 ⎛∑x⎞ ⎟ = x + n⎜ ∑ ⎜ n ⎟ n ⎝ ⎠ = ∑ x 2 − 2 x ∑ x + nx 2 = ∑ x 2 (∑ x ) 2 n ∑( x − x ) i n = x2 − x 2 = + ∑( x 2 = (∑ x ) 2 n 2 − 2 xx + x 2 ) n ∑x 2 n = ∑x − ⎛∑x⎞ −⎜ ⎜ n ⎟⎟ ⎝ ⎠ 2 = ∑x (∑ x ) 2 n 2 n 2 − 2x ∑ x + nx n n 2 = 2 Populasyon standart sapması σ= ∑ (x − μ ) 2 N Örnek standart sapması S= ∑x 2 (∑ x) − n −1 2 n Frekans verilerinde Standart Sapmanın hesaplanması: Prof. Dr. Levent ŞENYAY İstatistik I 26 V- ∑x n 2 − 2x + x 2 27 ∑ f (x − x ) ∑ f −1 S= ∑ fx 2 = 2 − 2 x ∑ fx + ∑ fx 2 ∑ f −1 ⎛ ∑ fx ⎞ ∑ fx ∑ fx − 2 f ∑ fx + ∑ f ⎜⎜ f ⎟⎟ ∑ ⎝∑ ⎠ ∑ f −1 (∑ fx) (∑ fx) + ∑ fx − 2 ∑f ∑f ∑ f −1 (∑ fx) ∑ fx − ∑f ∑ f −1 2 2 = 2 2 2 = 2 2 = veya S = i. ∑ fd 2 − (∑ fd ) 2 ∑f ∑ f −1 şeklinde daha küçük sayısal değerler ile hesaplanabilir, burada i = sınıf aralığı ve d= (varsayımlı) ortalamadan pozisyon farkını göstermektedir. Örnek: Sınıflar 1-5 6-10 11-15 16-20 21-25 26-30 31-35 36-40 Prof. Dr. Levent ŞENYAY İstatistik I Frekans 10 15 35 50 40 30 28 22 230 x 3 8 13 18 23 28 33 38 27 f x2 fx 30 120 455 900 920 840 924 836 5025 V- 90 960 5915 16200 21160 23520 30492 31768 130105 28 S= (5025) 2 130105 − 230 = 88.732 = 9.42 229 %68.27 %95.45 %99.73 -3σ -2σ -σ x ∓ σ = gözlemlerin %68’ini x ∓ 2σ = gözlemlerin %95’ini x ∓ 3σ = gözlemlerin %99’unu kapsar. μ σ 2σ 3σ Örnek: x S A ve B malı 4.03 4.03 0.405 0.959 A B x=4.03 A malı daha homojendir. Bu nedenle Amalının kalitesi B malının kalitesinden yüksektir. 4.2.2. Ortalama Mutlak Sapma –OMS (Average Devıatıon - AD): Ortalama sapma da denir. O.M.S.= ∑ x−x n Prof. Dr. Levent ŞENYAY İstatistik I = veya ∑ x − med n 28 O.M.S.>0 V- 29 Frekans dağılımından hesaplanması O.M.S.= ∑ f x−x ∑f = veya ∑ f x − med ∑f Ondalık kesirler var ise büyük örneklerde kullanılır. Normal dağılımda x ∓ A.D. rangı seri elemanlarının %57,5’ini kapsar. A.D. küçük ise ve dağılımın çok sıkışık ya da tek düzen olduğu anlaşılır. ∑ f x − x = 1231,92 = 12,32 veya 100 ∑f ∑ f x − med = 1244,88 = 12,45 O.M.S.= 100 ∑f O.M.S.= x ∓ O.M .S . = %57,5 idi. 32,62 ∓ 12,32 = 20,30 − 44,98 veya 33,43 ∓ 12,45 = 20,98 − 45,88 personelin yıllık ücretlerinin ortalama mutlak sapması μ = 33500$ $ xi xi − μ 34500 30800 32900 36000 34100 33800 32500 1000 -2800 -600 2500 600 300 -1000 0 xi − μ 1000 2800 600 2500 600 300 1000 O.M.S=8800/7=1287$ Bu ölçü yaygınlık belirtir ve standart sapmaya göre 2 üstünlüğü vardır. 1) yorumlanan (kavram/mutlak) daha kolay 2) σ , σ 2 uç değerlerden çok etkilenir. Prof. Dr. Levent ŞENYAY İstatistik I 29 V- 30 4.2.3. Nispi Varyasyon Ölçüleri 1-Varyasyon Katsayısı: V = V = S x sonuç yüzdesi azaldıkça tek düzenlik artar. S * 100 = % ( ) şeklinde bulunan sonuçlarda; aynı konuda yapılmış başka x araştırma sonuçlarını karşılaştırmaya yarar. %’ler azaldıkça araştırmanın hassasiyeti artar. Aksi durumda azalır, yani üstün körü bir çalışma denebilir. V = S 15.45 = = 0.47 x 32.62 x= ∑ fx = 3262 = 32.62 ∑ f 100 2- Ortalama Sapma Katsayısı: Voms = OMS 12.32 = = 0,38 x 32.62 3-Kartil Sapma Katsayısı: Vq = Q 3 − Q1 Q 3 + Q1 Dağılımın uçları açık olduğu zaman ya da uç değerler bulunduğunda ve dağılım çabuk bir yorumu istendiğinde dağılma ölçüsünün ileri bir hesaplama ya da başka bir maksatla kullanılmasında gerek olmadığında kullanılır. Vq = 44.5 − 23.25 21.25 = = 0,31 44.5 + 23.25 67.75 4.3. Asimetri Ölçüleri İki dağılımın x1 = x 2 ve S1 = S 2 olduğu haldeki asimetrileri farklı olabilir. İstatistik teorisi genellikle normal dağılış varsayımına dayandırıldığından asimetri önem kazanmıştır. 4.3.1.Pearson Asimetri Ölçüsü S kp = S kp = x − mod x − [x − 3( x − med )] 3( x − med ) = = S S S 32,62 − 32,54 = 0,005 15,45 Prof. Dr. Levent ŞENYAY İstatistik I Mod = 27 + 30 V- 16 * 9 = 32,54 16 + 10 31 4.3.2. Kartillerden Asimetri Hesaplanması Q 3 − Q 2 > Q 2 − Q1 (+) asimetri Q 3 − Q 2 < Q 2 − Q1 (-) asimetri Q 3 − Q 2 = Q 2 − Q1 (0) asimetri yok 4.3.3. Bowley Asimetri Ölçüsü S kb = (Q3 − med ) − (med − Q1 ) S kb = Q3 + Q1 − 2Q 2 Q3 − Q1 Q3 − Q1 67,75 − 2(33,43) = = 0,04 21,25 (+) asimetri mod < med < x (-) asimetri x < med < mod Box –and-Whisker Gösterimleri Box and whisker gösterimlerinde en uç iki veri ile birlikte üç kartili de gösterebiliriz. Bu gösterimlerde kutu yatay veya dikey olarak gösterilebilir ve sol çizgi 25 oranında alt kartili ve sağ çizgi 75 oranındaki üst kartil içerir Whisker’in her iki ucundaki değerler Prof. Dr. Levent ŞENYAY İstatistik I 31 V- 32 en uç noktalardır. Örnek hacminin en az 50 veya 100 olduğu büyük veri setlerinde, whiskerler en uç değerler yerine yüzde 10 veya 90 veya 5 veya 95 oranlarına ulaşır. Box and whisker gösterimi ile minimum, ilk kartil, üçüncü kartil, medyan, maximum değerler ve çarpıklık yada simetri görülebilir. Final Sınavı Sonuçları 2.yıl 3.yıl 4.yıl 47 56 43 52 59 48 52 59 50 57 61 55 63 67 61 64 69 67 69 73 72 71 76 78 72 76 80 72 80 80 78 83 83 81 83 85 81 84 89 86 90 91 91 94 97 %25 %25 %25 %25 2.yıl 57 71 81 Q1 Q2 Q3 3.yıl 61 76 83 4.yıl 55 78 85 Box Plot 100,0 80,0 Amount Q3 Q2 60,0 Q1 40,0 C1 C2 C3 Variables Örneklerin Karşılaştırılması Verilerin analizinde karşılan durumlardan en önemlisi farklı populasyonlardan elde edilen iki veya daha fazla örneğin karşılaştırılması problemidir. Prof. Dr. Levent ŞENYAY İstatistik I 32 V- 33 Örnek: A B 17,6 18,3 10,8 19,2 18 39,4 21,4 19,9 23,7 22,7 23,2 19,6 12,4 28,1 11,5 7,8 16,7 16,8 25,6 23,7 26,9 11,2 21,5 18,9 Box Plot 40,0 Amount 28,3 16,7 5,0 A B Variables Quantile-quantile (q-q plot) 30 B 20 10 0 0 10 20 30 A Prof. Dr. Levent ŞENYAY İstatistik I 33 V- 40 34 Örnek: İstendiğinde percentile ve kantilleri de (i − 0,5) 12 , i=1,2,....,12 bu gösterimde kullanılabilinir. Eğimi bir olan orjinden geçen çizgi karşılaştırmaya yardımcı olur. Eğer tüm noktalar bu 45 derecelik çizgi üzerinde iseler o zaman iki örnek arasında tümüyle hiçbir fark yoktur; özellikle merkezleri ve genişlikleri aynıdır. Eğer tüm noktalar bu çizginin altında ise eski örnekteki kantiller yeniye oranla daha büyüktür. Başka bir değişle , eğer bütün noktalar bu çizginin üstünde ise yeni örnek eskisine oranla daha büyüktür. Bu box and whisker diyagramından çıkardığımız aynı sonuçtur. Quantile-quantile q-q plotunda iki dağılımın yayılımı hakkında da bilgi edinebiliriz. Eğer plot edilen noktalar 1 den büyük bir eğim ile artıyorsa bu yatay eksende plot edilen örneğin dikey eksende plot edilen örneğe nazaran daha az yayıldığını gösterir. Örnek: Dağılımlar x medyan S A 100 90 10 B 90 80 10 Her iki dağılımın a) Standart sapması aynı olduğu için varyasyonları aynıdır. b) Asimetriler 3(x − med ) S S kb = A’nın S kb = 3(100 − 90) =3 10 B’nin Örnek: Arit.Ort. Ömrü Medyan Ömrü A malı 4000 3500 B malı 3500 4000 x − mod = 3(x − med ) A için mod = 3medyan − 2 x =3(3500)-2(4000)=2500 B için mod = 3medyan − 2 x =3(4000)-2(3500)=5000 A’nın kalitesi B’den daha düşük Prof. Dr. Levent ŞENYAY İstatistik I 34 V- S kb = 3(90 − 80) =3 10 35 mod < med < x Mod< 3500< 4000 x < med < mod 3500<4000<mod Prof. Dr. Levent ŞENYAY İstatistik I 35 V- 36 4.4. Momentler Bir dağılımın momenti ilgili tesadüfi değişkenin çeşitli kuvvetlerinin beklenen değeridir. 1. Momentler üç grupta incelenebilir: Orijine gore momentler. 2. Aritmetik ortalamaya gore momentler 3. Herhengi bir a noktasına gore momentler Orijine göre momentler: Bunlara sıfıra veya başlangıç noktasına gore momentler de denir. Sürekli veya kesikli bir tesadüfi değişkenin sıfır ile farkının kuvvetlerinin beklenen değerine o tesadüfi degişkenin orijine göre momentleri denir. Orijine göre r’ inci moment mr veya μ 'r ile gösterilir. “r” momentin derecesi olup r= [ ] 0,1,2… degerlerini alabilir. Orijine göre r’ inci moment μ r' = E x r dir. x r fonksiyonunun beklenen değerine x tesadüfi değişkeninin sıfıra göre r’ inci dereceden momenti denir. Basit seride r. Moment r=0,1,2……… x1r + x 2r + ........ + x nr = E(x ) = x = n r r r i n ∑ (x = i − 0) n 2 2 3 + 33 + 5 3 + 9 3 = 222.25 4 Frekans serisinde r. moment E(x ) = x r r ∑ fx = ∑f r ∑ f (x − 0) = ∑f r ( ) x kesikli tesadüfi değişken ise E x r = μ r' = ( ) x sürekli tesadüfi değişken ise E x r = μ r' = n ∑ x f (x ) r i =1 +∞ ∫x = f ( x )dx r −∞ μ r′ = E (x r ) = E [( x − μ ) + μ ]r ⎡ r ⎛r⎞ ⎤ r ⎛r⎞ i = E ⎢∑ ⎜⎜ ⎟⎟( x − μ ) μ r −i ⎥ = ∑ ⎜⎜ ⎟⎟ μ i μ r −i ⎣ i =0 ⎝ i ⎠ ⎦ i =0 ⎝ i ⎠ i Prof. Dr. Levent ŞENYAY İstatistik I 36 2 2 2 + 32 + 5 2 + 9 2 x = = 29.75 4 x = 4.75 Örnek: x: 2,3,5,9 x3 = ∑x V- 37 ⎛1⎞ i =0 ⎝ i ⎠ 1 μ1′ = ∑ ⎜⎜ ⎟⎟ μ i μ 1−i ⎛1⎞ ⎛1 ⎞ = ⎜⎜ ⎟⎟ μ 0 μ ′ + ⎜⎜ ⎟⎟ μ1 μ 0 ⎝1⎠ ⎝0⎠ =μ (μ1 = 0) 2 ⎛ 2⎞ ′ μ 2 = ∑ ⎜⎜ ⎟⎟ μ i μ 2−i i =0 ⎝ i ⎠ ⎛ 2⎞ ⎛ 2⎞ ⎛ 2⎞ = ⎜⎜ ⎟⎟ μ 0 μ 2 + ⎜⎜ ⎟⎟ μ1 μ ′ + ⎜⎜ ⎟⎟ μ 2 μ 0 ⎝ 2⎠ ⎝1 ⎠ ⎝0⎠ μ0 = 1 μ1 = 0 ve = μ 2 + μ2 E (x 2 ) = [E ( x )] + var( x) 2 ( ) var( x) = [E ( x )] − E x 2 2 Orijine göre bazı momentlerin hesaplanması: Orijine göre sıfırıncı moment 1 ‘dir.r= 0 için x kesikli ise μ 0' = x sürekli ise μ = ' 0 ∑ x f (x ) = ∑ x f (x ) = ∑ f (x ) = 1 0 r +∞ +∞ +∞ ∫ x f (x )dx = ∫ x f (x )dx = ∫ f (x )dx = 1 0 r −∞ −∞ −∞ Orijine göre birinci moment aritmetik ortalamadır. r= 1 için x kesikli ise; μ1' = x sürekli ise; μ = ' 1 ∑x r fx = ∑ xf ( x ) = E ( x ) +∞ +∞ ∫ x f (x )dx = ∫ xf (x )dx = E (x ) r −∞ −∞ Aritmetik ortalama bir tesadüfi değişkenin sıfıra göre birinci momentidir. Orijine göre ikinci moment r= 2 için; x kesikli ise μ 2' = Prof. Dr. Levent ŞENYAY İstatistik I ∑ x f (x ) = ∑ x f (x ) = E (x ) 2 r 37 2 V- 38 +∞ r ∫ x f (x )dx = x sürekli ise; μ 2' = −∞ +∞ ∫ x f (x )dx = E (x ) 2 2 −∞ Orijine gore üçüncü moment r= 3 için x kesikli ise μ 3' = ∑ x f (x ) = ∑ x f (x ) = E (x ) 3 r x sürekli ise ; μ 3' = +∞ r ∫ x f (x )dx = −∞ 3 +∞ ∫ x f (x )dx = E (x ) 3 3 −∞ Sıfıra gore r’ inci moment xkesikli ise ; μ r' = x sürekli ise; μ = ' r ∑ x f (x ) = E (x ) r r +∞ ∫x r f (x)=E(x) −∞ Herhangibir a noktasına göre momentler: Bir x tesadüfi degişkeninin herhangibir a noktasına gore momenti o tesadüfi değişkeninin a ile farkının kuvvetlerinin beklenen degeridir. μ r ile gösterilir. Herhangi bir a noktasına göre moment Basit seride r. moment, E (x − a ) = μ r r ∑ (x − a ) = r n Frekans serisinde r. moment, r E (x − a ) = μr ∑ f (x − a ) = ∑f r Kesikli değişken x değişkeninin r. momenti E (x − a ) = μ r = ∑ (x − a ) f (x ) r r Sürekli değişken x değişkenin r. momenti E ( x − a ) = μ r = ∫ ( x − a ) f ( x )dx r r Teorem: E ( x − μ ) ≤ E ( x − a ) 2 2 μ r = E [x − a ]r x kesikli ise; μ r [x − a ] f ( x ) r μr = +∞ ∫ [x − a ] f (x )dx r −∞ Prof. Dr. Levent ŞENYAY İstatistik I 38 V- 39 Buna merkezi momentlerde denir istatistikte frekans dağılımlarının şeklinin belirlenmesinde kullanılırlar. Aritmetik ortalamaya göre momentler: μr veya m r şeklinde gösterilir. Bunlara kısaca ortalamaya gore momentlerde denir. Bir x tesadüfi değişkeninin aritmetik ortalamadan sapmasının kuvvetlerinin beklenen değeri olup; μ r = E [x − μ ]r şeklinde gösterilir. r x kesikli ise; μ r = ∑ ( x − μ ) f (x ) x sürekli ise; μ r = +∞ ∫ (x − μ ) f (x )dx r −∞ Aritmetik ortalamaya göre bazı momentlere örnekler: 2. Aritmetik Ortalamaya göre moment Basit seride r. moment r =0,1,2........ E (x − μ ) = μ r r ∑ (x = i − x) r n Örnek: x: 1, 3, 5, 15 x =μ=6 (1 − 6) + (3 − 6) + (5 − 6) + (15 − 6) = 0 μ1 = = μ2 ∑ (x − x ) 4 2 = n ∑ (x − x ) = n 2 ∑x − x n 2 2 2 2 ( 1 − 6 ) + (3 − 6 ) + (5 − 6 ) + (15 − 6 ) = 4 Frekans serisinde r. moment E (x − μ ) = μ r r ∑ f (x − x ) = ∑f r i Kesikli değişken x değişkeninin r. momenti E (x − μ ) = μ r = ∑ (x − μ ) f (x ) r r Sürekli değişken x değişkeninin r. momenti Prof. Dr. Levent ŞENYAY İstatistik I 39 V- = 29 40 E ( x − μ ) = μ r = ∫ ( x − μ ) f (x ) dx r r Aritmetik ortalamaya gore sıfırıncı moment 1’ dir. ∑ (x − μ ) f (x ) = ∑ f (x ) = 1 x kesikli ise; μ 0 = x sürekli ise; μ 0 0 +∞ +∞ −∞ −∞ 0 ∫ (x − μ ) f (x )dx = ∫ f (x )dx = 1 Aritmetik ortalamaya gore ve orijine gore x tesadüfi değişkeninin birinci dereceden momenti 1’ e eşittir. Aritmetik ortalamaya birinci dereceden moment sıfırdır. (x − μ ) f (x ) = xf (x ) − μ f (x ) x kesikli ise; μ1 = ∑ ∑ ∑ = E (x ) − μ = μ − μ = 0 +∞ +∞ +∞ ∫ (x − μ ) f (x )dx = −∫∞x f (x )dx − μ −∫∞ f (x )dx −∞ = E (x ) − μ = μ − μ = 0 x sürekli ise; μ1 = Birimlerin aritmetik ortalamadan farklarının toplamı sıfırdır. Aritmetik ortalamaya gore ikinci dereceden moment varyanstır. ∑ (x − μ ) f (x ) = ∑ x f ( x ) − 2 μ ∑ xf (x ) + μ ∑ f ( x ) x kesikli ise μ 2 = 2 2 2 ___ μ __ ( ) − 2μ + μ = E (x ) − μ = E (x ) − (E ( x )) =E x 2 2 2 +∞ 2 2 2 2 = V (x ) ∫ (x − μ ) f (x )dx x sürekli ise μ 2 = 2 −∞ +∞ +∞ +∞ −∞ 2 −∞ 2 2 ∫ x p(x )dx − 2μ ∫ x f (x )dx + μ = −∞ ( ) = E (x ) − μ ∫ f (x )dx = E x 2 − 2μ 2 + μ 2 2 ( ) = E x 2 − (E ( x )) = V (x ) 2 x tesadüfi değişkeninin aritmetik ortalamaya gore ikinci dereceden momenti varyanstır.x tesadüfi değişkeninin orijine gore ikinci dereceden momenti ile birinci dereceden momentinin karesi arasındaki fark da varyansı verir. ( ) : μ 2 = μ 2' − μ ''2 2 = V (x ) μ 3 = ∑ (x − μ )3 f(x) çarpıklık ölçüsüdür. μ 4 = ∑ (x − μ )4 f(x) basıklık ölçüsünde kullanılır. (a + b )n = ∑ ⎛⎜⎜ ⎞⎟⎟a n− x b x x n n x =0 ⎝ ⎠ Prof. Dr. Levent ŞENYAY İstatistik I 40 V- 41 ⎡ n ⎛n⎞ r i r −i ⎤ E ( x − μ ) = E ⎢∑ ⎜⎜ ⎟⎟(− μ1′ ) ( x ) ⎥ ⎣ i =0 ⎝ i ⎠ ⎦ μ = μ1′ ( ) E x i = μ i′ ( ) E x r −i = μ r′ −i n ⎛n⎞ r i E ( x − μ ) = ∑ ⎜⎜ ⎟⎟(− μ1′ ) (μ r′ −i ) i =0 ⎝ i ⎠ ⎛n⎞ i =0 ⎝ i ⎠ n μ r = ∑ ⎜⎜ ⎟⎟(− μ1′ )i (μ r′−i ) ⎛ 2⎞ i =0 ⎝ i ⎠ ⎛ 2⎞ ⎛ 2⎞ ⎛ 2⎞ 0 1 2 = ⎜⎜ ⎟⎟(− μ1′ ) (μ 2′ ) + ⎜⎜ ⎟⎟(− μ1′ ) (μ1′ ) + ⎜⎜ ⎟⎟(− μ1′ ) (μ 0′ ) ⎝ 2⎠ ⎝1 ⎠ ⎝0⎠ 2 μ 2 = ∑ ⎜⎜ ⎟⎟(− μ1′ )i (μ 2′ −i ) = μ 2′ − 2(μ1′ ) + (μ1′ ) 2 = μ 2′ − (μ1′ ) 2 2 ( ) = E x 2 − [E ( x )] = Var(x) 2 TEOREM:Aritmetik ortalamaya gore ikinci dereceden moment daima herhangi bir a noktasına gore ikinci dereceden momentten küçük ve ya eşittir.Buna varyansın minimum olma özelliği denir. [ E [( x − μ )] ≤ E (x − a ) 2 [ ] 2 ] E ( x − a ) sini ele alalım. 2 1 μ4 = 4 2 ( x − ) 4 (1 − x 3 )dx ∫ 30 5 2 μ4 = μ41 − 4 μ11 μ31 + 6μ11 μ21 − 3μ 1 = veya 1 2 1 2 2 2 − 4( )( ) + 6( ) 2 ( ) − 3( ) = 0,0077 10 5 7 5 9 5 Momentlere Dayanan Asimetri Ölçüleri Bir frekans dağılımının gösterdiği simetriden ayrılış derecesine asimetriklik veya çarpıklık denir. Normal bir bölünüm eğrisi çan şeklindedir ve ortalama etrafında simetriktir. Çarpık bölünümlerde ise eğrinin çan şekli bozulup mod’a göre sağa veya sola uzanmalar görülür. Prof. Dr. Levent ŞENYAY İstatistik I 41 V- 42 Bir dağılımın çarpıklığını gösteren ölçütler geliştirilmiştir. Bunlar değişkenlerin ölçme birimlerinden bağımsız olup , simetrik olan durumlarda sıfıra eşittir. Momentlere dayanan çarpıklık ölçülerinden frekans dağılımları bilinmeden olasılık fonksiyonları verilmişken, dağılımların çarpıklık derecesi öğrenilmiş olunur.Momentlere dayanan Asimetri(çarpıklık) Ölçüleri 1-) μ3 =aritmetik ortalamaya göre üçüncü dereceden moment bir çarpıklık ölçüsüdür μ3 = 0 μ3 > 0 μ3 < 0 simetrik durumlarda eğri sağa çarpık ise eğri sola çarpık ise Ancak çarpıklık ölçüsü olarak μ3 ün kullanılması bazı sakıncalar doğurabilir. μ3 =0 iken de bazen eğri simetrik olmayabilir. Bu da eğrinin şekli hakkında yanıltıcı bilgiler verebilir. Bunun nedeni fazla uç değerlerin aritmetik ortalamayı suni olarak yükseltip düşürmesidir. μ3 >0 iken çoğu değer aritmetik ortalamanın altındadır. Ancak dağılımda bulunan büyük uç değerler aritmetik ortalamayı büyütür ancak mod’u etkileyemez. Bu durumda aritmetik ortalama ile mod arasındaki fark pozitif olarak büyür. μ3 <0 iken birimlerin çoğu aritmetik ortalamanın üzerindedir. Ancak bazı küçük uç değerler aritmetik ortalamayı küçültürler ancak mod’u etkileyemezler. Bu durumda aritmetik ortalama ile mod arasındaki fark negatif olarak büyür ( μ -mod) μ de meydana gelen bu değişme hesabında kullanıldığı için μ3 ü de etkileyip yanıltıcı sonuçlar verebilir. 2-) β1 ve Y1 ÖLÇÜTLERİ: katsayısı bir dağılımın çarpıklığını Karl Pearson tarafından geliştirilen β1 anlamak için kullanılır. Tek modlu dağılımlar için geçerlidir. μ32 β1 = 3 μ2 β1 =0 ise dağılım simetriktir yani normal dağılımdır. Asimetrik bir dağılımda ise β1 daima pozitiftir. Bu da asimetrinin yönünü tayin etmeye imkan vermez. İster pozitif isterse negatif asimetri olsun μ3 daima pozitif ve payda da yer alan varyansda negatif olamayacağından dolayı β1 daima pozitiftir ve çarpıklığın yönü hakkında bir bilgi vermez. Bunun için R.A.Fisher tarafından ileri sürülen ve β1 in kareköküne eşit olan Y1 ölçütü kullanılır Y1 = β1 = Prof. Dr. Levent ŞENYAY İstatistik I μ32 μ3 μ3 μ3 3 = 3 = 3 = μ2 μ2 2 6 42 V- 43 normal bir dağılımda Y1 =0 olur Y1 >0 eğri sağa çarpık ise Y1 <0 eğri sola çarpık ise β1 = 0 β1 > 0 Y1 = 0 Y1 > 0 β1 > 0 Y1 < 0 3-) Çarpıklık için diğer bir formül ise; Sk = β 1 ( β 2 + 3) 2[5 β 2 − 6 β 1 − 9] S k =0 ise dağılım simetriktir μ 3 =0 olduğunda β 1 ve dolayısıyla S k da sıfır olacaktır -Momentlere dayanan basıklık ölçüleri- Bir dağılımda tepe noktasının yani mod’un yeri de çok önemlidir. Bir frekans dağılımı eğrisinin tepe noktası eğrisinin yani mod’un aynı aritmetik ortalama ve standart sapmaya sahip normal bir bölünümün tepe noktasına yani mod’una göre daha aşağıda veya yukarıda bulunmasına basıklık farkı denir.Eğer bir eğrinin tepe noktası normal bir dağılımın tepe noktasından daha yüksek ise normale göre sivri bir eğri , daha alçak ise normale göre basık bir eğri denir. Sivri bir eğride aritmetik ortalama etrafında yoğunlaşma daha fazla olur. Basıklık farkını ölçen ölçülere basıklıkölçüleri denir. -Basıklık ölçüleri1-)Pearson basıklık katsayısı:Karl pearson basıklık ölçüsü β 2 olup buna pearson basıklık katsayısı da denir β2 = μ4 μ4 = μ 22 6 4 β 2 = 3 normal bir eğri 1 ≤ β 2 <3 dağılım normale göre basık β 2 >3 dağılım normale göre sivri 2-)Fischer basıklık katsayısı:R.A. Fisher’e göre basıklık ölçüsü Y2 olup buna Fischer basıklık katsayısıda denir. Prof. Dr. Levent ŞENYAY İstatistik I 43 V- 44 Y2 = β 2 − 3 = μ4 μ − 3 = 44 − 3 2 6 μ2 Y2 = 0 Y2 >0 Y2 <0 Prof. Dr. Levent ŞENYAY İstatistik I 44 normal bir eğri ise dağılım sivridir ise dağılım basıktır V-