DEĞİŞKENLİK ÖLÇÜLERİ Değişkenlik (Yayılım) Ölçüleri • İki farklı anakütleyi birbirinden ayırmak için her zaman yalnızca yer ölçüleri yeterli olmayabilir. • Dağılımları birbirinden ayırt etmede kullanılan ve genellikle aritmetik ortalama etrafındaki değişimi dikkate alarak hesaplanan istatistiklere değişkenlik(yayılım) ölçüleri adı verilir. 2 400 Frekans Frekans Aşağıdaki iki grafik n = 1500 hacimlik alınan iki farklı örnek doğrultusunda oluşturulan histogramlardır. Her iki örnek ortalaması yaklaşık olarak 100 olduğuna göre iki örneğin aynı anakütleden alındığı söylenebilir mi? 300 1200 1000 800 200 600 400 100 200 0 0 12 10 95 81 67 33 3, 33 9, 3 ,3 3 ,3 33 3, 33 9, 3 ,3 3 ,3 3 ,3 3 ,3 12 10 95 81 67 X X 3 • İki örneğin aynı anakütleden geldiği söylenemez. • Bunun nedeni alınan örnek sonucunda oluşturulan histogramda dağılımların ortalama etrafında farklı olmasından kaynaklanmaktadır. • Dağılımları birbirinden ayırt etmede kullanılan yayılım ölçüleri aritmetik ortalama etrafındaki değişimleri dikkate alan tanımlayıcı istatistiklerdir. • Bir veri setinde aritmetik ortalamalardan her bir gözlemin farkı alınıp bu değerlerin tümü toplandığında sonucun 0 olduğu görülür. 4 • Örnek: 4,8,9,13,16 şeklinde verilen bir basit seri için; n x= ∑x i =1 n i = 4 + 8 + 9 + 13 + 16 = 10 5 ∑ ( x − x ) = (4 − 10 ) + (8 − 10 ) + (9 − 10 n i i =1 ) = (13 − 10 ) + (16 − 10 ) = 0 • Bu örnekten görüleceği üzere gözlemlerin aritmetik ortalamadan uzaklığı alıp toplandığında 0 elde edildiğinden dolayı bu problem mutlaka değer kullanarak veya karesel uzaklık alınarak ortadan kaldırılır. 5 1) Ortalama Mutlak Sapma(OMS) • Veri setindeki her bir gözlem değerinin aritmetik ortalamadan farklarının mutlak değerlerinin toplamının örnek hacmine bölünmesiyle elde edilir. • Gözlem değerlerinin aritmetik ortalamadan faklarının toplamı 0 olacağından bu problemi ortadan kaldırmak için n mutlak değer ifadesi kullanılır. x −x Basit seriler İçin: OMS = ∑ i i =1 n k Gruplanmış seriler İçin: OMS = ∑f i =1 xi − x i k ∑f k i =1 Sınıflanmış Seriler İçin : OMS = ∑f i =1 i i mi − x k ∑f i =1 6 i Örnek: İstatistik I dersini alan 10 öğrencinin vize notları aşağıdaki gibi sıralanmıştır. Buna göre vize notları için ortalama mutlak sapma değerini hesaplayınız. 30,41,53,61,68,79,82,88,90,98 n x= ∑x i =1 i n 30 + 41 + .... + 98 = 69 10 = ∑ x −x n OMS = i =1 i = n 145 = = 14,5 10 30 − 69 + 41 − 69 + ... + 98 − 69 10 7 Örnek: Aşağıdaki tabloda 30 günlük süre içinde bir restoranın kullandığı et miktarının dağılımı verilmiştir. Günlük kullanılan et miktarının ortalama mutlak sapmasını hesaplayınız. Ifi( mi − xv )I Sınıflar fi mi I2(33-46,6)I 30-36’dan az 2 33 I6(39-46,6)I 36-42’den az 6 39 I10(45-46,6)I 42-48’den az 10 45 I7(51-46,6)I 48-54’dan az 7 51 I4(57-46,6)I 54-60’den az 4 57 I1(63-46,6)I 60-66’den az 1 63 Toplam 30 163,2 k k x= ∑m f i i =1 k ∑f i =1 i i = 46,6 kg. OMS = ∑f i =1 i mi − x k ∑f i =1 = 163,2 = 5,44 kg. 30 i 8 2) Varyans Ortalama mutlak sapmada kullanılan mutlak değerli ifadeler ile işlem yapmanın zor hatta bazı durumlarda imkansız olması sebebiyle yeni değişkenlik ölçüsüne ihtiyaç bulunmaktadır. • • Mutlak değer ifadesindeki zorluk aritmetik ortalamadan farkların karelerinin alınmasıyla ortadan kalkmaktadır. • Veri setindeki her bir gözlem değerinin aritmetik ortalamadan farklarının karelerinin toplamının örnek hacminin bir eksiğine bölünmesinden elde edilen değişkenlik ölçüsüne örnek varyansı adı verilir. 9 Basit seriler İçin: Populasyon Varyansı: μ : Populasyon Ortalaması ∑ (x − μ ) 2 σ = 2 i N N : Populasyon Hacmi ∑ (x − x ) n Örnek Varyansı : s = 2 2 i i =1 n −1 k Gruplanmış Seriler İçin: s2 = ∑ f (x − x) i =1 ∑f s2 = i =1 2 i k k Sınıflanmış Seriler İçin : i i −1 ∑ f (m − x ) i =1 i k ∑f i =1 2 i i −1 10 ∑ (x − x ) n 2 i i =1 ifadesi istatistikte bir çok formülde kullanılır ve kareler toplamı olarak adlandırılır. • Matematiksel olarak hesaplama kolaylığı sağlaması açısından formüllerde kareler toplamının açılımı olan aşağıdaki eşitlik kullanılabilir. ( ∑x ) − 2 n ∑ (x − x ) = ∑ x n i =1 2 i n 2 i i =1 i i =1 n 11 (∑ x ) − 2 n n Basit Seriler İçin: ∑x s = 2 2 i =1 i i =1 n −1 n ( ∑fx) − 2 k k ∑fx i i= Gruplanmış Seriler İçin: s = 2 i k i =1 i ∑ f −1 k i =1 k ∑ i= Sınıflanmış Seriler İçin : i= ∑f i 2 s = i i ⎛ k ⎞ ⎜ ∑ f i mi ⎟ ⎠ f m2 − ⎝ i= i i 2 k ∑f 2 i =1 k ∑f i =1 i i −1 12 3) Standart Sapma • Varyans hesaplanırken kullanılan verilerin kareleri alındığından verilerin ölçü biriminin karesi varyansında ölçü birimi mevcut ölçü birimini karesi olur. • Örnek: kg2, cm2 gibi. • Bu nitelendirme veriler açısından bir anlam taşımayacağından varyans yerine ortalama etrafındaki değişimin bir ölçüsü olarak onun pozitif karekökü olan standart sapma kullanılır. 13 • Bir dizi ölçümün gösterdiği değişimin en güvenilir ölçüsüdür. • Dağılım fazlaysa standart sapma büyük, dağılım dar alanda ise küçüktür. 14 Basit seriler İçin: ∑ (x − μ ) 2 Populasyon Standart Sapması: σ= i N μ : Populasyon Standart Sapması N : Populasyon Hacmi ∑ (x − x ) n s= Örnek Standart Sapması : 2 i i =1 n −1 k s= Gruplanmış Seriler İçin: ∑ f (x − x) i i =1 k ∑f i =1 i −1 k Sınıflanmış Seriler İçin : s= ∑ f (m − x ) i i =1 2 i 2 i k ∑f i =1 i −1 15 Örnek: İstatistik I dersini alan 10 öğrencinin vize notları aşağıdaki gibi sıralanmıştır. Buna göre vize notları için varyans ve standart sapmayı hesaplayınız. n x= 30,41,53,61,68,79,82,88,90,98 ∑ (x − x ) n s = 2 i =1 2 i 2 i =1 n i = 30 + 41 + .... + 98 = 69 10 (30 − 69) + (41 − 69) + ... + (98 − 69) = 2 2 n −1 4538 = ≈ 504,22 9 s ≈ 504,22 ∑x → 2 9 s = s = 504,22 ≈ 22,45 2 İstatistik I vizesinden alınan notların ortalama etrafında yaklaşık olarak 22 puan değiştiği görülmektedir. 16 Aynı soru kareler ortalamasının açılımı kullanılarak çözüldüğünde aynı sonuçları verecektir. 30,41,53,61,68,79,82,88,90,98 2 x x 30 41 53 61 68 79 82 88 90 900 1681 2809 3721 4624 6241 6724 7744 8100 (∑ x ) − 2 n n s = 2 ∑x i =1 2 i n −1 n (690) 52148 − 2 i =1 = 10 9 s ≈ 504,22 2 s = s = 504,22 ≈ 22,45 2 ∑ x = 690 ∑ x = 52148 n i =1 n i 2 i =1 i 17 Örnek: Yandaki tabloda bir Samsung bayisindeki LCD televizyonların ekran boyutlarına göre satış miktarları verilmiştir. Frekans dağılımının varyans ve standart sapmasını hesaplayınız. Grup Frekans xifi 51 66 72 82 94 (∑ f x ) − ∑fx i= s = i 2 i i i= ∑f i =1 ∑ f −1 k i i (1605) 131607 − 2 i k 2 i =1 1 51 2601 3 198 13068 4 288 20736 5 410 33620 7 658 61852 ∑fi =20 1605 131607 2 k k x i2 f i = 20 19 ≈ 147,67 s = s = 147,67 ≈ 12,15 2 18 Örnek: Aşağıdaki tabloda 30 günlük süre içinde bir restoranın kullandığı et miktarının dağılımı verilmiştir. Günlük kullanılan et miktarının varyansını ve standart sapmasını hesaplayınız. v fi( mi − x )2 Sınıflar fi mi 30-36’dan az 36-42’den az 42-48’den az 48-54’dan az 54-60’den az 60-66’den az Toplam 2 6 10 7 4 1 30 ∑ f (m − x ) k s = 2 i =1 i i ∑ f −1 k i =1 i 2(33-46,6)2 6(39-46,6)2 10(45-46,6)2 7(51-46,6)2 4(57-46,6)2 1(63-46,6)2 1579,2 33 39 45 51 57 63 2 = k x= ∑m f i i=1 i k ∑f i=1 = 46,6kg. i 1579,2 ≈ 54,46 30 − 1 s = s = 54,46 ≈ 7,38 kg. 2 19 4) Range (Değişim Aralığı) Veri setindeki yayılımı ifade etmede kullanılan en basit istatistik değişim aralığıdır. Genel olarak basit seriler için kullanılır. • • En büyük gözlem değeri ile en küçük gözlem değeri arasındaki fark değişim aralığını verir. • Veri setindeki tek bir gözlemin aşırı derecede küçük veya büyük olmasından etkilendiği için bir başak ifadeyle örnekte yer alan sadece iki veri kullanılarak hesaplanmasından dolayı tüm veri setinin değişkenliğini açıklamak için yetersiz kalmaktadır. 20 Değişken Range 21 • R = Xmax – Xmin X: SÜREKLİ ŞANS DEĞİŞKENİ • R = Xmax – Xmin +1 X: KESİKLİ ŞANS DEĞİŞKENİ Örnek: Bir fabrikada çalışan 5 endüstri mühendisinin bildiği yabancı dil sayıları aşağıda verilmiştir. Buna göre bu mühendislerin bildiği yabancı dil sayısı için değişim aralığını hesaplayınız. 2,0,1,2,0 Xİ = 0,0,1,2,2. n=5 i: 1,2,3,4,5. • R = Xmax – Xmin +1 = 2 – 0 + 1 = 3 22 5) Değişkenlik(Varyasyon) Katsayısı • İki veya daha fazla populasyon üzerinde aynı şans değişkenleri için yapılan araştırmalarda değişkenliklerin karşılaştırılması için kullanılan bir ölçüdür. • Standart sapmayı ortalamanın bir yüzdesi olarak ifade eden ve iki veya daha fazla populasyondaki varyasyonu (değişkenliği) karşılaştırmada kullanılan ölçüye varyasyon(değişkenlik) katsayısı denir. Varyasyon Katsayısı: C = V s *100 X • Örnek: İstanbul’da ve Ankara’da yaşayan ailelerin aylık gelirlerinin değişkenliklerinin karşılaştırılması 23 Örnek: Kuruyemiş satan bir dükkanda bir haftalık sürede satılan leblebi, fıstık ve bademlerin ortalamaları ve standart sapmaları aşağıda verilmiştir. Buna göre kuruyemişleri değişkenlikleri açısından karşılaştırınız ve kuruyemişin değişkenliğinin daha fazla olduğunu belirtiniz. x Leblebi 30 kg. s C Vleblebi = 5 kg. Fıstık 40 kg. 4 kg. Badem 10 kg. 3 kg. C V fııstı C VBADEM 5 s *100 = *100 = 16,67 = %16,67 X 30 4 s *100 = *100 = 10 = %10 X 40 s 3 = *100 = *100 = 30 = %30 X 10 = Üç kuruyemişin değişkenlikleri karşılaştırıldığında en küçük standart sapma değeri bademde olmasına rağmen en büyük varyasyon katsayısına sahip olduğundan en fazla değişkenliğin bademde olduğu görülür. Aritmetik ortalamalar içerisinde standart 24 sapma yüzdelerine bakıldığında en büyük yüzde bademdedir. Çarpıklık (Asimetri) Ölçüleri • Populasyonları birbirinden ayırmak için her zaman yalnızca yer ve yayılım ölçüleri yeterli olmayabilir. Aşağıda iki farklı populasyondan alınmış örnekler için oluşturulan histogramlar verilmiştir. 0 μA 0 μΒ A B 25 • Şekilden görüleceği üzere A ve B örneklerinin aynı ortalamaya ve yaklaşık olarak aynı değişkenliğe sahip olmalarına rağmen bu iki örneğin açıkça aynı populasyondan gelmediği söylenir. • Asimetri (çarpıklık) ifadesi simetrik olmayan anlamını taşımaktadır. •Şekillere bakıldığında frekansların A’da daha çok sol tarafta (küçük xi değerlerinde), B’de ise daha çok sağ tarafta (büyük xi değerlerinde), toplandığı görülmektedir. 26 Asimetri Ölçüleri PEARSON ÇARPIKLIK ÖLÇÜSÜ Skp = Skp = x − mod s veya SkP < 0 →Negatif çarpık(Sola) SkP > 0 → Pozitif Çarpık(Sağa) 3( X − med) s SkP = 0 ise dağılış simetrik BOWLEY ÇARPIKLIK ÖLÇÜSÜ Skb = (Q3 − Q2 ) − (Q2 − Q1 ) Q3 − Q1 Simetrik Dağılım A.O = Med = Mod İki modlu simetrik dağılım Skb < 0 → Negatif çarpık(Sola) Skb > 0 → Pozitif Çarpık(Sağa) Skb = 0 ise dağılış simetrik 27 Sağa çarpık dağılım Sola çarpık dağılım A.O > Med > Mod A.O < Med < Mod Modu olmayan dağılım Tekdüzen dağılım 28 Örnek: Aşağıdaki tabloda 30 günlük süre içinde bir restoranın kullandığı et miktarının dağılımından elde edilen bazı tanımlayıcı istatistikler verilmiştir. Buna göre pearson ve bowley asimetri ölçülerini hesaplayıp yorumlayınız. Aritmetik Ort. Mod Medyan Q1 Q2 s2 46,6 45,4 46,2 41,5 51,9 54,46 Sk p = 3( X − med ) 3(46,6 − 46,2) = ≈ 0,16 > 0 s 54,46 Sk p = x − mod 46,6 − 45,4 = ≈ 0,16 > 0 s 54,46 Skb = Sağa Çarpık , Pozitif Asimetri Sağa Çarpık, Pozitif Asimetri (Q3 − Q2 ) − (Q2 − Q1 ) (51,9 − 46,2) − (46,2 − 41,5) = 51,9 − 41,5 Q3 − Q1 = 1 ≈ 0,10 > 0 10,4 Sağa Çarpık , Pozitif Asimetri 29 Basıklık Ölçüsü Aşağıdaki A ve B dağılımlarının ortalamaları, değişkenlik ölçülerinin aynı olmasından dolayı ve hatta ikisinin de simetrik olmalarından dolayı bu iki dağılışı ayırt etmek için Basıklık Ölçüsü kullanılır. A B A = 30 B Herhangi bir olasılık fonksiyonunun şekli ile ilgili parametrelerden bir tanesi de basıklık ölçüsüdür. Basıklık Ölçüsü ortalamaya göre dördüncü momentten gidilerek hesaplanır ve α4 olarak gösterilir. μ α 4 = 44 σ n Basit Seri İçin μ4 = ∑ (x − μ ) i =1 4 i n α4 = 3 ise Seri Normal α4 < 3 ise Seri Basık α4 < 3 ise Seri Sivri Ya da Yüksek 31 Ödev • Yanda verilmiş olan sınıflandırılmış serinin eğikliğini Pearson ve Bowley eğiklik ölçülerine göre elde ediniz. Sınıflar Frekanslar 0-2 den az 5 2-4 den az 9 4-6 dan az 6 6-8 den az 7 8-10 dan az 3 Cevap: Pearson’a göre eğiklik: 0.584 Bowley’e göre eğiklik: 0.14 32