2. TEMEL İSTATİSTİK KAVRAMLARI 2.1. İstatistik Kavramı İstatistik bir olaya (evren, ana kütle,toplu, kolektif ve yığın şeklindeki) ait verilerin (anket, deney ve gözlem vb.) toplanarak sayısal olarak ifade edilmesini ve bu verilerin çeşitli matematiksel yöntemler ile analiz edilmesini, değerlendirilmesini ve yorumlanmasını içeren bilim dalıdır. 2.2. Değişken Elde edilen verileri değişkenler (x,y,z, v.b.) ile ifade edilebiliriz. Değişken tanımlı olduğu aralıkta her değeri alıyorsa sürekli (örnek: Boy uzunluğu, ağırlık, hız) ve tanımlı olduğu aralıkta bazı değerleri alıyorsa kesikli değişken ( örnek : Bir evde yaşayan kişilerin sayısı, bir limana bir günde giren gemi sayısı v.b.) olarak adlandırılır. Bu nedenle bütün verilerin(değişkenler) oluşturdukları dağılımlar da sürekli (normal, üstel, Gama dağılımları gibi) ve kesikli (örnek: Uniform (düzgün), Bernoulli, Binom, Poisson, Paskal (negatifbinom), Geometrik dağılımlar gibi) olmak üzere iki grupta toplanabilir. Aynı zamanda aldıkları değer bakımından sayısal değerler alan değişkenlere nicel (örnek : boy uzunluğu, vücut ağırlığı v.b.), sayısal değer alamayan değişkenlere ise nitel değişkenler (örnek : cinsiyet, medeni hal v.b) denir. 2.3.İstatistik Türleri İstatistik tanımlayıcı ve çıkarımsal istatistik olmak üzere iki grupta toplanabilir. Tanımlayıcı İstatistik: Verilere ait ortalama, mod, medyan, standart sapma, çarpıklık ve basıklık katsayısı gibi merkezi eğilim değerlerinden yararlanarak verilerin tablolar, grafikler ile gösterilmesi ve özetlenmesidir. Çıkarımsal İstatistik: Ana kütleden tesadüfen (rasgele) seçilen örnek grubu üzerinde yapılan gözlem ve ölçmelerin değerlendirilmesi ile ana kütle hakkında bilgi edinilmesi ve tahminde bulunulmasıdır. 2.4.İstatistiğin işlem adımları (Veri Analizinin Algoritması) a.Verilerin toplanması (Yazılı Kaynaklardan, Gözlemsel, Deneysel , Anket ve bunun gibi Yöntemler ile) b.Toplanan verilerin işlenip düzenlenmesi (Toplanan verilerin sayısal olarak ifade edilip kodlanması, verilerin sıralanması, gruplandırılması ve frekans tablolarının oluşturulması ) c.Düzenlenen verilerin tablo veya grafikler şeklinde gösterilmesi (Çizgi grafiği, çubuk grafiği, pasta grafiği, histogram v.b.) d.İstatistiki analiz, tahmin ve karar aşaması (analiz aşamasında verilere ait ortalama, mod, medyan gibi merkezi eğilim değerleri ve standart sapma, basıklık, çarpıklık gibi merkezi dağılım değerleri belirlenir. Aynı zamanda uygun istatistiksel analiz yöntemi ile analiz edilerek, elde edilen sonuçlar yorumlanır.) 3. Merkezi Eğilim Ölçüleri 3.1.Ortalamalar 3.1.1. Aritmetik Ortalama x 1 , x 2 , . . .x, n şeklindeki n tane verinin aritmetik ortalaması x= ∑x ile tanımlanır. n Frekanslı Verilerin Ortalaması x= ∑f x f = frekans (çokluk, sıklık)= aynı sayıdan birden fazla var n n=∑f Kodlama Yöntemi Sayılar büyük olduğunda bu yöntem tercih edilir. A = Keyfi bir sayı (Genellikle frekansı en büyük olan x değerinin alınması işlemleri i = 1,2,3,….,n kolaylaştırır.) d i = x i – A, x =A+ ∑f d n ÖR: X d = x – A = x – 50 53 53-50=3 48 48-50=-2 49 49-50=-1 52 52-50=2 52 52-50=2 + ∑f d = 4 Kodlama yöntemi ile x =A+ x= ∑ f d = 50 + n ∑x = 2 n 5 4 = 50,8 5 5 4 = 5 ,80 Frekanslı Veriler için ∑f d x =A+ n ÖR: X F d = x – A = x – 55 fd 60 2 5 10 70 1 15 15 55 2 0 0 75 2 20 40 50 1 -5 -5 + n=8 ∑f d = 6 0 - Ortalamanın Özellikleri ∑ (x − x) = 0 2- ∑ ( x − a ) = m 1- i 2 i ⇔i an= x 3- f 1 tane sayının ortalaması m 1 f 2 tane sayının ortalaması m 2 . f k tane sayının ortalaması m k ise x= ∑f m = f m + f m . f + f +. ∑f 1 1 2 1 2 2 + . f .k m.k +. f k. ÖR: 6, 10, 15 ve 10, 20 sayıları verilsin. f 1 = 3, x1 = 6 + 1 +0 1 5 =7 3 f 2 = 2, x2 = 1 0+ 2 0 =1 2 x= 3.7 + 2.1 5 = 1 ,20 5 Ortalamayı hesaplayınız. x =A+ x= ∑ f d = 55 + n ∑f x = 6 n ,25 60 8 4- hesabı kolaydır. 5- Aşırı uç değerlerden etkilenir.(çok büyük ve çok küçük değerler) 3.1.2. Ağırlıklı (Tartılı) Ortalama x 1 , x 2 , . . .x, k sayılarının ağırlıkları w 1 , w 2 , . . .w, k ise ∑w x ∑w ile verilir. Dersin adı Not = x i Kredi = w i Kredi x not = w i x i Analiz 60 5 300 İstatistik 70 4 280 Fizik 50 3 150 x= ÖR: ∑w D.N.O.= x = =12 ∑w x =7 3 ∑ w x 7 3 0= 6 0,8 2 = ∑w 1 2 Gruplandırılmış (Sınıflandırılmış) Verilerin Ortalaması Veri sayısı fazla ise veriler sınıflandırılarak işlem yapılır. 138 164 150 132 144 125 149 157 146 158 140 147 136 148 152 144 168 126 138 176 163 119 154 165 146 173 142 147 135 153 140 135 161 145 135 142 150 156 128 128 Ortalama = x = ∑f x n = 5872 = 1 4 ,86 gerçek ortalama 40 Limit gruplar Frekanslar 118-126 3 Alt limit Üst limit 127-135 5 118 126 . . 127 135 . . . . . . Alt sınır Üst sınır Alt limit – 0,5 Üst limit + 0,5 117,5 126,5 126,5 135,5 . . . . Sınıf ortası = a ll ti m i t+ ü sl it m i t 2 C = sınıf genişliği (aralığı, uzunluğu) = iki alt limit veya üst limit farkıdır. = bir sınıfın üst sınırı – alt sınırıdır N= ∑f ui = di c ise ∑f u C x = A+ n 3.1.3. Geometrik Ortalama x 1 , x 2 , . . .x, n sayılarının geometrik ortalaması G = n x1 , x2 , . . x.n , ile tanımlanır. Sınıflandırılmış veriler için G = n x1 1 x2 2 . .xk. f ÖR: f fk k : sınıf sayısı 3 6 9 12 15 sayıları için xi : sınıf ortası Sınırlar G = 5 3.6.9.1 .12 =57,8 1 Geometrik Ortalamanın Özellikleri • Sayılardan biri 0 ise G = 0 dır. • Geometrik ortalama değişim oranının hesabında kullanılır. ÖR: Yıl Nüfus Geometrik nüfus Ortalama 1947 3 000 3 000 3 000 1948 24 000 3 000 x 8 = 24 000 3 000 x 5 = 15 000 1949 48 000 24 000 x 2 = 48 000 15 000 x 5 = 75 000 1947–1949 yılları arasındaki nüfusun ortalama değişme miktarını bulunuz. G = 8.2 = 4 x1 = 2 4 0 0 0 =8 3 0 0 0 x2 = 4 8 0 0 0 =2 2 4 0 0 0 x= 8+2 =5 2 NOT: Geometrik ortalama kullanılarak hesaplanan değerler gerçek değerlerle uyuşmaktadır. 3.1.4. Harmonik Ortalama: H= n 1 ∑x Sınırlandırılmış veriler için H= n f ∑x ÖR: 10, 1, 100, 20, 40 H= 1 +1+ 1 0 1 5 1 1 1 + + 0 2 0 04 = 4,2 0 1 ÖR: 10 km yi 30 km/sa ortalama hızı nedir? 10 km yi 60 km/sa x 1 = 30, x 2 = 60 H= 2 =4 0 1 1 + 3 0 6 0 Harmonik Ortalamanın Özellikleri • Sayılardan biri 0 ise harmonik ortalama hesaplanmaz. • Ortalama hız, işçi, havuz vb. problemlerde sıklıkla kullanılır. H ≤G≤ x NOT: a ve b sayıları için: H = 2ab ≤ a+b 2a b a+b a.b ≤ a=b ⇒ x= G = a.b a+b 2 2a.a ≤ a+a a.a ≤ a+a 2 ⇒ 3.1.5.Karesel (Kuadratik) Ortalama x 1 , x 2 , . . .x, n sayılarının kuadratik ortalaması K.O. = ÖR: ∑x 2 n 5, 8, 10, 12, 15 için K.O.=? K.O.= 5 5 8 = 1 0,5 6 5 3.2. Medyan (Ortanca - Orta Değer) Sıralanmış verileri eşit sayıda iki gruba ayıran değere medyan denir. a- Veri sayısı tek ise: a+b 2 a≤a≤a Medyan =Sıralanmış verilerde (n+1)/2. değer medyan değeridir. Medyan = x (n+1) / 2 ÖR: x i = 12, 5, 20, 22, 17, 25, 40 Sıralanmış veriler: n=7 5, 12, 17, 20, 22, 25, 40 Medyan = x (n+1) / 2 = x (7+1) / 2 = x 4 = 20 4. değer b- Veri sayısı çift ise: Medyan = n/2. değer ile xn / 2 + xn / 2+1 n+2 . değerlerin ortalaması = 2 2 ÖR: x i = 12, 14, 14, 16, 16, 17, 18, 18, 19, 20 n = 10 Medyan = [x n / 2 + x n / 2 + 1 ] / 2 = [x 5 + x 6 ] / 2 = (16 + 17) / 2 = 16,5 Sınıflandırılmış Verilerin Medyanı Medyan sınıfı: n / 2. değerin içinde bulunduğu sınıftır. M n / 2 − fa = eL a +d fm .c L a : Medyan sınıfının en alt sınırıdır f a : Medyan sınıfından önceki sınıfların frekansları toplamıdır. f m : Medyan sınıfının frekansı c : Sınıf genişliği Birikimli (komülatif ) frekanslar: Bir sınıftan önceki sınıfların frekansları toplamıdır. Medyan Özellikleri 1- Hesap yapmadan bulunur. 2- Sınırlandırma gerektirmesi bir kusur 3- Aşırı uç değerlerden etkilenmez 4- Sayı olması gerekmez 5- ∑ x −m i e d= my .a 3.3. Mod ( Tepe Değer) Frekansı en büyük olan (en çok tekrarlanan) değerdir. ÖR: 2 2 5 10 10 10 11 15 18 mod = 10 ÖR: 150 120 70 80 100 mod = yok ÖR: 40 50 50 60 50 80 80 80 100 2 modlu: bimodal Sınıflandırılmış Veriler İçin Mod Mod sınıfı: Frekansı en büyük olan sınıftır. M ∆1 = oL a +d ∆1 + ∆ 2 .c L a : Mod sınıfının alt sınırıdır. ∆1 : Mod sınıfının frekansı - bir önceki sınıfın frekansı ∆ 2 : Mod sınıfının frekans ı- bir sonraki sınıfın frekansı c : Sınıf genişliği Mod Özellikleri 1- Hesabı kolaydır 2- Verilerin sınıflara ayrılışından çok etkilenir 3- Sayı olmayan değer içinde geçerlidir.(Örn. İnsanların çoğu kalp hastalığından ölüyorsa, mod değeri kalp hastalığıdır.) 4. Merkezi Dağılım Ölçüleri 4.1. Ortalama (Mutlak) Sapma Verilerin ortalamadan uzaklaşma miktarının ölçülerinden biridir. x 1 , x 2 , . . .x, n sayılarının ortalama sapması 1 n 1 O.S. = ∑ x i − x = ∑ x − x n i =1 n ile tanımlanır. Sınıflandırılmış Veriler İçin: 1 ∑f x − x n O.S. = ÖR: 5, 8 12, 16, 17, x= ∑x = 1 O.S.= n 8 21, 29, 36 4 4 =1 1 ( 5 − 1 + 8 − 18 + 1 −81 +21 −81 +6. + 83. − .1 ) 6= 8 8 4.2. Standart Sapma Verilerin ortalamadan olan uzaklaşma miktarlarının ölçüsüdür. x 1 , x 2 , . . .x, n sayılarının standart sapması σ=s= σ n −1 = σn = ∑ x−x 2 ile tanımlanır. n n σn n −1 ∑x 2 n ∑x − n 2 Sınıflandırılmış veriler için: σ= σn = σn = ∑f x2 ∑ f − n n d2 ∑ f − n n x 2 ∑f d 2 ∑f u 2 u2 ∑ f − n n Standart Sapmanın Özellikleri 1- n 1 ve n 2 elemanlı iki sayı grubu için standart sapmalar s 1 ve s 2 ise bu iki grubun ortak (bileşik) standart sapması n 1s 1 + n 2 s 2 n1 + n 2 2 σn = 2 (n 1 − 1)s1 + (n 2 − 1)s 2 n1 + n 2 − 2 2 σ n −1 = 2 2- Normal dağılım için %68,27 si x−σ ve x + σ arasında x − 2σ %95,45 i ve x + 2σ x − 3σ %99,73 üi arasında ve x + 3σ arasında 4.3. Varyans Standart sapmanın karesine varyans denir. 2 V(x) = σ 4.4. Momentler 4.4.1.Sıfıra Göre Moment x 1 , x 2 , . . .x, n sayılarının sıfıra göre momentleri mr = ∑x r ile tanımlanır. n r = 1 …… ∑x = m r = 2 …… ∑x n 1 =x 2 r = 1,2,3,4 n 4.4.2. Ortalamaya göre moment ∑ (x − x ) = r mr r=1 i n m1 = ∑ (x − x ) = 0 n (x − x ) =∑ 2 r=2 m2 n =σ2 = v ya a ∑ ( x − A) = r Herhangi bir A sayısı için varyans: mr n dir. Gruplandırılmış veriler için mr ∑f x = Mr ∑f = r r Mr , n n ∑ f (x − x ) = r d =c r ∑f n , x : sınıf ortası r u n 4.4.3. Birimsiz Moment ar = Mr σr a1 = 0 a2 = M2 =1 σ2 a 3 〉 0 → sağa çarpık M3 M3 a3 = σ3 = 3/ 2 M2 → çarpıklık katsayısı a 3 〈 0 → sola çarpık a 3 = 0 → simetrik Sola Çarpık Dağılım M o dM e dx Sağa Çarpık Dağılım a 4 〉 3 → sivri eğri M4 M4 a4 = σ 4 = 2 M2 → basıklık katsayısı a 4 〈 3 → basık eğri a4 = 3 → normal eğri 5.Merkezi Dağılım Ölçüleri 5.1 Çeyreklikler (Kartiller) Sıralanmış veri dizisini 4 eşit parçaya ayıran değerlere çeyreklikler (dörtte birlikler) denir. n çift ise Q1 → n tek ise n .d ğ e e → ğ 4 x n +1 4 Q2 → 2n . d ğ e e→ ğ x 2 ( n +1) 4 4 Q3 → 3n . d ğ e e→ ğ x 3( n +1) 4 4 ÖR: 50, 75, 90, 110, 125, 140, 142 Q1 n +1 4 Q2 2(n + 1) 4 → x4 ⇒ Q2 = x 4 = 1 Q3 3(n + 1) 4 → x6 ⇒ Q3 = x 6 = 1 → ÖR: 50, 60, 70, 75, ⇒ x2 80, 85, Q1 = x 2 = 7 90, 100 n çift ise, Q2 = M Q1 = = x n / 2 + x n / 2+1 7 + 8 5 0 = 7 ,5 e d = 2 2 x n / 2 + x n / 2+1 6 + 70 0 = =6 2 2 n=7 n=8 Q3 = x n / 2 + x n / 2+1 8 + 95 0 = = 8 ,5 2 2 Sınıflandırılmış Veriler için: kn − f a L .c QK = LK + 1 fk K = 1,2,3 L k = çeyreklik sınıfın en alt sınırıdır çeyreklik sınıfı: kn/4. değerin bulunduğu sınıf 5.2. Onluklar Verileri on eşit parçaya bölen değerlere onluklar denir. ∆k = kn 10 Sınıflandırılmış veriler için: k ∆k = Lk + 1 n − f a 0 .c fk k = 1,2,3,…..,9 5.3.Yüzdelikler Verileri yüz eşit parçaya ayıran değerlerdir. Sınıflandırılmış veriler için: kn − f a Pk = L k + 1 0 0 .c fk k = 1,2,3,…..,99 Traşlanmış (kırpılmış) Ortalama: Verilen en büyük ve en küçük %5 değerleri atılır. Kalan verilerin ortalamasına kırpılmış ortalama (TRMEAN) denir. ÖR: n = 40 tane sayı için ⇒ %5 5n/100 = 40. 5/100 = 2 En küçük iki değer (119-125) En büyük iki değer (173-176) atılır. ∑x = 5 8 − 57 9=25 3 2 n = 40 – 4 = 36 x= ∑x = 5 n 2 4 7 6 = 1 ,46 ÖR: Sınıflar f x X2 d = x-149 d2 u = d/9 u2 u3 u4 fx f x2 fd f d2 fu f u2 f u3 118-126 127-135 136-144 145-153 154-162 163-171 172-180 3 5 9 12 5 4 2 122 131 140 149 158 167 176 14884 17161 . . . -27 -18 -3 0 9 18 27 729 324 81 0 81 324 729 -3 -2 -1 0 1 2 3 9 4 1 0 1 4 9 27 8 1 0 1 8 27 81 16 1 0 1 16 81 366 655 . . . 44652 -81 -90 -81 0 45 72 54 2187 1620 729 0 405 1296 1458 -9 -10 -9 0 5 8 6 27 20 9 0 5 32 54 -81 -40 -9 0 5 32 54 -81 7695 -9 95 -39 n=40 x= ∑f n x5 = 61958 5879 8 4 7 9 = 1 ,94 0 Medyan Sınıfı = 145 – 153 L a = 1 4− 05,5 = 1 4,5 ∑f 8 + 4− n 4 n − f a 2 .c = 1 Med = L a + f m x =A+ d =1 fa = 17 fm = 12 1 9= 1 ,9 4 0 2 − 10 7 ,54 + 4 .9 = 1 ,74 1 2 c=9 ∑f u .c = 1 + 4− 9 .9 = 1 ,9 4 x = A+ n 4 0 ∆1 3 .c = 1 ,5 +4 4.9 = 1 Mod = L a + 3+7 ∆1 + ∆ 2 ∆ 1 = 1 2− 3 = 9 ,2 ∆ 2 = 1 2− 5 = 7 1 − 80 Q1 = 1 ,53+ 5 .9 = 1 ,53 9 Q 2 = 1 4 ,97 5 3 − 20 9 Q 3 = 1 ,55+ 3 .9 = 1 ,35 5 ∑f u 4 σn = =5 6 ∑f x 8 = 4 d ∑f − n n d = 1 ,7 3 n σn = ∑f 2 ∑f 2 u ∑f − n n σn = m1 = c. m2 = c x f − ∑ n 2 ∑f 2 2 2 u = 1 ,7 3 u = −2,0 2 n ∑f . m4 = c 4 ∑f . n M 1 =0 M 2 = m 2 -m 1 2 = 188,27 2 u = 1 ,93 n f 3u 3 ∑ m3 = c . = −7 ,17 n 2 2 7 5 1 8 5 7 − = 1 ,7 0 4 0 M 3 = m 3 – 3 m 1 m 2 + 2m 1 3 = 441,2957 M 4 = m 4 – 4 m 1 m 3 + 6 m 1 2 m 2 -3m 1 = 91271,5 4 u =9 2 ,0 3 M3 M3 a3 = σ3 = 3 / 2 = 0,171 > 0 M2 M4 M4 a4 = σ 4 = 2 = 2,57 < 3 M2 hafif sağa çarpık hafif basık eğri GRAFİKLER 1- Histogram Tabanı sınıf aralığı ve boyu sınıf frekansları olan dikdörtgenlerden oluşan grafiktir. frekansı X = sınıf ortası c 2- Çubuk Diagramı Kesikli rastgele değişkenler için oluşturulur veya sınıf ortaları kullanılarak çizilir. frekansı X = sınıf ortası 3- Serpme (Saçılma) Grafiği Veriler x-ekseni üzerinde y-ye paralel üst üste sıralanmış noktalar şeklinde işaretlenir. y 20 30 40 50 60 70 80 25, 40, 40, 40, 45, 45, 45,45, 45,… x 4- Çizgi Grafiği: Sınıf ortaları ve sınıf frekanslarının oluşturduğu (x i ,y i ) nokta çiftlerini birleştiren eğridir. f2 f1 x 5- Dairesel Grafik: Frekansları merkezi dairenin merkezinde olan ve alanı sıfırına karşılık gelen frekansla orantılı daire kesmeleridir. fi x3 n Merkezi açılar 6 n = ∑ fi 0 6- Stem and Leaf (Dal ve Yaprak) Grafiği: 1 5 2 1 5 12 6 0 0 2 2 16 6 6 6 8 8 (12) 7 2 2 2 22 7 5 5 16 8 0 7 8 8 3 9 4 2 9 6 4 4 2 2 2 6 6 8 8 0 0 0 0 0 8 8 8 6 4 4 4 4 4 2 2 2 2 2 0 0 4 Birleşik Toplam 1 1 2 12 11 60 60 62 62 16 4 66 66 68 68 12 12 72 72 22 6 75 75 76 16 9 80 80 7 4 88 88 3 1 94 2 2 96 1 Med = 64 64 …………………………….11tane 76 78 78 80 80 ………. 88 88 96 x 2 5+ x 2 6 =7 2 2 n = 16 + (12) + 22 = 50 KAYNAKLAR • İşletme ve iktisat için istatistik / Paul Newbold; çev. Ümit Şenesen • İstatistiğe giriş : sosyal bilimler için istatistiğe giriş / Nilgün Köklü, Nilgün Köklü; Şener Büyüköztürk • Temel istatistik / Fazıl Güler • Schaum's outline of theory and problems of statistics and econometrics / Dominick. Salvatore, Dominick Salvatore, Derrick Reagle. • ÇÖMLEKÇ‹, Necla: Temel İstatistik İlke ve Teknikleri,2. Baskı, Bilim Teknik Yayınevi, Eskişehir, 1994. • GÜRTAN, Kenan: İstatistik ve Araştırma Metodları, İstanbul Üniversitesi Yayınları, No 2265, İstanbul, 1977. • HARPER, W.M.: Statistics, 4. ed., Pitman Pub. Comp.,1988. • JOHNSON, Robert: Elementary Statistics, 6. ed., PSWKENT Pub. Comp., Boston, 1992. • MELNYK, M.: Principle of Applied Statistics, Pergamon Press Inc., New York, 1974. • Bilimsel araştırmalarda istatistik uygulamaları, Ocak Yayınevi, Mustafa ERGÜN, 1995 • İstatistik, Schaum Serisi, Çev. Alptekin ESİN ve Salih ÇELEBİOĞLU, Nobel Yay. • Uygulamalı İstatistik, Ege Üniv. Yay. No: 150, Şanslı BASKAN, 1993 • İstatistiğe Giriş, Fikret İKİZ, Halis PÜSKÜLLÜ ve Şaban EREN, Barış Yay. 1996 • İstatistik, Anadolu Üniv. Açık Öğretim Fak. Yay. No.771, Editör: Ali Fuat YÜZER, 2003 • İstatistik, KPSS, Karacan Yay. Eğitim Komisyonu.2007. • Matematiksel İstatistik, Ezgi Kitabevi , Mustafa AYTAÇ, 2004 • İstatistik II, Ezgi Yay. Özer SERPER, 2000. • Matematiksel İstatistik, Gazi Büro Yay. Bedriye SARAÇOĞLU ve Ferhan ÇEVİK, 1995 • İstatistiğe Giriş, İstanbul Üniv. Yay. Salih KARAALİ, 1993 • Bilimsel araştırmalarda istatistik uygulamaları, Ocak Yayınevi, Mustafa ERGÜN, 1995