İSTATİSTİK

advertisement
n
İSTATİSTİK
İstatistik, belirli amaçlar için veri
toplama, toplanan verileri tasnif etme,
çözümleme ve yorumlama bilimidir
Yrd. Doç. Dr. Hamit AYDIN
İstatistik Nedir?
Latince de durum anlamına gelen “status” kökünden türetildiğine inanılmaktadır.
iki anlamda kullanılmaktadır:
a) veri,
sayı ile ifade edilen kolektif ve yaklaşık bilgiler. Eğitim istatistikleri, tarım
istatistikleri, dış ticaret istatistikleri gibi.
b) bilim dalı.
Birkaç tanımı:
Çağdaş anlamda istatistik kısaca “daha etkin karar verebilmek için sayısal
verilerin toplanması, düzenlenmesi, sunumu, incelenmesi ve
yorumlanmasıdır.”
Yığın olaylarını inceleyen ve bunlara ilişkin genel bağıntıları belirtmeye çalışan bir
bilimdir.
Çok sayıda dış etkene bağlı nesne, varlık ya da olayların sayısal dökümü yapılabilen
özelliklerini, incelemeye yarayan bir teknik ya da yöntem kümesidir.
Yığın olayların belli amaçlarla gözlemlenmesi sonucu elde edilen verilerin sayısal
biçimde işlenmesini sağlayarak, söz konusu olayların oluşturduğu yığınların
bilimsel bir şekilde incelenmesinde kullanılan teknik ve yöntemler bilimidir.
İstatistiksel Araştırmanın Amacı
Rastlantıyı göz önünde tutarak
n
n
n
olayları belirleyen genel yasaları, genel eğilimi ortaya çıkarmak,
ana nedenleri aramak,
olaylar arasındaki ilişkileri ve bağlantıları bulmak,
böylece türlü yönetim, bilim ve teknik dallarında yapılacak
n
n
n
n
kestirimlere,
öngörülere,
alınacak kararlara ve
girişilecek eylemlere
yardımcı olmaktır.
n
İstatistik, çevremizde olup bitenleri sayılarla
ifade etmede yardımcı olur.
TEMEL KAVRAMLAR
İstatistiğin Önemi
Günümüzde
Hükümetler
politikalarını formüle etmek ve
aldıkları kararları desteklemek,
Politikacılar
halkı ikna etmek için istatistikleri temel almaktadır.
Tıbbı araştırmalarda
hastaların teşhisinde ve
yeni ilaçların yan etkilerinin ortaya konulmasında
istatistiksel teknikler kullanılmaktadır.
Ekonomi, işletme ve kamu yönetiminde
Sosyal bilimlerin bütün dallarında
istatistiksel yöntemler hemen hemen tek pratik çalışma aracı
durumundadır.
Popülasyon (Kitle): Belirli bir özelliği gösteren
birimlerin tamamının oluşturduğu topluluk.
ör. Ülke nüfusu
Tamsayım: kitleyi oluşturan birimlerin
tamamının gözlem altına alınması.
ör. Nüfus sayımı
Örnek: Belirli bir özelliği gösteren ve kitleyi
temsil edebilen bir miktar birimin
oluşturduğu topluluk
Parametre
Kitleden (popülasyondan) elde edilen bilgileri
kullanarak hesaplanan değerler
Ör. Ortalama ( µ ), Standart sapma (σ )
Popülasyon
Parametre
Kitle ve örnekten hesaplanan değerler ve simgesi
İstatistik
Parametre
X
µ
Standart sapma
S
σ
Varyans
S2
σ2
Birey (Gözlem)sayısı
n
N
Korelasyon
r
ρ
Aritmetik ortalama
İstatistik
Örnekten elde edilen bilgileri kullanarak
hesaplanan değerler
Ör. Ortalama ( X ), Standart sapma (S)
Örnekleme
Örnek seçmek için uygulanan yöntemler
Örnekleme yöntemleri
Tesadüfi örnekleme
n Sistematik örnekleme
n Kolay örnekleme
n Tabakalı (gruplandırılmış) örnekleme
n Kümeli örnekleme
n
Örnek
İstatistik
ÖLÇME VE ÖLÇEKLER
Ölçme: Objelere ve ya bireylere, belirli bir özelliğe sahip oluş
derecelerini belirtmek için, belirli kurallara uyarak sembolik
değerler verme işlemidir.
n
Nominal (Sınıflama): Rakamlar sadece verileri farklı gruplara ayırmada
kullanılır. Veriye verilen sayı o grubun adıdır.
n
Ordinal (Sıralama): Ölçme sonucunda verilen sayısal değerler büyükten
küçüğe sıralanabilir. Bir özelliğe sahip oluş derecesidir.
ör. not A, B, C; yarışma 1., 2., 3.; birinci tercih, ikinci tercih vb.
Eşit Aralıklı: Sıfır ile ifade edilen bir başlangıç noktası olan, sıfırın yokluğu
göstermediği kabul edilen ölçektir.
ör. termometre ölçeği gibi.
Oranlı: Gerçek sıfır değerine sahip ve sıfır yokluğu ifade ettiği; birbirinin
katı olarak ifade edilebilen ölçek türüdür.
ör. Metre, kg. gibi.
Ör. futbol takımındaki rakamlar, plaka işaretleri, cinsiyet gibi.
n
n
İstatistiğin Kötü Kullanımı
Değişken
1.
Gözlemden gözleme değişik değerler alabilen objelere, özelliklere ya
da durumlara "Değişken" denir.
n
Nitel (Kalitatif) Değişken: gözlemden gözleme kalite ve çeşit yönünden farklılık
gösteren değişkenler.
n
Nicel (Kantitatif) Değişken: Birimlerin ölçüm ve tartım sonucu değerleri
saptanan sayısal özelliklerini belirten değişkenlerdir. Bu değişkenler değerleri,
mekanik ve elektronik araçlara sayısal olarak aralıklı ölçekli yada orantılı ölçekli
verileridir
Ör. Cinsiyet, medeni durum, göz rengi, din, milliyet vb.
Ör. Yaş, ağırlık, zekâ seviyesi, hava sıcaklığı, hız, nüfus vb.
n Süreksiz Değişken: Bu değişkenler tür yönünden değişiklik gösterir. Dolayısıyla bir
obje ya da birey bir özelliğe sahiptir ya da değildir. (Belirgin data noktaları arasında
mesafe oluşu).Cinsiyet, medeni durum gibi. Nitel değişkenlerin hemen hepsi süreksiz
değişkendir.
n Sürekli Değişken: İki ayrı ölçüm arası kuramsal olarak sonsuz parçaya bölünebilir.
Yaş, uzunluk ve ağırlık gibi.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
Kötü örnek (Örneklemenin gereği gibi yapılmaması)
Az veri
Yanlış yönlendiren grafik
Çarpıtılmış yüzdeler
Yönlendirilmiş soru
Ismarlama soru
Olumsuz cevap (Ret-Ayrıcalık)
Korelasyon ve nedensellik arası ilişki
Kişisel çıkar
Kesin rakamlar (beyanlar)
Kısmi (taraflı) bilgi
Bilinçli Saptırma
Yanlış yönlendiren grafik
Sigarayı Bırakmak
Ölümcül Kalp ve
Akciğer Hastalıkları
Riskini Azaltır
n
n
n
Üç tür yalan vardır:
Yalan,
Kuyruklu Yalan,
İstatistik
Benjamin Disraeli
"Then there was the man
who drowned crossing a stream
with an average depth of six inches (15 cm)."
W. I. E. Gates
Statistics are like bikinis.
What they reveal is suggestive,
but what they conceal is vital.
Aaron Levenstein
Verilerin Düzenlenmesi
Eğer veriler uygun şekilde toplanmamışlarsa,
o verilerin tamamı faydasızdır
veriler istatistikle de kurtarılamazlar.
n
n
İstatistiki seriler: istatistiksel analiz için derlenen
bilgilerin belirli bir özelliğe ve belirli bir kurala
göre düzenlenmesi ve sunulması.
Grafikler: toplanan verilerin daha anlaşılır olması
için verilerin geometrik şekillerle gösterimi ve
sunumu.
İstatistiki seriler
n
Verilerin Düzenlenmesi ve
Sunulması
n
n
Kesit (mekan) serileri: Gözlem sonuçlarının coğrafi
temele göre incelenmesi. Ör. Ülkelere göre üretim
Zaman serileri: gözlem sonuçlarının zamana bağlı olarak
incelenmesi. Ör. yıllara göre satış miktarı, yağış, ölüm
Dağılım serileri: gözlem sonuçlarının aldığı değerlerin
dağılımına göre sunulması.
n
n
n
Basit seri: gözlem sonuçlarının belirli bir esasa göre
sıralanması
Frekans serisi: gözlem sonuçlarının tasnif edilmiş halde
sunulması.
Bileşik seriler: gözlem sonuçlarının iki değişkene göre
tasnif edilerek sunulması
Dağılım serileri
Veri
Sınav notu
40
75
10
25
35
15
40
25
10
35
60
25
40
55
Basit Seri
Sınav notu
10
Sınıflanmış Frekans Serileri
Frekans Serisi
Sınav notu
Frekans
10
2
10
15
25
25
25
35
35
40
40
40
55
60
75
15
25
35
40
55
60
75
1
3
2
4
1
1
1
115
94 110 103
101
99 103
111 105
Dağılım genişliği ( R ) bulunur
R= Xmax-Xmin
n
n
n
Sınıf sayısı (k) belirlenir (5-20 arası bir değer)
k=1+3.3log(n)
Sınıf aralığı ( c ) belirlenir
c=R/k
Her sınıfın frekansı bulunarak seri düzenlenir.
93 107
99 102
98
96 113 110 108 102 114
97
93
91
95
97 113
98
90 100 103 114
99 114 108 103 100
98 101
104 110 114 113 109 108 106 115 103 111 109 112 104 104 102
107 106 119 105
96
94
96 101 101 106 107 105 113 112
99
Dağılım genişliği:
R= Xmax-Xmin = 115-90=25
Sınıf sayısı (5-20 arası bir değer):
k=1+3.3log(n) = 1+3.3log(75) =7.19≈7
Sınıf aralığı:
c=R/k = 25/7= 3,57 ≈3 veya ≈4
Sınıflanmış Frekans Serileri
Sınıflanmış Frekans Serileri
n
92 104 114 106 100 102 100
n
Sınıf aralığı 3 için
Sınıflar
n 90-92
n 93-95
n 96-98
n 99-101
n 102-104
n 105-107
n 108-110
n 111-113
n 114-116
q Her sınıfın frekansı bulunarak sınıflandırılmış
frekans serisi oluşturulur
Sınıflar
Çetele
Frekans
90-92
///
3
93-95
/////
5
96-98
///// ///
8
99-101
///// ///// //
12
102-104
///// ///// ////
14
105-107
///// ///// /
11
108-110
///// ////
9
111-113
///// ///
8
114-116
/////
5
Toplam Frekans
75
Sınıflanmış Frekans Serileri
Dağılım genişliği:
R= Xmax-Xmin = 491-0=491
Sınıf sayısı (5-20 arası bir değer):
k=1+3.3log(n) = 1+3.3log(40) =6.28≈6
Sınıf aralığı:
c=R/k = 491/6= 81.83 ≈81
Kullanılan Sınıf aralığı 100
Sınıflanmış Frekans Serileri
(Kesikli değişken)
Sınıf alt
sınırı
Sınıf aralığı
=100-0=100
=200-100=100
Sınıflanmış Frekans Serileri
(Sürekli değişken)
Sınıf aralığı
=100-0=100
=200-100=100
100
100
100
100
100
Sınıflanmış Frekans Serileri
Sınıf üst
sınırı
Sınıflanmış Frekans Serileri
Sınıflanmış Frekans Serileri
Oransal frekans
Sınıf Sınırları (kesim noktaları)
Oransal Frekans =
Sınıf Frekansı
- 0.5
Toplam Frekans
99.5
= 12/40=0.3 →%30
199.5
299.5
399.5
499.5
Sınıflanmış Frekans Serileri
Sınıf ara
Değeri
=
Alt sınır + Üst sınır
2
= (100+199)/2=149.5
49.5
149.5
249.5
349.5
449.5
Toplam Frekans= 40
Birikimli Frekans Serileri
Kümülatif (birikimli) Histogram
Histogram:
Dağılış Poligonu
Çubuk ve Çizgi Grafik
8
7
6
5
4
3
Frekans
Frekans
Verilerin Sunulması
Grafikler: Histogram
30 40 50 60 70 80 90
Puan
12
10
8
6
4
2
30 40 50 60 70 80 90
Puan
Diğer grafikler
Çubuk grafikler
Diğer grafikler
Pasta grafikler
Gül diyagramları
Diğer grafikler
Sorular
•Ne gibi çıkarımlar
yapabiliyoruz?
•“Tahmin” yapılabiliyor mu?
•İlişkinin “boyutu” ve “yönü”
ölçülebiliyor mu?
XY-Kartezyen Kor. (Scatter )
Zaman serileri
Merkezi Eğilim (Yığışım) Ölçüleri:
Ortanca: Bir ölçek üzerinde orta noktanın
yerini gösteren bu ölçü tüm değerleri
ortadan ikiye bölen değerdir.
Basit serilerde:
n
TANIMLAYICI İSTATİSTİK
Gözlem sayısı tek ise
Ortanca=(n+1)/2. gözlemdir
Gözlem sayısı çift ise
Ortanca=[(n/2)+(n/2+1)]/2. gözlemdir
Ortanca
Merkezi Eğilim (Yığışım) Ölçüleri:
n
Aritmetik ortalama: Deneklerin aldıkları
değerlerin toplanıp denek sayısına
bölünmesiyle elde edilen değerdir.
5.40
1.10
0.42
0.73
0.48
1.10
0.42
0.48
0.73
1.10
1.10
5.40
(gözlem sayısı çift olan serilerde tek bir orta
nokta yoktur)
0.73 + 1.10
Örnek için
Σx
x =
n
Kitle için
µ =
Σx
N
Ortanca = 0.915
2
5.40
1.10
0.42
0.73
0.48
1.10
0.66
0.42
0.48
0.66
0.73
1.10
1.10
5.40
(gözlem sayısı tek olan serilerde serinin tam ortasındaki değer)
Ortanca = 0.73
Merkezi Eğilim (Yığışım) Ölçüleri:
n
Mod: Ölçümlerde en fazla tekrar edilen değere
mod denir.
a. 5.40 1.10 0.42 0.73 0.48 1.10
ïMod 1.10
b. 27 27 27 55 55 55 88 88 99
ïMod -
c. 1 2 3 6 7 8 9 10
ïMod yok
27 & 55
Sınıflanmış serilerde
Aritmetik ortalama
X yerine sınıf ara değerleri kullanılır
Σ (f • x)
x =
Σf
x = sınıf ara değeri
f = frekans
Σf=n
Mod
Ağırlıklı ortalama
Bazı serilerde birimler arasında önem derecesi bakımından farklar
olabilir. Eğer ortalamanın hesaplanmasında bu farklar hesaba
katılmak isteniyorsa ağırlıklı ortalama kullanılır
x =
Σ (w • x)
Σw
Varyans:
Değişim (dağılım) Ölçüleri
Ranj: En büyük ölçümle en küçük ölçüm
arasındaki farktır.
Standart sapmanın karesi
Ranj= Xmax-Xmin
Notasyon
Değişim (dağılım) Ölçüleri
n
Standart sapma: Ölçümlerin ortalamadan olan
farklarının karelerinin ortalamasının kareköküdür.
Örnek için
Kitle için
2
Σ (x – x )
S=
n-1
σ =
Σ (x - µ)
N
2
}
n
s2
σ
Örnek varyansı
2
Kitle varyansı
Değişim Katsayısı (CV)
Dağılım ölçülerini kullanarak farklı serilerin kıyaslanmasında
serilerin farklı birimlerle (cm, kg, vs.) ölçülmüş olması veya aynı
Birimde ölçülmüş olmasına rağmen ortalamaları çok değişik
serilerin kıyaslanmasında durumunda dağılım ölçülerinin
Kullanımı uygun değildir. Bu durumda oransal bir ölçüm olan
Değişim katsayısı kullanılır.
CV =
S
X
x
100
Eğiklik ve Basıklık Ölçüleri
n
n
n
Basıklık
Frekans dağılımlarının özellikleri belirlenirken
ortalamalar ve değişkenlik değerlerinin yanında
dağılımın simetriklik (eğiklik) ve yükseklik
(basıklık) durumuna ilişkin bilgilere de ihtiyaç
vardır.
Eğiklik (skewness): bir frekans dağılımının
simetriden sapması olarak tanımlanır.
Basıklık (kurtosis): bir dağılımının yükseklik
derecesinin bir ölçüsüdür.
Eğiklik
 Xi − X 
∑  n 
Kurtosis =
σ4
4
Kantiller
X −X
∑  i n 
Skewness =
σ3
3
n
n
Gözlem değerleri küçükten büyüğe doğru sıralanmış bir
seriyi nispi frekansları h/r ve(r-h)/r olan iki kısmi seriye
ayıran ortalamaya kantil denir.
h: kantilin sırası, r: serideki eşit parça sayısı
Q1 (%25 dilim), Q2 (%50 dilim), ve Q3 (%75 dilim),
simgeleri ile gösterilir.
h 1 inci birimin gösterdiği değer
Qi = n +
r 2
Kantiller
Kutu grafik (Boxplot)
Kutu grafik (Boxplot)
Dağılım Şekline Göre Boxplot
Kaba hesaplamalar
Örnek
n
n
n
n
n
n
n
n
n
n
n
Bir işletmedeki yıllık izinler gün olarak aşağıdaki gibidir.
8, 8, 7, 7, 7, 6, 6, 5, 5, 4, 4, 3 Buna göre;
a) Ortalama izin kaç gündür?
b) Bu grubun ortancası kaçtır?
c) Mod'u kaçtır?
d) Ranj'ı kaçtır?
e) Standart sapması kaçtır?
Çözüm:
X 8+8+7+7+7+6+6+5+5+4+4+3 70
a) X = ∑ i =
=
= 5.8
n
12
12
(Xi − X )
( X i − X )2
8
8
7
7
7
6
6
5
5
4
4
3
1.2
1.2
1.2
0.2
0.2
-0.8
-0.8
-1.8
-1.8
-2.8
4.84 4.84 1.44 1.44 1.44 0.04
0.04
0.64
0.64
3.24
3.24
7.84
2.2 2.2
Hesaplamalarda verideki mevcut ondalık basamaktan
bir fazlası alınır
n Hesaplama ortasında değer yuvarlanmaz. Her zaman
son değer yuvarlanır.
Ranj
n
Kaba standart sapma hesabı
s≈
4
Minimum değer ≈ (ortalama) – 2 x (standard sapma)
Maksimum ≈ (ortalama) + 2 x (Standard sapma)
e) Standart sapma: Ölçülerin ortalamadan olan farkları
bulunur. Farkların karesi alınır ve toplanır. Bulunan
değerler formülde yerine konur.
Xi
Yuvarlama kuralı:
Kaba Ranj hesabı
b) Grubun ortancası 6'dır.
c) Mod 7'dir.
d) Ranj=8-3= 5
Örnek
n
n
Toplam
29.68
( X i − X )2
29.68
S=
=
= 1.64
n −1
11
Download