Su Kalitesi Verilerinin İstatistiksel Değerlendirmesi

advertisement
Doç. Dr. Gökşen Çapar
Ankara Üniversitesi Su Yönetimi Enstitüsü
“İstatistiki düşünme, bir gün okur
yazarlık kadar gerekli olacaktır.”
Belirli bir amaç için;
 verilerin toplanması
 sınıflandırılması
 çözümlenmesi
 sonuçlarının yorumlanması
esasına dayanır.
 Tablo ve grafiklerle özetleme
 Sonuçları yorumlama
 Sonuçların güven derecelerini açıklama
 Örneklerden elde edilen sonuçları kitle için genelleme
 Özellikler arasındaki ilişkiyi araştırma
 Çeşitli konularda geleceğe ilişkin tahmin yapma
 Deney düzenleme
 Gözlem
Bir değişken herhangi bir aralıkta veya
sonsuzlukta birden fazla değer alabilen
miktara verilen isimdir.
Örneğin nüfus bir değişkendir çünkü ne
sabittir ne de değişmezdir; değeri zamanla
değişebilir.
İşsizlik oranı bir değişkendir çünkü %0 ile
%100 arasında herhangi bir değer alabilir.
Rassal değişken (random variable) her
incelendiğinde değişen bilinmez bir değer
olarak düşünülebilir.
Rassal bir değişken ya ayrık (discrete) ya
da sürekli (continuous) olabilir.
Bir değişkenin olası değerleri zıplamalar
ya da keskin aralar içeriyorsa bu değişken
ayrık bir değişkendir. Örneğin, nüfus ayrık
bir değişkendir; çünkü değeri her zaman
tam sayı olarak ölçülür: 1, 2, 3…
Değişkenin olası değerleri zıplamalar ya
da keskin aralar içermiyorsa bu değişken
sürekli bir değişkendir.
Örneğin, sudaki sülfat konsantrasyonu
sürekli değişkendir, çünkü tam birimlerle
ölçülmesi gerekmez: 30.3 mg/L, gibi.
 Betimleyici (descriptive) istatistik; toplanmış
verilerin özetlenmesi veya açıklanması amacıyla
kullanılır.
 Çıkarımsal (inferential) istatistik; verilerdeki
örtüşmelerin, gözlemlerdeki rassallığı ve belirsizliği
göze alacak şekilde, üzerinde çalışılan evren veya
süreç hakkında sonuç çıkarma amacıyla
modellenmesidir.
Betimleyici istatistikler (descriptive statistics)
bir veri koleksiyonunun özelliklerini nicel
(quantitative) terimlerle açıklamak için
kullanılır.
Frekans dağılımı (frequency distribution),
merkezi eğilim (central tendency), saçılım
(dispersion), birliktelik (association), vb.
 Verideki örtüşmeleri modellemek için kullanılır, olasılığı
göze alır ve daha büyük bir istatistiksel yığın hakkında sonuç
çıkarır.
 Bu sonuçlar, evet/hayır şeklinde cevaplar olabileceği gibi
(hipotez testi), sayısal özelliklerin tahmin edilmesi
(istatistiksel tahmin) gelecekteki değerlerin öngörülmesi
(istatistiksel öngörü), veriler arasındaki doğrusal ilişkinin
yorumlanması (korelasyon), veya bu ilişkilerin modellenmesi
(regresyon analizi) şeklinde olur.
 Diğer belli başlı matematiksel modelleme teknikleri
varyanslar analizi ANOVA, zaman serisi ve veri
madenciliğidir.
Basit bir tanımla, veri madenciliği, büyük
ölçekli veriler arasından bilgiye
ulaşma, bilgiyi madenleme işidir.
Bir anlamda büyük veri yığınları içerisinden
gelecekle ilgili tahminde bulunabilmemizi
sağlayabilecek bağıntıların bilgisayar programı
kullanarak aranmasıdır.
Veritabanlarında bilgi madenciliği (knowledge
mining from databases) de denebilir.
Peter Drucker is an Australian-American author (1909-2005)
Göstergelerle Bilgi Yönetimi
Bilgi Fazlalığı
 İstatistiğin bir probleme uygulanmasında önce üzerinde
çalışılan süreç veya evren ele alınır.
 Evren bir ülkedeki insanların nüfusu, kayadaki kristal miktarı
veya sudaki kirliliğe neden bir maddenin miktarı olabilir.
 Pratik nedenlerden ötürü, bütün evren hakkında veri
toplamak yerine genelde evrenden seçilen bir altküme
(örnek veya örneklem) üzerinde çalışılır.
 Örnek hakkındaki veri deney veya gözlem yoluyla elde edilir.
Bundan sonra veri istatistiksel analize tâbi tutulur. Bunun iki
amacı vardır: açıklama (betimleme) ve sonuç çıkartma.
Parametre
(nehirdeki su sıcaklığı)
İstatistik
(örnekteki su sıcaklığı)
Her veri seti belirli değerlerin ne kadar sıklıkta
görüldüğüne göre açıklanabilir.
İstatistikte, frekans dağılımı bir veya birden
fazla değişkenin aldığı değerlerin sıklıklarının
tablolaştırılarak sunulmasıdır.
 Tek değişkenli frekans dağılımları (univariate
frequency distributions) genellikle her bir değerin
ne kadar sıklıkla bulunduğunu gösterir.
 Bir frekans dağılımı isteğe göre gruplanabilir ya da
gruplanmayabilir.
 Küçük veri setleri için gruplanmamış frekans
dağılımları daha uygunken büyük veri setleri için
gruplanmış frekans dağılımları daha uygundur.
Merkezi eğilim, istatistikte nicel (sayısal) bir
verinin “merkezi bir değer” etrafında toplanma
yatkınlığını ölçme işlemidir.
Ortalama (mean)
Orta değer (median)
Tepe değer (mode)
 Aritmetik ortalama (mean) bir veri setindeki bütün
elemanların toplamının eleman sayısına bölümüyle
elde edilir.
 Eğer veri seti bir istatistiki popülasyonsa,
ortalama popülasyon ortalaması (population mean)
olarak adlandırılır.
 Eğer veri seti bir örnek (sample) ise,
ortalama örneklem ortalaması (sample mean)
olarak adlandırılır.
Eğer bir dizi veriyi
X = (x1, x2, …, xn)
şeklinde ifade edecek olursak örneklem
ortalaması x̄ olarak gösterilir.
Bir Yunan alfabesi harfi olan μ ise komple popülasyonun
ortalamasını gösterir.
Bir örneklemin ya da
popülasyonun daha büyük
değerlere sahip yarısını
daha küçük değerlere
sahip öbür yarısından
ayırmak için kullanılan
sayısal bir değerdir.
Sınırlı bir numaralar serisinin orta değeri,
serinin küçükten büyüye sıralandıktan sonra
tam ortasındaki değerin alınmasıyla
bulunabilir. Eğer bu seri çift sayıda değer
içeriyorsa o zaman orta kısımda bir değer
bulunmayacaktır. Bu durumda ortadaki iki
değerin ortalaması orta değer olarak alınır.
Örneğin sudaki sülfat konsantrasyonu artan şekilde
sıralayalım:
67.05, 66.89, 67.45, 67.45, 68.39, 68.39, 70.10
Tepe değer bir veri
listesinde en çok
gözlemlenen değerdir.
Tepe değer tek bir değer
olmak zorunda değildir; aynı
sıklığa sahip birden fazla
değer olabilir.
Sülfat konsantrasyonunu artan şekilde sıralayalım,
67.05, 66.89, 67.45, 67.45, 68.39, 68.39, 70.10
En çok gözlemlenen iki tepe değer vardır:
67.45 ve 68.39.
Bu yüzden bu veri setinin tepe değeri tek değil iki tanedir. Bu veri
setine çift tepe değerli (bimodal) denir.
Bir popülasyon ya da örneğin bir, iki, veya ikiden fazla tepe değeri
olabilir.
 İstatistiki saçılım (ayrıca istatistiki değişkenlik, veya
çeşitlilik) olasılık dağılımındaki dağınıklık (yayılım) olarak
adlandırılır.
 Veri setindeki değerlerin ne kadar dağınık olduğunu
ölçümlemede kullanılır.
 Yaygın olarak kullanılan istatistiki saçılım ölçümü şunlardır:
 Varyans (variance)
 Standart Sapma (standard deviation)
 İstatistikte varyans, rassal bir değişkenin veya
dağılımın her bir değerinin ortalama değerden
farkının karesinin ortalaması olarak ifade edilir.
 Varyans, verinin ortalama değerden ne kadar
saptığının bir ölçüsüdür.
 Eğer rassal bir değişken olan X’in beklenen değeri
(expected value = mean) E[X]=μ ise, X’in varyansı:
 İstatistikte, rassal bir değişkenin veya dağılımın standart
sapması o değişkenin varyansının kareköküne eşittir.
 Yani, standart sapma σ (sigma) (X − μ)2 değerlerinin
ortalamasının kareköküdür.
 İki değişkenli istatistik (bivariate statistics) iki
değişkenin, birinin diğerine sebep olduğunu ima
etmeksizin, birbirleriyle nasıl ilişkili olduklarını
incelemek için kullanılabilir.
 Çok değişkenli istatistik (multivariate
statistics) ikiden fazla değişkenin, birinin
diğerlerine sebep olduğunu ima etmeksiniz,
birbirleriyle nasıl bir ilişki içerisinde olduğunu
incelemek için kullanılabilir.
 İki değişkenli ve çok değişkenli istatistiklerin
ölçülmesinde yaygındır:
 Korelasyon Katsayısı (correlation coefficient)
 İki rassal değişken arasındaki doğrusal ilişkinin
yönünü ve gücünü belirtir.
 Korelasyon katsasının değeri -1 ile +1 arasında (-1
ve +1 de dahil) bir değerdir.
 0 ise X ve Y ilişkisizdir (uncorrelated)
 1 ise X ve Y doğru yönde tamamen ilişkilidir. Biri
artarken diğeri de kesinlikle artar veya biri azalırken
diğeri de kesinlikle azalır.
 -1 ise X ve Y ters yönde tamamen ilişkilidir. Biri
artarken diğeri kesinlikle azalır.
 Kullanmak; Riskli !
 Kullanmamak; Cahillik!
 Dondurma boğulmaya neden olmaz.
 Boğulma vakaları da daha fazla dondurma yemeye sebep
olmaz.
 Yaz mevsiminde sıcaklık artınca insanlar daha fazla
dondurma alır.
 Havuz ve denizde daha fazla zaman geçirirler.
 Dondurma tüketimi ve boğulma vakaları arasında
korelasyon olabilir, ancak birisi diğerine sebep olmaz.
 Nedensellik var mı?
 A, B’ye sebep olur mu?
 Büyük ayaklar yazım kuralları konusunda yeteneği
artırırsa, beslenme ile ilgili bir sebep mi var?
 Ayakkabılarla mı ilgili?
 Ayak büyüklüğü genetik olabilir.
 Doğaya karşı beslenme??
 B mi A’ya sebep oluyor? Belki de yazım kuralları yeteneği
hormonal değişimlere neden oluyor? Akademik bir başarı için
harcanan süre, açlığı, gıda tüketimini ve ayak numarasını
artırıyordur?
 Bir başka görüş; çocukların ayaklarının, çocukların yaşıyla
birlikte arttığını söylüyor. 8 yaşında bir çocuğun ayakları, 5
yaşındaki bir çocuktan büyüktür. 15 yaşındakinin ayağı da 8
yaşındakinden büyüktür. Çocuklar büyüdükçe, küçüklere göre
yazım kurallarını daha iyi öğrenirler.
 Ayak numarası ve yazım kuralları yeteneği arasında korelasyon
vardır, ancak birisi diğerine sebep olmaz.
 Bir parametre (parameter) popülasyonu betimleyen
bir sayıdır. Bir parametre sabit bir sayıdır, ama
pratikte bu değeri bilmeyiz.
 İstatistik (statistic) ise bir örneklemi betimleyen bir
sayıdır. Bir istatistiğin değeri örneklemden elde
edilir; fakat aynı popülasyonun farklı örneklemleri
için farklı değerler elde edilebilir.
 İstatistiği (statistic) sıklıkla bilinmeyen bir
parametreyi hesaplamak için kullanırız.
Örneklem sayısı=100
ÇO1= 10 mg/L
ÇO2= 4 mg/L
ÇO3= 5 mg/L
…
ÇO ort= 5mg/L
 Tüm Kızılırmak nehrindeki ortalama ÇO nedir?
 Aldığımız 100 örnekteki ortalama ÇO=5 mg/L
 Bir 100 örnek daha alalım, ortalama ÇO= 7 mg/L
 Bir tane daha, ortalama ÇO=3 mg/L
 Ne kadar yakın gerçek değere?
 Ne kadar çok örnekleme yaparsak, gerçek değere o kadar
yaklaşırız. Ancak bunun kısıtları var; zaman, maliyet, iş gücü vb.
Normal olarak
adlandırılan eğriler
simetriktir, tepe
noktalıdır ve çan
şeklindedir.
 Ortalama değer (mean) simetrik bir eğrinin tam ortasındaki
değerdir ve bu değer aynı zamanda orta değerdir (median).
Standart sapma ise normal eğrinin ne kadar yayıldığını
gösterir.
 Ortalaması 0 olan ve standart sapması 1 olan bir normal dağılım çeşididir.
 Eğer bir değişken olan X in ortalaması m ve standart sapması s is ve normal dağılıma
sahipse, standardize edilmiş olan
 değişkeni standart normal dağılıma sahiptir.
 ÇO=4 mg/L’den düşük olan örneklerin oranı nedir?
 X değişkenini standart normal z skoruna dönüştürmek için
normalleştirmeyi bulmak istediğimiz değerden (4 mg/L)
ortalama değeri (5 mg/L) çıkartıp sonucu standart
sapmaya (1,34 mg/L) bölerek yaparız:
 ÇO ort=5 mg/L
 Standart sapma=1,34 mg/L
 Z= (4 - 5) / 1,34= - 0,73
Z Tablosundan -0.73 değerine bakacak olursak
değerin 0.2327 olduğunu görürüz.
Bu z değerinin solunda kalan (yani bu
değerden küçük olan) değerlerin toplam
dağılım içindeki oranı 0.2327.
Yani Kızılırmak nehrindeki ortalama ÇO
derişiminin 4 mg/L’den düşük olma oranı
%23.27’dir.
Teşekkürler !
Download