Processing math: 100%
+ - 0:00:00
Notes for current slide
Notes for next slide

PRIMJENJENA STATISTIKA

Predavanje 6: Statistička teorija - uzorak i populacija

Luka Sikic, PhD

Fakultet hrvatskih studija | Github PS

1 / 41

PREGLED PREDAVANJA

2 / 41

PREGLED PREDAVANJA


CILJEVI



  • Uzorak vs. Populacija
  • Procjena prosjeka i standardne devijacije populacije
  • Sampling distribucije
  • Intervali pouzdanosti
3 / 41

UZORAK vs POPULACIJA


(Drveće vs šuma!)
4 / 41

UZORAK vs POPULACIJA



  • Jednostavni slučajni uzorak
  • Jednostavni slučajni uzorak sa zamjenom i bez zamjene
  • Da li je naš uzorak uistinu slučajan?!
  • Koliko je bitno da imamo "slučajni uzorak"?
  • Želimo naučiti nešto o populaciji no imamo samo uzorak!
5 / 41

UZORAK vs POPULACIJA



Stvori uzorak od 10.000 ljudi iz populacije sa prosječnim IQ od 100 i standardnom devijacijom 15

IQ <- rnorm(n = 10000, mean = 100, sd = 15) # Stvori seriju IQ bodova
IQ <- round(IQ) # IQ je cijeli broj
print(head(IQ),7) # Pogledaj podatke
#> [1] 100 96 87 87 132 84
6 / 41

UZORAK vs POPULACIJA



Stvori uzorak od 10.000 ljudi iz populacije sa prosječnim IQ od 100 i standardnom devijacijom 15

IQ <- rnorm(n = 10000, mean = 100, sd = 15) # Stvori seriju IQ bodova
IQ <- round(IQ) # IQ je cijeli broj
print(head(IQ),7) # Pogledaj podatke
#> [1] 100 96 87 87 132 84
mean(IQ) # Provjeri prosjek
#> [1] 100.0675
sd(IQ) # Provjeri standardnu devijaciju
#> [1] 15.09152
6 / 41

UZORAK vs POPULACIJA

Grafički prikaz populacije

# plot
x <- 60:140
y <- dnorm(x,100,15)
plot(x,
y,
lwd=3,
type="l",
col=ifelse(colour,emphCol,"black"),
xlab="IQ Bodovi",
ylab="Gustoća vjerojatnosti",
frame.plot=FALSE,
title = ""
)
7 / 41

UZORAK vs POPULACIJA

Grafički prikaz populacije

[*]Grafikon prikazuje distribuciju IQ u populaciji.

8 / 41

UZORAK vs POPULACIJA

Grafički prikaz uzorka

# funkcija za izradu grafikona
plotSamples <- function( n ) {
IQ <- rnorm(n, 100, 15)
hist( IQ,
breaks=seq(10,180,5),
border="white",
col=ifelse(colour,emphColLight,emphGrey),
xlab="IQ Bodovi",
ylab="Frekvencija",
xlim=c(60,140),
main=""
)
print( paste( "n=",n,"prosjek=",mean(IQ), "sd=",sd(IQ) ) ) # Prikaži deskriptivnu statistiku
}
9 / 41

UZORAK vs POPULACIJA

Uzorci različite veličine (N=100)

# prikaži
plotSamples(100)

#> [1] "n= 100 prosjek= 99.5589905523533 sd= 13.020429311092"
10 / 41

UZORAK vs POPULACIJA

Uzorci različite veličine (N=10.000)

# prikaži
plotSamples(10000)

#> [1] "n= 10000 prosjek= 100.135021994701 sd= 15.0172217274223"
11 / 41

PROCJENA PROSJEKA I STANDARDNE DEVIJACIJE POPULACIJE


(Zaključivanje o populaciji na osnovi uzorka?)
12 / 41

PROCJENA PROSJEKA I STANDARDNE DEVIJACIJE POPULACIJE

Notacija i značenje

Simbol Znacenje Dodatno
`ˉX` Prosjek uzorka Izračunato na podatcima
`μ` Prosjek populacije Uglavnom nepoznato
`ˆμ` Procjena prosjeka populacije Jednako prosjeku uzorka
13 / 41

PROCJENA PROSJEKA I STANDARDNE DEVIJACIJE POPULACIJE

Nepristranost prosjeka

14 / 41

PROCJENA PROSJEKA I STANDARDNE DEVIJACIJE POPULACIJE

Pristranost standardne devijacije

  • Kako povećavamo veličinu uzorka, standardna devijacija je sve manja! s2=1NNi=1(XiˉX)2

  • Procjenu standardne devijacije populacije je potrebno korigirati: ˆσ2=1N1Ni=1(XiˉX)2

  • Procijenjena standardna devijacija populacije: ˆσ=1N1Ni=1(XiˉX)2

15 / 41

PROCJENA PROSJEKA I STANDARDNE DEVIJACIJE POPULACIJE

Pristranost standardne devijacije

16 / 41

PROCJENA PROSJEKA I STANDARDNE DEVIJACIJE POPULACIJE

Još notacije...

Simbol Znacenje Dodatno
`s` Standardna devijacija uzorka Na osnovi podataka
`σ` Standardna devijacija populacije Uglavnom nepozato
`ˆσ` Procjena standardne devijacije populacije Slično kao standardna devijacija uzorka
`s2` Varijanca uzorka Na osnovi podataka
`σ2` Varijanca populacije Uglavnom nepozato
`ˆσ2` Procjena varijance populacije Slično kao varijanca uzorka
17 / 41

SAMPLING DISTRIBUCIJE


(Svojstva distribucija uzoraka...)
18 / 41

SAMPLING DISTRIBUCIJE

Primjer: Deset ponavljanja IQ eksperimenta, svaki sa veličinom uzorka (N=5).

Ponavljanje Osoba.1 Osoba.2 Osoba.3 Osoba.4 Osoba.5 Prosjek.uzorka
Ponavljanje 1 90 82 94 99 110 95.0
Ponavljanje 2 78 88 111 111 117 101.0
Ponavljanje 3 111 122 91 98 86 101.6
Ponavljanje 4 98 96 119 99 107 103.8
Ponavljanje 5 105 113 103 103 98 104.4
Ponavljanje 6 81 89 93 85 114 92.4
Ponavljanje 7 100 93 108 98 133 106.4
Ponavljanje 8 107 100 105 117 85 102.8
Ponavljanje 9 86 119 108 73 116 100.4
Ponavljanje 10 95 126 112 120 76 105.8
19 / 41

SAMPLING DISTRIBUCIJE

Funkcija za generiranje sampling distribucija

width <- 4.5
height <- 4.5
# definiraj funkciju
plotSamples <- function( n, N) {
IQ <- rnorm(n, 100,15/sqrt(N))
hist( IQ, breaks=seq(10,180,5), border="white", freq=FALSE,
col=ifelse(colour,emphColLight,emphGrey),
xlab="IQ Bodovi", ylab="", xlim=c(60,140),
main=paste("Veličina uzorka =",N), axes=FALSE,
font.main=1, ylim=c(0,.07)
)
axis(1)
}
# distribucija populacije
x <- 60:140
y <- dnorm(x,100,15)
20 / 41

SAMPLING DISTRIBUCIJE

# prikaz različitih veličina uzoraka
plotSamples(10000,1)
lines(x,y,lwd=2,col="black",type="l")

[*]Svaki uzorak se satoji od samo jedne opservacije tako da je prosijek svakog uzorka samo IQ jedne osobe. Zbog toga je sampling distribucija prosjeka jednaka distribuciji IQ bodova.

21 / 41

SAMPLING DISTRIBUCIJE

[*]Kada povećamo uzorak, prosjek svakog uzorka konvergira prosjeku populacije znatno više nego u slučaju samo jedne osobe. Histogram je zbog toga malo uži nego u populaciji.

22 / 41

SAMPLING DISTRIBUCIJE

[*]Kod veličline uzoprka od 10 se može primijetiti da je distribucija prosjeka uzoraka centrirana blizu pravog prosjeka populacije.

23 / 41

TEOREM CENTRALNE TENDENCIJE


(Gravitacija!)
24 / 41

TEOREM CENTRALNE TENDENCIJE



  • Zakon velikih brojeva

  • Standardna devijacija sampling distribucije

SEM=σN

25 / 41

TEOREM CENTRALNE TENDENCIJE

Grafički prikaz

.footnote[[*]Grafički prikaz teorema centralne tendencije. Grafikon pokazuje ne-standardnu distribuciju (populacije).

26 / 41

TEOREM CENTRALNE TENDENCIJE

Grafički prikaz

[*]Grafički prikaz teorema centralne tendencije. Grafikoni prikazuju sampling distribuciju prosjeka za uzorke veličine 2,4 and 8, stvorenih na osnovi podataka iz ne-standardne distribucije (prethodni grafikon). Iako je originalna populacija ne-standardno distribuirana, sampling distribucija prosjeka konvergira standardnoj distribuciji.

27 / 41

TEOREM CENTRALNE TENDENCIJE

Grafički prikaz (N=4)

28 / 41

TEOREM CENTRALNE TENDENCIJE

Grafički prikaz (N=8)

29 / 41

INTERVALI POUZDANOSTI


(Procjena sigurnosti statističkih rezultata!)
30 / 41

INTERVALI POUZDANOSTI



Izračunaj 95% standardne distribucije

# percentili (2.5% i 97.5%) standardne distribucije
qnorm( p = c(.025, .975) )
#> [1] -1.959964 1.959964
31 / 41

INTERVALI POUZDANOSTI



Interval pouzdanosti za prosjek kada su parametri populacije poznati

μ(1.96×SEM)  ˉX  μ+(1.96×SEM)

32 / 41

INTERVALI POUZDANOSTI



Intervali pouzdanosti za prosjek populacije

ˉX(1.96×SEM)  μ  ˉX+(1.96×SEM)

33 / 41

INTERVALI POUZDANOSTI

Standardni zapis

CI95=ˉX±(1.96×σN)

34 / 41

INTERVALI POUZDANOSTI



Kada prosjek i stdev nisu poznati, koristi se t distribucija

N <- 10000 # Veličina uzorka 10,000
qt( p = .975, df = N-1) # Izračunaj 97.5th percentil t distribucije
#> [1] 1.960201
N <- 10 # Veličina uzorka 10
qt( p = .975, df = N-1) # Izračunaj 97.5th percentil t distribucije
#> [1] 2.262157
35 / 41

INTERVALI POUZDANOSTI

Izračunaj interval pouzdanosti u R

# ciMean( x = afl$attendance )
# 2.5% 97.5%
# 31597.32 32593.12
36 / 41

INTERVALI POUZDANOSTI

Grafički prikaži intervale pouzdanosti

load( file.path( "../Podatci/afl24.Rdata" )) # Učitaj podatke
library( sciplot ) # Paketi za bargraph.CI() i lineplot.CI() funkicje
library( lsr ) # ciMean() funkcija
bargraph.CI( x.factor = year, # Grupirajuća varijabla
response = attendance, # Ciljana varijabla
data = afl, # Podatci
ci.fun = ciMean, # Naziv funkcije za izračun CI
xlab = "Godina",
ylab = "Prosječna posjećenost"
)
37 / 41

INTERVALI POUZDANOSTI

[*]Prosjeci i 95% interval pouzdanosti za posjećenost AFL utakmica`, prikazani za svaku godinu od 1987 do 2010.

38 / 41

INTERVALI POUZDANOSTI

Grafički prikaži intervale pouzdanosti

lineplot.CI( x.factor = year, # Grupirajuća varijabla
response = attendance, # Ciljana varijabla
data = afl, # Podatci
ci.fun = ciMean, # Naziv funkcije za izračun CI
xlab = "Godina",
ylab = "Prosječna posjećenost"
)
39 / 41

INTERVALI POUZDANOSTI

Grafički prikaži intervale pouzdanosti

[*]Prosjeci i 95% interval pouzdanosti za posjećenost AFL utakmica`, prikazani za svaku godinu od 1987 do 2010.

40 / 41

HVALA NA PAŽNJI!


(Sljedeće predavanje: Testirnje statističkih hipoteza!)
41 / 41

PREGLED PREDAVANJA

2 / 41
Paused

Help

Keyboard shortcuts

, , Pg Up, k Go to previous slide
, , Pg Dn, Space, j Go to next slide
Home Go to first slide
End Go to last slide
Number + Return Go to specific slide
b / m / f Toggle blackout / mirrored / fullscreen mode
c Clone slideshow
p Toggle presenter mode
t Restart the presentation timer
?, h Toggle this help
Esc Back to slideshow