class: center, middle, inverse, title-slide # PRIMJENJENA STATISTIKA ## Predavanje 5: Statisticka teorija - distribucije ### Luka Sikic, PhD ### Fakultet hrvatskih studija |
Github PS
--- class: inverse, middle # PREGLED PREDAVANJA --- layout: true # PREGLED PREDAVANJA --- <br> <br> ## CILJEVI <br> <br> - Deskriptivna vs. inferencijalna statistika - Binomna distribucija - Standardna distribucija - Druge često korištene distribucije --- layout:false class: middle, inverse # DESKRIPTIVNA I INFERENCIJALNA STATISTIKA <html><div style='float:left'></div><hr color='#EB811B' size=1px width=796px></html> (Razlike između dva pristupa!) --- layout:true # DESKRIPTIVNA I INFERENCIJALNA STATISTIKA --- <br> <br> .pull-left[ **Deskriptivna statistika** 1. Numerički opis podataka 2. Vizualizacije 3. Nema mnogo teoretske pozadine ] .pull-right[ **Inferencijalna statistika** 1. Osnova je teorija vjerojatnosti 2. Razrađeni modeli za analizu strukture i odnosa među varijablama 3. Moćniji analitički alat ] --- layout:false class: middle, inverse # OSNOVE TEORIJE VJEROJATNOSTI <html><div style='float:left'></div><hr color='#EB811B' size=1px width=796px></html> (Što je vjerojatnost?) --- layout:true # OSNOVE TEORIJE VJEROJATNOSTI --- .hi[**Eksperiment bacanja novčića**] <br> <br> <br> <br> - Vjerojatnost da će pasti jedna strana ("pismo") <br> $$ P(\mbox{pismo}) = 0.5 $$ <br> <br> - Statistički problem <br> <br> ``` P P H P P H H H H H ``` --- ## Vjerojatnost modnog odabira <br> <br> <table> <thead> <tr> <th style="text-align:left;"> Vrsta.odjeće </th> <th style="text-align:left;"> Plave.hlace </th> <th style="text-align:left;"> Sive.hlace </th> <th style="text-align:left;"> Crne.hlace </th> <th style="text-align:left;"> Crno.odijelo </th> <th style="text-align:left;"> Kostim </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> Naziv </td> <td style="text-align:left;"> `\(X_1\)` </td> <td style="text-align:left;"> `\(X_2\)` </td> <td style="text-align:left;"> `\(X_3\)` </td> <td style="text-align:left;"> `\(X_4\)` </td> <td style="text-align:left;"> `\(X_5\)` </td> </tr> <tr> <td style="text-align:left;"> Vjerojatnost </td> <td style="text-align:left;"> `\(P(X_1) = .5\)` </td> <td style="text-align:left;"> `\(P(X_2) = .3\)` </td> <td style="text-align:left;"> `\(P(X_3) = .1\)` </td> <td style="text-align:left;"> `\(P(X_4) = 0\)` </td> <td style="text-align:left;"> `\(P(X_5) = .1\)` </td> </tr> </tbody> </table> --- .hi[Grafički prikaz distribucije] <img src="05_VJEROJATNOST_files/figure-html/problem-1.svg" style="display: block; margin: auto;" /> .footnote[[*]Prikaz distribucije vjerojatnosti modnog odabira. Postoji pet mogućih ishoda vezanih uz pet mogućih modnih odabira. Svaki odabir (ishod) ima jednaku vjerojatnost; vjerojatnost je u rasponu od 0 do 1.] --- .hi[**Formalni zapis**] <br> <br> $$ P(E) = P(X_1) + P(X_2) + P(X_3) + P(X_4) + P(X_5) $$ <br> <br> .hi[Osnovna pravila vjerojatnosti] <br> <br> <table> <caption></caption> <thead> <tr> <th style="text-align:left;"> Jezik </th> <th style="text-align:left;"> Zapis </th> <th style="text-align:left;"> Znak </th> <th style="text-align:left;"> Formula </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> Nije `\(A\)` </td> <td style="text-align:left;"> `\(P(\neg A)\)` </td> <td style="text-align:left;"> = </td> <td style="text-align:left;"> `\(1-P(A)\)` </td> </tr> <tr> <td style="text-align:left;"> `\(A\)` ili `\(B\)` </td> <td style="text-align:left;"> `\(P(A \cup B)\)` </td> <td style="text-align:left;"> = </td> <td style="text-align:left;"> `\(P(A) + P(B) - P(A \cap B)\)` </td> </tr> <tr> <td style="text-align:left;"> `\(A\)` i `\(B\)` </td> <td style="text-align:left;"> `\(P(A \cap B)\)` </td> <td style="text-align:left;"> = </td> <td style="text-align:left;"> `\(P(A|B) P(B)\)` </td> </tr> </tbody> </table> --- layout:false class: middle, inverse # BINOMNA DISTRIBUCIJA <html><div style='float:left'></div><hr color='#EB811B' size=1px width=796px></html> (Broj ishoda u skupinama...) --- layout:true # BINOMNA DISTRIBUCIJA --- .hi[**Eksperiment bacanje novčića ili kocke**] <br> <br> 1. Eksperiment uključuje 20 šestostranih kocki gdje je jedna strana označena, ostale su prazne. 2. Kolika je vjerojatnost ishoda četiri označene strane u 20 bacanja? 3. Znamo da je vjerojatnost jedne označene kocke jedna šestina, odnosno .167! <br> <br> .hi[**Formalni zapis**] <br> <br> $$ P(X \ | \ \theta, N) $$ $$ X \sim \mbox{Binomial}(\theta, N) $$ --- <img src="05_VJEROJATNOST_files/figure-html/binomial1-1.svg" style="display: block; margin: auto;" /> .footnote[[*]Binomna distribucija za `\(N=20\)` opservacija i vjerojatnost ishoda `\(theta = 1/6\)`. Svaki stupac prikazuje vjerojatnost jednog ishoda (i.e., jedna moguća vrijednost `\(X\)`). Pošto je riječ o distribuciji vjerojatnosti, svaka od pojedinačnih vijednosti mora biti broj od 0 do 1 dok zbroj svih stupaca mora biti jednak 1.] --- .hi[**Binomna distribucija u R**] ```r # x označava očekivani broj ishoda # size je broj ponavljanja u eksperimentu # prob je vjerojatnost željenog ishoda dbinom( x = 4, size = 20, prob = 1/6 ) ``` ``` #> [1] 0.2022036 ``` <br> <br> ```r # p označava očekivanu vjerojatnost ishoda # size je broj ponavljanja u eksperimentu # prob je vjerojatnost željenog ishoda pbinom( q = 4, size = 20, prob = 1/6) ``` ``` #> [1] 0.7687492 ``` --- .hi[**Binomna distribucija u R**] ```r # q označava očekivani broj ishoda # size je broj ponavljanja u eksperimentu # prob je vjerojatnost željenog ishoda qbinom( p = 0.75, size = 20, prob = 1/6) ``` ``` #> [1] 4 ``` <br> <br> ```r # n označava broj ponavljanja u eksperimentu # size je veličina uzorka # prob je vjerojatnost željenog ishoda head(rbinom( n = 100, size = 20, prob = 1/6 ),20) ``` ``` #> [1] 3 4 3 1 5 2 1 0 2 3 4 3 8 0 4 3 2 4 4 5 ``` --- .hi[Grafički prikaz distribucije za eksperimente različite veličine] <img src="05_VJEROJATNOST_files/figure-html/binomial2a-1.svg" style="display: block; margin: auto;" /> .footnote[[*]Distribucija vjerojatnosti bacanja novčića 20 puta `\(N=20\)` i 100 puta `\(N=100\)`; vjerojatnost jednog ishoda je `\(theta = 1/2\)`.] --- .hi[Grafički prikaz distribucije za eksperimente različite veličine] <img src="05_VJEROJATNOST_files/figure-html/binomiala-1.svg" style="display: block; margin: auto;" /> .footnote[[*]Distribucija vjerojatnosti bacanja novčića 20 puta `\(N=20\)` i 100 puta `\(N=100\)`; vjerojatnost jednog ishoda je `\(theta = 1/2\)`.] --- .hi[**Distribucijske funkcije u R**] <br> <br> <br> <br> <table> <caption></caption> <thead> <tr> <th style="text-align:left;"> Funkcija </th> <th style="text-align:left;"> Prefiks </th> <th style="text-align:left;"> NormalnaDistribcija </th> <th style="text-align:left;"> BinomnaDistribucija </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> Vjerojatnost </td> <td style="text-align:left;"> d </td> <td style="text-align:left;"> dnorm() </td> <td style="text-align:left;"> dbinom() </td> </tr> <tr> <td style="text-align:left;"> Kumulativna vjerojatnost </td> <td style="text-align:left;"> p </td> <td style="text-align:left;"> dnorm() </td> <td style="text-align:left;"> pbinom() </td> </tr> <tr> <td style="text-align:left;"> Generiraj slučajni uzorak </td> <td style="text-align:left;"> r </td> <td style="text-align:left;"> rnorm() </td> <td style="text-align:left;"> rbinom() </td> </tr> <tr> <td style="text-align:left;"> Kvartili distribucije </td> <td style="text-align:left;"> q </td> <td style="text-align:left;"> qnorm() </td> <td style="text-align:left;"> qbinom() </td> </tr> </tbody> </table> .footnote[[*]Nazivi funkcija distribucije u R. Svaka distribucijska funkcija je povezana sa četiri druge funkcije (vidi prefiks).] --- layout:false class: middle, inverse # STANDARDNA DISTRIBUCIJA <html><div style='float:left'></div><hr color='#EB811B' size=1px width=796px></html> (Najpoznatiji statistički model!) --- layout:true # STANDARDNA DISTRIBUCIJA --- .hi[Formalni zapis] $$ X \sim \mbox{Normal}(\mu,\sigma) $$ -- .hi[**Grafički prikaz standardne distribucije**] ```r # Generiraj standardnu distribuciju # parametri za plot width <- 8 height <- 6 fileName <- "standardNormal.eps" # vizualizacija xval <- seq(-3,3,.01) yval <- dnorm( xval, 0, 1) plot(xval, yval, lwd = 3, ylab = "Gustoća vjerojatnosti", xlab = "Ishod", frame.plot = FALSE, type = "l") ``` --- .hi[**Grafički prikaz standardne distribucije**] <img src="05_VJEROJATNOST_files/figure-html/unnamed-chunk-7-1.svg" style="display: block; margin: auto;" /> .footnote[[*]Standardna distribucija sa prosjekom `\(mu = 0\)` i standardnom devijacijom `\(sigma = 1\)`. `\(x\)`-os se odnosi na vrijednost ishoda dok `\(y\)`-os govori kolika je vjerojatnost ishoda. `\(y\)`-os je nazvana "Gustoća vjerojatnosti" , a ne "Vjerojatnost"(kao kod npr. binomne distribucije). Razlika se odnosi na to da je standardna distribucija kontinuirana (za razliku od npr. binomne koja je diskretna). Visina krivulje ne govori točno koja je vjerojatnost ishoda nego koje vrijednosti ishoda su vjerojatnije od drugih!] --- .hi[**Standardna distribucija sa različitim prosjekom**] ```r # Postupak izrade standardne distribucije sa različitim prosjecima xval <- seq(0,11,.01) yval.1 <- dnorm( xval, 4, 1) yval.2 <- dnorm( xval, 7, 1) plot(xval, yval.1, lwd = 3, ylab = "Gustoća vjerojatnosti", xlab = "Ishod", frame.plot = FALSE, type = "l") lines(xval, yval.2, lwd = 3, lty = 2 ) ``` --- .hi[**Standardna distribucija sa različitim prosjekom**] <img src="05_VJEROJATNOST_files/figure-html/normmean-1.svg" style="display: block; margin: auto;" /> <br> .footnote[[*]Standardna distribucija sa drugim prosjekom. Puna linija prikazuje stdandardnu distribuciju sa prosjekom `\(mu=4\)`. Isprekidana linija prikazuje sdandardnu distribuciju sa prosjekom `\(mu=7\)`. Standardna devijacija u oba slučaja iznosi `\(sigma=1\)`.] --- .hi[**Standardna distribucija sa različitom standardnom devijacjom**] ```r # Standardna distribucija sa drugom standardnom devijacijom xval <- seq(0,10,.01) yval.1 <- dnorm( xval, 5, 1) yval.2 <- dnorm( xval, 5, 2) plot(xval, yval.1, lwd = 3, ylab = "Gustoća vjerojatnosti", xlab = "Ishod", frame.plot = FALSE, type = "l") lines(xval, yval.2, lwd = 3, lty = 2 ) ``` --- .hi[**Standardna distribucija sa različitom standardnom devijacjom**] <img src="05_VJEROJATNOST_files/figure-html/normsd-1.svg" style="display: block; margin: auto;" /> .footnote[[*]Standardna distribucija sa drugom standardnom devijacijom. Obje distribucije imaju isti prosjek `\(mu = 5\)`, ali različite standardne devijacije. Puna linija prikazuje standardnu distribuciju sa sa standardnom devijacijom `\(sigma=1\)`, a isprekidana linija sa std. distribuciju sa standardnom devijacijom `\(sigma = 2\)`] --- .hi[Gustoća vjerojatnosti] <div class="figure" style="text-align: center"> <img src="05_VJEROJATNOST_files/figure-html/sdnorm1-1.svg" alt=" " /> <p class="caption"> </p> </div> .footnote[[*]Područje ispod krivulje pokazuje vjerojatnost da opservacija pada u određeni raspon. Puna crta pokazuje standardnu distribuciju sa prosjekom `\(mu=0\)` i standardnom devijacijom `\(sigma=1\)`. Osjenčana područja prikazuju "površinu ispod krivulje". Na lijevoj strani vidimo da postoji 68.3% šansa da opservacija pada unutar jedne standardne devijacije od prosjeka. Na desnoj strani vidimo da postoji 95.4% šanse da će opservacija pasti unutar dvije standardne devijacije od prosjeka.] --- <img src="05_VJEROJATNOST_files/figure-html/sdnorm2-1.svg" style="display: block; margin: auto;" /> .footnote[[*]Dva dodatna primjera koncepta \"površine ispod krivulje\". Postoji 15.9% šansa da je opservacija jednu standardnu devijaciju ispod prosjeka ili manje (desno) i 34.1% šansa da je opservacija veća od jedne standardne devijacije ispod prosjeka ali i dalje ispod prosjeka. Valja primijetiti da je 15.9% + 34.1% = 50%. Za standardnu distribuciju postoji 50% šansa da opservacija pada ispod prosjeka i 50% da pada iznad prosjeka.] --- layout:false class: middle, inverse # DRUGE DISTRIBUCIJE <html><div style='float:left'></div><hr color='#EB811B' size=1px width=796px></html> (Distribucije su modeli prirodnih pojava!) --- layout:true # DRUGE DISTRIBUCIJE --- .hi[**t distribucija**] ```r # Prikaži t distribuciju xval <- seq(-5,5,.01) yval <- dt( xval, df = 3) plot(xval, yval, lwd = 3, ylab = "Gustoća vjerojatnosti", xlab = "Ishod", frame.plot = FALSE, type = "l", ylim = c(0,.4)) lines(xval, dnorm(xval,0,1), lty = 2) ``` --- .hi[**t distribucija**] <img src="05_VJEROJATNOST_files/figure-html/unnamed-chunk-10-1.svg" style="display: block; margin: auto;" /> .footnote[[*]"t distribucija sa 3 stupnja slobode (puna linija). Distribucija je slična normalnoj distribuciji ali je ipak različita. Zbog usporedbe je prikazana i standardna distribucija na isprekidanoj liniji. "Repovi" t distribucije su "teži" nego "repovi" standardne distribucije.] --- .hi[**Chi-sq distribucija**] ```r # Prikaži ChiSq distribuciju xval <- seq(0,10,.01) yval <- dchisq( xval, df = 3) plot(xval, yval, lwd = 3, ylab = "Probability Density", xlab = "Ishod", frame.plot = FALSE, type = "l") ``` --- .hi[**Chi-sq distribucija**] <img src="05_VJEROJATNOST_files/figure-html/unnamed-chunk-11-1.svg" style="display: block; margin: auto;" /> .footnote[[*]chi2 distribucija sa tri stupnja slobode. Valja primijetiti da ishodi moraju biti veći od nule i da je distribucija prilično zakrivljena. To su karakteristike chi-square distribucije.] --- .hi[**F distribucija**] <br> <br> ```r # Prikaži F distribuciju xval <- seq(0,10,.01) yval <- df( xval, df1 = 3, df2 = 5) plot(xval, yval, lwd = 3, ylab = "Gustoća vjerojatnosti", xlab = "Ishod", frame.plot = FALSE, type = "l") ``` --- .hi[**F distribucija**] <img src="05_VJEROJATNOST_files/figure-html/unnamed-chunk-12-1.svg" style="display: block; margin: auto;" /> .footnote[[*]F distribucija sa 3 i 5 stupnjeva slobode. Općenito je moguće primijetiti da F distribucija sliči chi-sqare distribuciji, no među njima ipak postoje značajne razlike.] --- .hi[Generiraj standardnu distribuciju] ```r # Stvori 1000 ishoda normalne distribuciju sa prosjekom 0 i stdev 1 normal.a <- rnorm( n = 1000, mean = 0, sd = 1 ) print(head(normal.a)) # Prikaži # Napravi histogram podataka hist(normal.a, breaks = 70, freq = FALSE, xlim = c(-4,4), border = "red", ylim = c(0,.45), axes = FALSE, xlab = "", ylab = "", main = "Simulirana standardna distribucija", font.main = 1) lines(x <- seq(-4,4,.1), dnorm(x), lwd = 2, col = "black") axis(1) ``` --- .hi[**Generiraj standardnu distribuciju**] ``` #> [1] 1.00121314 -0.55020451 0.04492631 -0.44148303 -1.45097924 -0.50453422 ``` <img src="05_VJEROJATNOST_files/figure-html/unnamed-chunk-14-1.svg" style="display: block; margin: auto;" /> --- .hi[**Generiraj chi-squared distribuciju**] ```r # Elementi za stvaranje Chi-sq distribucije n <- 1000 # Stvori niz od tisuću brojeva normal.a <- rnorm( n ) # Stvori standardnu distribuciju normal.b <- rnorm( n ) # Stvori standardnu distribuciju normal.c <- rnorm( n ) # Stvori standardnu distribuciju normal.d <- rnorm( n ) # Stvori standardnu distribuciju # Stvori Chi-sq distribuciju: # Kao sumu kvadriranih normalnih distribucija chi.sq.3 <- (normal.a)^2 + (normal.b)^2 + (normal.c)^2 # Putem funkcije chi.sq.20 <- rchisq( n, 20) #chi.sq sa 20 stupnjeva slobode ``` --- .hi[**Generiraj chi-squared distribuciju**] ```r # Prikaži Chi-sq distribuciju na histogramu hist(chi.sq.3, breaks = 70, freq = FALSE, xlim = c(0,16), border = "red", axes = FALSE, ylim = c(0,.25), xlab = "", ylab = "", main = "", font.main = 1) lines(x <- seq(0,16,.1), dchisq(x,3), lwd = 2, col = "black" ) axis(1) ``` --- .hi[**Generiraj chi-squared distribuciju**] <img src="05_VJEROJATNOST_files/figure-html/unnamed-chunk-17-1.svg" style="display: block; margin: auto;" /> --- .hi[**Stvori t distribuciju**] ```r # Prvi korak skalirano.chi <- chi.sq.3 / 3 # Podijeli chi.sq sa 3 # Drugi korak # t distribucija kao omjer normalne i drugog korijena skalirane chi.sq distribucije t.3 <- normal.d / sqrt( skalirano.chi ) # Napravi histogram hist(t.3, breaks = 70, freq = FALSE, xlim = c(-5,5), border = "red", axes = FALSE, ylim = c(0,.4), xlab = "",ylab = "", main = "", font.main = 1) lines(x <- seq(-4,4,.1), dt(x,3), lwd = 2, col = "black") axis(1) ``` --- .hi[**Stvori t distribuciju**] <img src="05_VJEROJATNOST_files/figure-html/unnamed-chunk-19-1.svg" style="display: block; margin: auto;" /> --- .hi[**Stvori F distribuciju**] ```r # F distribucija kao omjer dviju skaliranih chi.sq distribucija F.3.20 <- (chi.sq.3 / 3) / (chi.sq.20 / 20) # Napravi histogram hist(F.3.20, breaks = 70, freq = FALSE, xlim = c(0,6), border = "red", axes = FALSE, ylim=c(0,.7), xlab = "", ylab = "", main = "Simulirana F distribucija", font.main = 1) lines(x <- seq(0,6,.01), df(x,3,20), lwd = 2, col = "black") axis(1) ``` --- .hi[**Stvori F distribuciju**] <img src="05_VJEROJATNOST_files/figure-html/unnamed-chunk-21-1.svg" style="display: block; margin: auto;" /> --- layout:false class: middle, inverse # HVALA NA PAŽNJI! <html><div style='float:left'></div><hr color='#EB811B' size=1px width=796px></html> (Sljedeće predavanje: Statistički uzorak i populacija)