Baza podataka katoličkog digitalnog medijskog prostora (2021-2025)

Published

January 19, 2026

Baza podataka sadrži 612,065 medijskih objava prikupljenih tijekom 2021 - 2026 godina, fokusiranih na katoličke teme i sadržaje u hrvatskim medijima. Baza predstavlja sveobuhvatan korpus za analizu medijskog diskursa, sentimenta i angažmana publike u domeni katoličkih (religijskih) tema.

Osnovne karakteristike dataseta
Karakteristika Vrijednost
Broj zapisa 612,065
Broj varijabli 47
Vremenski period 2021 - 2026 godina
Format R data.table
Glavni jezik Hrvatski (hr)
Geografski opseg Hrvatska (HR)

Struktura podataka

Classes 'data.table' and 'data.frame': 612065 obs. of 47 variables:
$ DATE                     : character '2021-01-02' '2021-01-02' '2021-01-02' ...
$ TIME                     : character '23:36:00' '23:28:34' '23:16:12' ...
$ TITLE                    : character 'Župa Gospe Brze Pomoći u ' 'Kardinal Bozanić predvodi' 'Otac renesanse se potpisa' ...
$ FROM                     : character 'laudato.hr' 'hkm.hr' 'vecernji.hr' ...
$ AUTHOR                   : character 'NA' '@hkr_radio' 'NA' ...
$ URL                      : character 'https://laudato.hr/vijest' 'https://ika.hkm.hr/novost' 'https://www.vecernji.hr/v' ...
$ URL_PHOTO                : character 'https://app.determ.com/im' 'https://app.determ.com/im' 'https://app.determ.com/im' ...
$ SOURCE_TYPE              : character 'web' 'web' 'web' ...
$ GROUP_NAME               : character 'Luka' 'Luka' 'Luka' ...
$ KEYWORD_NAME             : character 'opće' 'opće' 'opće' ...
... [dodatnih 37 varijabli]

Distribucija po godinama

Broj objava po godinama
Godina Broj objava
2021 90388
2022 84535
2023 83836
2024 114231
2025 236166
2026 2909

Opis varijabli

Vremenske varijable

Vremenske varijable
Varijabla Tip Opis
DATE character Datum objave u formatu YYYY-MM-DD
TIME character Vrijeme objave u formatu HH:MM:SS
year numeric Godina izvlučena iz datuma

Sadržaj i metapodaci

Sadržaj i metapodaci
Varijabla Tip Opis
TITLE character Naslov članka/objave
FULL_TEXT character Potpuni tekst objave (dostupan isključivo na zahtjev)
MENTION_SNIPPET character Isječak teksta koji sadrži ključne riječi
AUTHOR character Autor objave (ako je dostupan)
FROM character Izvor/domena web stranice
URL character Potpuna URL adresa objave
URL_PHOTO character URL fotografije povezane s objavom

Kategorizacija i označavanje

Kategorizacija i označavanje
Varijabla Tip Opis
SOURCE_TYPE factor Tip izvora (web, youtube, facebook, twitter itd.)
GROUP_NAME character Naziv grupe za praćenje
KEYWORD_NAME character Naziv ključne riječi
FOUND_KEYWORDS character Pronađene ključne riječi u tekstu
TAGS logical Dodatne oznake (trenutno prazno)
LANGUAGES character Jezik objave (hr, bs)
LOCATIONS character Geografska lokacija (HR)

Sentiment analiza

Sentiment analiza
Varijabla Tip Opis
AUTO_SENTIMENT character Automatski detektirani sentiment (positive/neutral/negative)
MANUAL_SENTIMENT logical Ručno označen sentiment (trenutno prazno)

Distribucija sentimenta

Distribucija automatskog sentimenta
Sentiment Broj zapisa Postotak (%)
positive 289179 47.2
negative 175974 28.8
neutral 146834 24.0
undefined 78 0.0

Metrike angažmana

Metrike angažmana
Varijabla Tip Opis
REACH numeric Doseg objave (broj ljudi koji je vidjelo)
VIRALITY numeric Indeks viralnosti
ENGAGEMENT_RATE numeric Stopa angažmana (%)
INTERACTIONS numeric Ukupan broj interakcija
FOLLOWERS_COUNT numeric Broj pratitelja autora

Specifične reakcije (Facebook)

Specifične reakcije (Facebook)
Varijabla Tip Opis
LIKE_COUNT numeric Broj 'like' reakcija
LOVE_COUNT numeric Broj 'love' reakcija
WOW_COUNT numeric Broj 'wow' reakcija
HAHA_COUNT numeric Broj 'haha' reakcija
SAD_COUNT numeric Broj 'sad' reakcija
ANGRY_COUNT numeric Broj 'angry' reakcija
COMMENT_COUNT numeric Broj komentara
SHARE_COUNT numeric Broj dijeljenja
TOTAL_REACTIONS_COUNT numeric Ukupan broj svih reakcija

Kvaliteta i kompletnost podataka

Pregled nedostajućih vrijednosti

Pregled nedostajućih vrijednosti u ključnim varijablama
Varijabla Nedostaje (%) Razlog
TAGS 100.0 Funkcionalnost nije implementirana
MANUAL_SENTIMENT 100.0 Ručno označavanje nije provedeno
REDDIT_SCORE 98.7 Specifično za Reddit objave
VIEW_COUNT 88.7 Specifično za video sadržaj
FOLLOWERS_COUNT 86.4 Ovisi o platformi i dostupnosti
AUTHOR 39.7 Nije uvijek dostupno od izvora
URL_PHOTO 2.2 Nije dostupno za sve objave
FULL_TEXT 0.0 Dostupno na zahtjev

Statistički sažetak numeričkih varijabli

Statistički sažetak ključnih numeričkih varijabli
Varijabla Mean Median SD Min Max
REACH 3586.7 552.0 28553.7 0 9064560
INTERACTIONS 105.5 9.0 814.3 0 257884
ENGAGEMENT_RATE 3.5 2.3 8.0 0 3300
LIKE_COUNT 79.7 3.0 501.2 0 115565
INFLUENCE_SCORE 3.1 3.0 2.2 1 10

Distribucija po izvorima

Top 10 izvora po broju zapisa
Tip izvora Broj zapisa Postotak (%)
web 449698 73.5
facebook 69315 11.3
youtube 65521 10.7
reddit 8149 1.3
forum 6235 1.0
twitter 5961 1.0
comment 3649 0.6
instagram 3260 0.5
tiktok 277 0.0

Primjeri korištenja

Osnovne analize

Osnovne analize - pregled kodova i rezultata
Tip analize R kod Rezultat Sortiranje
Analiza sentimenta po izvorima sentiment_by_source <- dta[, .N, by = .(FROM, AUTO_SENTIMENT)] Broj objava po izvoru i sentimentu sentiment_by_source[order(-N)]
Trendovi kroz vrijeme temporal_trends <- dta[, .N, by = .(year, month = substr(DATE, 6, 7))] Broj objava po mjesecima temporal_trends[order(year, month)]
Top izvori po angažmanu top_sources <- dta[, .(avg_engagement = mean(ENGAGEMENT_RATE, na.rm = TRUE)), by = FROM] Prosječni angažman po izvoru top_sources[order(-avg_engagement)]
Distribucija po godinama yearly_dist <- dta[, .N, by = year][order(year)] Broj objava po godinama yearly_dist[order(year)]
Najčešće ključne riječi keyword_freq <- dta[, .N, by = KEYWORD_NAME][order(-N)] Frekvencija ključnih riječi keyword_freq[order(-N)]

Napredne analize

Napredne analize - detaljni pregled metoda
Analiza Potrebne biblioteke Ključni kod Očekivani output
Tokenizacija teksta tidytext, dplyr unnest_tokens(word, TITLE) Pojedinačne riječi iz naslova
Čišćenje stop riječi tidytext anti_join(stop_words) Filtrirane značajne riječi
Brojanje riječi po sentimentu dplyr, tidytext count(word, AUTO_SENTIMENT, sort = TRUE) Frekvencija riječi po sentimentu
Sentiment scoring dplyr, case_when summarise(sentiment_score = sum(n * case_when(...))) Numerički sentiment score
Wordcloud generiranje wordcloud, RColorBrewer wordcloud(words, freq, colors = brewer.pal(8, 'Dark2')) Vizualna reprezentacija
Vremenska serija angažmana ggplot2, lubridate ggplot(aes(x = DATE, y = ENGAGEMENT_RATE)) + geom_smooth() Trend angažmana kroz vrijeme
Korelacijska analiza corrplot corrplot(cor(numeric_vars, use = 'complete.obs')) Matrica korelacija

Primjer koda za učitavanje i osnovnu obradu

Code
# Učitavanje podataka
dta <- readRDS("../../data/merged_comprehensive.rds")

# Konverzija datuma
dta[, DATE := as.Date(DATE)]
dta[, year := year(DATE)]
dta[, month := month(DATE)]
dta[, yearmonth := floor_date(DATE, "month")]

# Filtriranje po godinama
dta_2024_2025 <- dta[year %in% c(2024, 2025)]

# Agregacija po izvoru i sentimentu
summary_table <- dta[, .(
  n_posts = .N,
  avg_reach = mean(REACH, na.rm = TRUE),
  avg_engagement = mean(ENGAGEMENT_RATE, na.rm = TRUE),
  total_interactions = sum(INTERACTIONS, na.rm = TRUE)
), by = .(SOURCE_TYPE, AUTO_SENTIMENT)]

# Trend analiza
monthly_trend <- dta[, .(
  n_posts = .N,
  avg_sentiment_positive = mean(AUTO_SENTIMENT == "positive", na.rm = TRUE)
), by = yearmonth][order(yearmonth)]

Tehnički detalji

Izvorni format podataka

Tehnički detalji dataseta i preporučeni alati
Kategorija Vrijednost/Opis Napomene
Izvorne datoteke merged_comprehensive.rds Svi podaci spojeni u jednu datoteku
Format obrade R data.table Optimizirano za velike podatke
Kodiranje UTF-8 Podrška za hrvatske znakove
Separatori Automatski detektirani RDS format automatski parsiran
Nedostajuće vrijednosti NA Standardno R označavanje
Preporučena biblioteka Manipulacija data.table za brzu manipulaciju velikih dataset-a Brzina: 10-100x brža od base R
Preporučena biblioteka Sintaksa dplyr za čišću i čitljiviju sintaksu Kompatibilnost s tidyverse ekosystemom
Preporučena biblioteka Vizualizacija ggplot2 za profesionalne vizualizacije Grammar of graphics pristup
Preporučena biblioteka Datumi lubridate za rad s datumskim formatima Timezone aware operacije
Preporučena biblioteka Tekst stringr za manipulaciju i analizu teksta Regex podrška za složene operacije

Napomene o performansama

Preporuke za optimalne performanse
Operacija Preporučeni pristup Očekivano vrijeme
Čitanje podataka readRDS() za RDS format < 30 sekundi
Grupiranje i agregacija data.table sintaksa [, .N, by=] < 5 sekundi
Filtriranje velikih tekstova Koristiti grep() s fixed=TRUE 10-60 sekundi
Sortiranje po datumu Konvertirati DATE u Date klasu < 10 sekundi
Analiza sentimenta Koristiti existirajuće AUTO_SENTIMENT 1-5 minuta
Eksport u CSV fwrite() za brzi eksport < 60 sekundi

Potpuni popis varijabli

Potpuni popis varijabli u datasetu
Br. Varijabla Tip N jedinstvenih Nedostaje (%)
1 DATE character 1627 0.0
2 TIME character 75952 0.0
3 TITLE character 530840 0.0
4 FROM character 16574 0.0
5 AUTHOR character 19519 39.7
6 URL character 603849 0.0
7 URL_PHOTO character 452492 2.2
8 SOURCE_TYPE character 9 0.0
9 GROUP_NAME character 2 0.0
10 KEYWORD_NAME character 2 0.0
11 FOUND_KEYWORDS character 177870 0.0
12 LANGUAGES character 512 0.0
13 LOCATIONS character 241 0.0
14 TAGS logical 1 100.0
15 MANUAL_SENTIMENT logical 1 100.0
16 AUTO_SENTIMENT character 4 0.0
17 MENTION_SNIPPET character 466402 11.5
18 REACH numeric 28923 4.2
19 VIRALITY numeric 74910 26.5
20 ENGAGEMENT_RATE numeric 142217 29.1
21 INTERACTIONS numeric 4681 3.1
22 FOLLOWERS_COUNT numeric 28467 86.4
23 LIKE_COUNT numeric 3997 4.3
24 COMMENT_COUNT numeric 1774 5.5
25 SHARE_COUNT numeric 768 15.2
26 TWEET_COUNT logical 1 100.0
27 LOVE_COUNT numeric 42 88.7
28 WOW_COUNT numeric 13 88.7
29 HAHA_COUNT numeric 40 88.7
30 SAD_COUNT numeric 24 88.7
31 ANGRY_COUNT numeric 32 88.7
32 TOTAL_REACTIONS_COUNT numeric 4664 4.0
33 FAVORITE_COUNT numeric 193 99.0
34 RETWEET_COUNT numeric 48 99.0
35 VIEW_COUNT numeric 10600 88.7
36 DISLIKE_COUNT numeric 38 99.3
37 COUNT logical 1 100.0
38 REPOST_COUNT logical 1 100.0
39 REDDIT_TYPE character 3 98.7
40 REDDIT_SCORE numeric 28 98.7
41 INFLUENCE_SCORE numeric 11 10.6
42 TWEET_TYPE character 4 99.0
43 TWEET_SOURCE_NAME character 27 99.6
44 TWEET_SOURCE_URL character 27 99.6
45 FULL_TEXT character 593140 0.0
46 year numeric 6 0.0
47 data_source character 2 0.0

Preuzmi bazu podataka

📊 Kaggle Dataset Croatian Catholic Media Space 2021-2025

Licence i citiranje

Molimo citirajte ovu bazu u svojim radovima koristeći sljedeći format:

[Šikić, Luka/Hrvatsko katoličko sveučilište]. (2025). Katolički digitalni medijski prostor u Hrvatskoj 2021-2025. Dataset sadrži 612,065 medijskih objava iz hrvatskih medija. Pristupljeno 2026-01-20.

Dodatni resursi

  • GitHub repozitorij [https://github.com/lusiki/DigiKat]
  • Dokumentacija [https://lusiki.github.io/DigiKat/baza.html]
  • Kontakt [luka.sikic@unicath.hr]
  • ORCID [0009-0006-3519-0272]

Zadnja ažurirana 2026-01-20
Verzija 2.0
R verzija R version 4.5.2 (2025-10-31 ucrt)