Baza podataka — opis korpusa katoličkoga digitalnog medijskog prostora

Što korpus sadrži, kako je prikupljen i filtriran te tko su izvori — preko 710.000 objava (2021.–2026.)

Korpus

Metodologija

Otvoreni podaci

Published

July 2, 2026

Što je ovaj korpus

DigiKat je strukturirani korpus od 710.307 medijskih objava (2021.–2026.) koje govore o katoličkim i religijskim temama u hrvatskom digitalnom medijskom prostoru. Jedinica promatranja je jedna objava, bilo da je riječ o članku na portalu, objavi na društvenoj mreži, videozapisu ili komentaru. Svaki redak baze jedna je objava.

Ključno je razumjeti da je korpus prikupljen prema sadržaju, a ne prema unaprijed odabranom popisu medija. Objava ulazi u korpus jer govori o katoličkim temama, bez obzira na to objavljuje li je konfesionalni (katolički) ili sekularni (mainstream) medij. Zato korpus obuhvaća i jedne i druge, od crkvenih portala i župnih Facebook-stranica do najčitanijih općih news-portala.

Korpus je empirijska osnova za četiri analitičke razine projekta: Mapu ekosustava, Tematske struje, Atmosferu diskursa i Fokus na događaje.

Baza je javno dostupna na Kaggleu kao Hrvatski katolički digitalni medijski prostor 2021.–2026..

Ključni pokazatelji

710.307

Medijskih objava

2021.–2026.

Razdoblje (2026. nepotpuna)

Platformi i izvora

≥2 / 95

Prag uključivanja (religijskih pojmova)

Web-sadržaj čini 73,8 % korpusa. Ostatak dolazi s društvenih platformi i foruma. Presjek korpusa opisan na ovoj stranici zaključno je s datumom 11. lipnja 2026..

Što korpus NIJE

Prije daljnjeg čitanja korpus treba jasno razgraničiti od onoga što nije. Korpus nije kurirani popis katoličkih medija, jer hvata teme, a ne institucije. On nije ni reprezentativan, vjerojatnosni uzorak svih hrvatskih medija, nego velik opservacijski korpus omeđen dosegom servisa za monitoring i pravilom uključivanja. Korpus nije, naposljetku, mjera religioznosti stanovništva ni stavova javnosti, nego jest tematski zahvat objava koje govore o katoličkim temama u razdoblju 2021.–2026.

Kako je korpus definiran

Članstvo u korpusu određuje jedno pravilo. Tekst svake objave prevede se u mala slova i pretraži popisom od 95 hrvatskih religijskih pojmova (biskup, misa, euharistija, hodočašće, enciklika, Sveta stolica…), zapisanih kao regularni izrazi koji pokrivaju padeže i množine. Objava ulazi u korpus samo ako pogodi najmanje dva različita pojma (R/religious_terms.R).

Sastav i tipologija izvora

Budući da je okvir tematski, korpus doslovno miješa konfesionalne i sekularne izvore. Najveći pojedinačni izvor jest konfesionalni hkm.hr (Hrvatska katolička mreža), no odmah uz njega stoje najčitaniji opći portali. Prema indikativnoj klasifikaciji izvora (opisanoj niže), iz jasno konfesionalnih / crkvenih medija dolazi najmanje 27,5 % objava. Ostatak nose sekularni, mainstream i lokalni news-mediji, uz manji udio zajednica i foruma.

Sastav korpusa prema tipu izvora (indikativno, na razini objave)
Tip izvora	Broj objava	Udio
Ostalo / nerazvrstano	338.316	47,6 %
Konfesionalni / crkveni	195.499	27,5 %
Sekularni / mainstream (identificirani)	154.274	21,7 %
Zajednice i forumi	22.218	3,1 %

Sastav se bitno razlikuje po platformi — dok je web izvorno mješovit, društvene su platforme uporišta glasa Crkve, a forumi i Reddit gotovo su isključivo sekularni prostori zajednice.

Udio konfesionalnih izvora unutar glavnih platformi
Platforma	Udio konfesionalnih
web	25,6 %
facebook	37,1 %
youtube	42,4 %
twitter	3,5 %

Note

Napomena o klasifikaciji. Razvrstavanje izvora je indikativno — ručno je označen skup najčešćih izvora (uz obrasce za crkvene domene poput biskupija, župa, franjev), čime je razvrstano oko 52 % objava. Preostalo („Ostalo / nerazvrstano”) uglavnom su sekularne lokalne vijesti. Tipologija je analitički presjek, a ne prirodna kategorija, pa navedene udjele treba čitati kao red veličine, a ne kao točne mjere.

Pojedinačni izvori: katalog i mreža

Iza zbirnih brojki stoje konkretni akteri. Uz sastav po tipu izvora, korpus se može razgledati i izvor po izvor. Katalog izvora okuplja profile pojedinačnih medijskih aktera zastupljenih u korpusu: za svaki donosi volumen, angažman i doseg te pripadnost tipologiji (Divovi, Graditelji zajednica, Megafoni, Specijalizirani akteri), izračunatoj jednako kao u Mapi ekosustava. Profili su razvrstani po platformama i međusobno povezani, pa se od jednog izvora lako prijeđe na srodne.

Isti se katalog može sagledati i kao mreža izvora: interaktivni graf u kojem je svaki izvor jedan čvor, obojen prema platformi i skaliran prema volumenu objava. Poveznice među čvorovima su strukturne — pripadnost izvora svojoj platformi te zajednički brend ili osoba prisutna na više platformi (primjerice Laudato ili Index). Struktura kataloga, inače vidljiva tek listanjem pojedinačnih stranica, tako se vidi odjednom i istražuje mišem.

Warning

Mreža prikazuje strukturu kataloga, a ne izmjerene odnose među akterima. Poveznice ne znače zajedničku publiku, tematsko preklapanje ni utjecaj: riječ je isključivo o pripadnosti platformi i zajedničkom brendu. Katalog je radna verzija — uređivačke oznake (konfesionalni/sekularni izvor) prijedlozi su koje potvrđuje voditelj projekta, a brojke su indikativne.

Kako je prikupljen

Podaci su izvezeni iz komercijalnog servisa za medijski monitoring (koji objave prikuplja web scrapingom i platformskim API-jima) u obliku .xlsx tablica, koje su potom spojene i filtrirane u jedinstveni korpus.

Korpus je sastavljen iz dvaju uzastopnih, a ne usporednih tokova prikupljanja — ne preklapaju se u vremenu, nego jedan nastavlja na drugi. Do 2024. objave dolaze iz tekućeg monitoring-upita (269.583 objava, razdoblje 2021.–2024.). Od 2024. taj je upit zamijenjen religijski filtriranim prikupljanjem (440.724 objava, razdoblje 2024.–2026.) koje primjenjuje pravilo ≥2 pojma opisano gore. Riječ je, dakle, o promjeni metode prikupljanja oko 2024., što je važno imati na umu pri svakoj usporedbi volumena kroz vrijeme (vidi Vremenska pokrivenost niže).

Deduplikacija se provodi isključivo po URL-u. Ona ne uklanja ?utm_ i slične tracking-parametre, pa isti članak s različitim parametrima može ostati kao zaseban redak. Zbog toga je URL tek de facto ključ objave, a ukupan broj objava treba čitati kao gornju granicu. Pokrivenost je omeđena dosegom servisa za monitoring — riječ je o velikom opservacijskom, a ne vjerojatnosnom uzorku.

Opseg korpusa

Vremenska pokrivenost

Broj objava po godinama
Godina	Broj objava
2021	90.388
2022	84.535
2023	83.836
2024	114.231
2025	236.166
2026	101.151

Broj objava raste prema kraju razdoblja, ali taj se rast ne smije čitati kao puki porast medijske pažnje. Skok u 2025. (236.166 objava) poklapa se s prelaskom na obuhvatniji način prikupljanja (religijski filtrirani backfill) i s uključivanjem novih platformi (Instagram i TikTok tek od 2024.). Godina 2026. je nepotpuna (do lipnja), pa je njezin manji broj artefakt presjeka, a ne pad. Usporedbe volumena kroz godine stoga su pouzdane samo unutar iste platforme i istoga toka prikupljanja.

Platforme

Distribucija objava po platformama
Platforma	Broj objava	Udio
web	524.393	73,8 %
facebook	89.328	12,6 %
youtube	65.521	9,2 %
reddit	9.791	1,4 %
twitter	7.052	1,0 %
forum	6.410	0,9 %
instagram	3.825	0,5 %
comment	3.649	0,5 %
tiktok	338	0,0 %

Dominacija web-sadržaja (73,8 %) nije samo brojčana. Ona odražava ulogu tradicionalnih medija kao čuvara vijesti u hrvatskom digitalnom prostoru. Društvene platforme (Facebook, YouTube) nose manji, ali sadržajno osobit dio korpusa u kojem, kako je pokazano, prevladava glas Crkve.

Jezik i geografija

Jezik i geografija strojno su detektirani i višeoznačni (jedna objava može nositi više oznaka). Hrvatski dominira — 542.779 objava nosi isključivo oznaku hr. Korpus ipak sadrži i znatan regionalni južnoslavenski sadržaj (bosanski, srpski, slovenski) — oko 164.810 objava ima barem jednu takvu oznaku. Geografski je težište Hrvatska (605.822 objava označeno je samo kao HR), uz prelijev prema Bosni i Hercegovini te ostatku regije. Filtriranje na LANGUAGES == "hr" stoga tiho izbacuje regionalni sadržaj. S time treba računati pri ponovnom korištenju.

Struktura podataka

Korpus ima 47 varijabli, koje se grupiraju u šest funkcionalnih skupina: vremenske (DATE, TIME, year), sadržaj i tekst (TITLE, FULL_TEXT, MENTION_SNIPPET, URL, URL_PHOTO), izvor i akter (FROM, AUTHOR, SOURCE_TYPE), monitoring i podudaranje (GROUP_NAME, KEYWORD_NAME, FOUND_KEYWORDS, LANGUAGES, LOCATIONS, data_source), sentiment (AUTO_SENTIMENT, MANUAL_SENTIMENT) te angažman i doseg (REACH, ENGAGEMENT_RATE, INTERACTIONS, VIEW_COUNT, reakcije, INFLUENCE_SCORE i dr.). Potpuni popis s pripadajućom skupinom nalazi se u referentnoj tablici na dnu stranice.

Puni tekst objave (FULL_TEXT) nije dio javne distribucije zbog autorskih prava. Javno se dijele metapodaci i isječci, a puni tekst dostupan je na zahtjev za istraživačke svrhe. Kontrolirane kategorije imaju zatvoren skup vrijednosti: SOURCE_TYPE ima 9 razina, AUTO_SENTIMENT četiri (uključujući undefined), a INFLUENCE_SCORE 10 razina. Polje FOUND_KEYWORDS dolazi iz servisa za monitoring i šumovito je (najčešća vrijednost je veznik „i”), pa ga ne treba tumačiti kao dokaz religijskog filtra.

Podrijetlo signala i mjera

Distribucija automatskog (vendorskog) tonaliteta
Sentiment	Broj objava	Udio
positive	334.968	47,2 %
negative	204.761	28,8 %
neutral	170.497	24,0 %
undefined	81	0,0 %

Varijabla AUTO_SENTIMENT je vendorska — izračunava je servis za monitoring nepoznatom metodom i gruba je (tri razine + undefined). Ona je distinktna od projektnoga leksičkog tonaliteta koji se računa u sloju Atmosfera diskursa i ne treba je s njime miješati. Ručno kodirani tonalitet (MANUAL_SENTIMENT) u ovom je izdanju prazan po dizajnu (100 % nedostaje).

Mjere angažmana (REACH, VIRALITY, ENGAGEMENT_RATE, INFLUENCE_SCORE) također računa vendor pri zahvatu. Formule su neprozirne, nisu usporedive među platformama i ne osvježavaju se kako objava stari. Doseg je izrazito asimetričan (medijan je 516, a maksimum više milijuna), pa prosjek dosega lako zavara. INFLUENCE_SCORE je ordinalna ljestvica od 10 razina i ne treba je prosjekovati.

Kvaliteta i ograničenja

Dostupnost ključnih metrika po platformi (% popunjeno)
Platforma	REACH	ENGAGEMENT_RATE	VIEW_COUNT	REAKCIJE	FOLLOWERS
web	100	63	0	100	0
facebook	100	89	0	100	99
youtube	89	71	100	99	12
reddit	0	0	0	3	0
twitter	95	58	7	15	68
forum	0	0	0	0	0
instagram	100	0	100	100	100
comment	0	0	0	0	0
tiktok	100	0	0	100	0

Metrike angažmana nisu popunjene za sve platforme — REACH i reakcije postoje uglavnom za web i Facebook, VIEW_COUNT samo za video (YouTube, Instagram), a forumi, Reddit i komentari nose malo metrika. Zato prosjek preko platformi spaja strukturne praznine i vodi u pogrešan zaključak.

Nedostajuće vrijednosti dolaze u tri vrste. Prva je prazno po dizajnu — MANUAL_SENTIMENT, TAGS, TWEET_COUNT i COUNT u potpunosti nedostaju u ovom izdanju. Druga je platformski uvjetovana — VIEW_COUNT, Facebook-reakcije i REDDIT_SCORE postoje samo na svojoj matičnoj platformi. Treća je stvarno nedostajanje, poput autora objave (AUTHOR), koji nedostaje u 38 % slučajeva.

Note

Sigurni i nesigurni zaključci. Iz korpusa je pouzdano čitati relativni tematski volumen kroz vrijeme unutar iste platforme i toka, distribuciju tonaliteta (uz vendorsku ogradu) i broj objava po izvoru. Nije pouzdano usporediti angažman ili doseg među platformama, čitati porast u 2025. ili pad u 2026. kao stvaran trend, niti prosjekovati REACH ili INFLUENCE_SCORE.

Kako se korpus koristi

Referentna primjena korpusa jesu četiri analitičke razine projekta, koje iz istih podataka izvode volumen, teme, tonalitet i događaje. Mapa ekosustava prikazuje volumen, doseg i angažman te tipologiju aktera. Tematske struje raspoređuju objave u 16 tematskih kategorija. Atmosfera diskursa mjeri tonalitet i osam emocija, a Fokus na događaje prati pomake oko konkretnih događaja i kampanja.

Pristup, licencija i citiranje

Korpus je otvoren pod licencijom CC BY 4.0. Baza podataka dostupna je na Kaggleu kao Hrvatski katolički digitalni medijski prostor 2021.–2026., a sav kod, uključujući filtar R/religious_terms.R, objavljen je na GitHubu na github.com/lusiki/DigiKat.

Kako je korpus nastao (reproducibilnost). Sirove .xlsx izvoze → prijevod teksta u mala slova → 95-pojmovni regex-filtar → zadrži objave s ≥2 različita podudaranja → merged_comprehensive.rds. Master (oko 1,2 GB) nije u repozitoriju jer sadrži puni tekst. Javna distribucija sadrži metapodatke i isječke.

Osobni podaci. Korpus sadrži javno dostupne metapodatke o izvorima i računima (npr. FROM, AUTHOR, nazivi javnih stranica, FOLLOWERS_COUNT). Redistribucija je ograničena na javne objave javnih računa. Puni tekst je izuzet iz javne distribucije.

Preporučeni oblik citiranja:

Šikić, L. / Hrvatsko katoličko sveučilište (2026). DigiKat: korpus katoličkoga digitalnog medijskog prostora u Hrvatskoj (2021.–2026.) [skup podataka]. Presjek: 11. lipnja 2026. (710.307 objava). CC BY 4.0.

# Minimalno učitavanje (put prilagodite preuzetoj datoteci)
dta <- readRDS("merged_comprehensive.rds")

Referenca: potpuni popis varijabli

Svih 47 varijabli (ključ retka = URL)
Varijabla	Skupina	Tip	N jedinstvenih	Nedostaje
DATE	Vremenske	character	1.783	0,0 %
TIME	Vremenske	character	77.241	0,0 %
TITLE	Sadržaj i tekst	character	617.205	0,0 %
FROM	Izvor i akter	character	18.346	0,0 %
AUTHOR	Izvor i akter	character	23.839	38,2 %
URL	Sadržaj i tekst	character	702.091	0,0 %
URL_PHOTO	Sadržaj i tekst	character	515.797	2,7 %
SOURCE_TYPE	Izvor i akter	character	9	0,0 %
GROUP_NAME	Monitoring i podudaranje	character	2	0,0 %
KEYWORD_NAME	Monitoring i podudaranje	character	2	0,0 %
FOUND_KEYWORDS	Monitoring i podudaranje	character	224.659	0,0 %
LANGUAGES	Monitoring i podudaranje	character	574	0,0 %
LOCATIONS	Monitoring i podudaranje	character	270	0,0 %
TAGS	Monitoring i podudaranje	logical	1	100,0 %
MANUAL_SENTIMENT	Sentiment	logical	1	100,0 %
AUTO_SENTIMENT	Sentiment	character	4	0,0 %
MENTION_SNIPPET	Sadržaj i tekst	character	532.795	13,2 %
REACH	Angažman i doseg	numeric	30.674	3,9 %
VIRALITY	Angažman i doseg	numeric	74.910	26,2 %
ENGAGEMENT_RATE	Angažman i doseg	numeric	152.080	35,1 %
INTERACTIONS	Angažman i doseg	numeric	4.804	3,0 %
FOLLOWERS_COUNT	Angažman i doseg	numeric	30.690	85,2 %
LIKE_COUNT	Angažman i doseg	numeric	4.115	4,1 %
COMMENT_COUNT	Angažman i doseg	numeric	1.799	5,0 %
SHARE_COUNT	Angažman i doseg	numeric	800	13,6 %
TWEET_COUNT	Angažman i doseg	logical	1	100,0 %
LOVE_COUNT	Angažman i doseg	numeric	42	87,4 %
WOW_COUNT	Angažman i doseg	numeric	13	87,4 %
HAHA_COUNT	Angažman i doseg	numeric	40	87,4 %
SAD_COUNT	Angažman i doseg	numeric	24	87,4 %
ANGRY_COUNT	Angažman i doseg	numeric	32	87,4 %
TOTAL_REACTIONS_COUNT	Angažman i doseg	numeric	4.780	3,7 %
FAVORITE_COUNT	Angažman i doseg	numeric	200	99,0 %
RETWEET_COUNT	Angažman i doseg	numeric	49	99,0 %
VIEW_COUNT	Angažman i doseg	numeric	10.614	90,2 %
DISLIKE_COUNT	Angažman i doseg	numeric	38	99,4 %
COUNT	Angažman i doseg	logical	1	100,0 %
REPOST_COUNT	Angažman i doseg	numeric	11	99,8 %
REDDIT_TYPE	Angažman i doseg	character	3	98,6 %
REDDIT_SCORE	Angažman i doseg	numeric	30	98,6 %
INFLUENCE_SCORE	Angažman i doseg	numeric	11	10,4 %
TWEET_TYPE	Angažman i doseg	character	4	99,0 %
TWEET_SOURCE_NAME	Angažman i doseg	character	27	99,7 %
TWEET_SOURCE_URL	Angažman i doseg	character	27	99,7 %
FULL_TEXT	Sadržaj i tekst	character	686.087	0,0 %
year	Vremenske	numeric	6	0,0 %
data_source	Monitoring i podudaranje	character	2	0,0 %

Kontakt: luka.sikic@unicath.hr · ORCID: 0009-0006-3519-0272