Semantički indeksi gospodarske aktivnosti

Mjerenje ekonomske aktivnosti kroz analizu medijskog diskursa

Author

GIMES Research

Published

2. siječnja 2026.

1 Uvod

Ovaj dokument konstruira semantičke indekse gospodarske aktivnosti temeljene na analizi medijskog diskursa. Primjenom leksičke analize na korpus novinskih članaka kvantificiraju se različiti aspekti ekonomske aktivnosti percipirani kroz medijski prostor.

1.1 Motivacija i kontekst

Medijski diskurs predstavlja važan izvor informacija o percepciji gospodarskih kretanja u realnom vremenu. Tradicionalni ekonomski pokazatelji poput BDP rasta ili industrijske proizvodnje objavljuju se s vremenskim odmakom, dok medijsko izvještavanje pruža uvid u trenutnu percepciju ekonomske situacije. Ovim izvještajem se nastoji odgovoriti na ključna pitanja:

  1. Kako kvantificirati intenzitet medijskog pokrivanja ekonomskih tema?
  2. Kako pratiti dinamiku pojedinih sektora gospodarstva kroz medijski diskurs?
  3. Kako mjeriti sentiment i neizvjesnost u ekonomskom izvještavanju?
  4. Kako konstruirati kompozitne indekse koji sintetiziraju višestruke dimenzije ekonomske aktivnosti?

1.2 Struktura izvještaja

U izvještaju se obrađuju sljedeće teme: metodologija identifikacije članaka, eksploratorni pregled podataka, semantička taksonomija pojmova, konstrukcija i vizualizacija indeksa, sektorska analiza, sentiment analiza, volatilnost i momentum te koncentracija tema.

Učitano 12,427 članaka
Vremenski raspon: 02.01.2021 do 08.01.2024 

2 Metodologija identifikacije članaka

2.1 Pregled procesa filtriranja

Identifikacija relevantnih članaka se provodi kroz sedmostupanjski proces filtriranja koji osigurava visoku preciznost i relevantnost rezultata.

Filter 1: Tip izvora Odabir članaka iz news portala, isključujući društvene mreže, forume i blogove.

Filter 2: Relevantni news portali Ograničenje na verificirane hrvatske medijske izvore s redovitim ekonomskim izvještavanjem.

Filter 3: Minimalna duljina teksta Članci s manje od 200 znakova se isključuju kao potencijalno irelevantni ili nekompletni.

Filter 4: Naslov članka Provjera prisutnosti ekonomski relevantnih pojmova u naslovu članka.

Filter 5: Core pojmovi Detekcija ključnih ekonomskih termina u tijelu teksta korištenjem regex uzoraka.

Filter 6: Isključivanje irelevantnog sadržaja Eliminacija članaka koji sadrže isključivo sportske, zabavne ili lifestyle teme bez ekonomske komponente.

Filter 7: Hrvatski kontekst Zadržavanje članaka s jasnom referencom na hrvatsko gospodarstvo ili relevantne domaće aktere.

3 Eksploratorni pregled podataka

3.1 Osnovne statistike

Osnovne statistike dataseta
Metrika Vrijednost
Ukupan broj članaka 12,427
Vremenski raspon 02.01.2021 do 08.01.2024
Broj dana 1101
Prosječno članaka dnevno 11.29
Broj izvora 116
Medijan duljine članka 3,265

3.2 Top izvora

Top 20 izvora po broju članaka

3.3 Distribucija kroz vrijeme

Mjesečni broj članaka

4 Semantička taksonomija

4.1 Hijerarhijska struktura pojmova

Struktura semantičke taksonomije
Makro_kategorija Meso_kategorija Broj_pojmova
bdp_agregat bdp_direktno 4
bdp_dinamika 10
recesija_ekspanzija 8
kvartalni 7
industrija proizvodnja_opce 5
preradivacka 3
energetika 6
kapaciteti 3
gradevinarstvo sektor 4
projekti 5
nekretnine 4
dozvole 3
turizam promet 3
dolasci_nocenja 4
smjestaj 4
trgovina vanjska 3
izvoz 5
uvoz 4
maloprodaja 4
investicije opce 4
strane 5
javne 4
trziste_rada zaposlenost 5
nezaposlenost 5
place 5
sentiment_poslovni povjerenje 4
optimizam_pesimizam 4
ankete 3
potrosnja osobna 3
potrosaci 5
stednja 3
financije bankarstvo 7
trziste_kapitala 5
likvidnost 3
institucije statistika 4
centralna_banka 4
komore 4
vlada 3
sektori it_tehnologija 5
poljoprivreda 5
promet_logistika 5

4.2 Sentiment i neizvjesnost leksikoni

Definirano 28 pozitivnih i 29 negativnih sentiment korijena
Definirano 33 neizvjesnost korijena
Definirano 24 forward looking korijena

4.3 Brojanje pojmova

Izračunato 41 semantičkih varijabli

5 Konstrukcija indeksa

5.1 Mjesečna agregacija

Agregirano 37 mjeseci podataka

5.2 Sektorski indeksi

Sektorski indeksi kvantificiraju intenzitet medijskog pokrivanja pojedinih segmenata gospodarstva. Za svaki članak se provodi automatsko pretraživanje teksta korištenjem regex uzoraka iz semantičke taksonomije. Mjesečni sektorski indeks za sektor s u mjesecu t računa se kao suma detektiranih pojmova svih članaka u tom mjesecu, omogućujući praćenje apsolutne razine medijske pažnje kroz vrijeme. Indeks industrije agregira pojmove proizvodne aktivnosti i energetike. Indeks građevinarstva prati infrastrukturne projekte i tržište nekretnina. Turistički indeks mjeri izvještavanje o dolascima i smještajnim kapacitetima. Trgovinski indeks obuhvaća vanjskotrgovinsku razmjenu i maloprodajni promet.

Proces ekstrakcije značajki:

  1. Pretprocesiranje teksta: Konverzija u mala slova primjenjuje se na cjelokupni tekst članka.

  2. Pattern matching: Za svaki uzorak iz sektorskog leksikona izvršava se regex pretraga korištenjem funkcije stri_count_regex().

  3. Agregatni sektorski score: Svi meso kategorijski bodovi unutar jedne makro kategorije sumiraju se u jedinstveni makro sektorski indeks.

  4. Vremenska agregacija: Dnevni podaci agregiraju se na mjesečnu razinu korištenjem funkcije floor_date().

Normalizacija:

Sirovi mjesečni sektorski bodovi mogu se normalizirati po broju članaka kako bi se dobila prosječna sektorska gustoća, ili se mogu zadržati u apsolutnom obliku za praćenje ukupne medijske pažnje.

5.2.1 Volume Activity Index (VAI)

VAI predstavlja temeljnu mjeru ukupne zastupljenosti ekonomskog sadržaja u medijskom prostoru. Za svaki članak se zbrajaju sva pojavljivanja ekonomskih pojmova iz semantičke taksonomije korištenjem korijenskih oblika za detekciju morfoloških varijanti. Agregatni broj se normalizira brojem članaka u promatranom mjesecu čime se dobiva prosječna gustoća ekonomskih pojmova. Min max normalizacija skalira rezultate na raspon 0 do 100 gdje minimalna vrijednost postaje 0 a maksimalna 100. Viša vrijednost VAI indicira intenzivnije medijsko pokrivanje ekonomskih tema.

Formalna definicija:

\[VAI_t = \frac{x_t - x_{min}}{x_{max} - x_{min}} \times 100\]

gdje je \(x_t = \frac{\sum_{i \in M_t} semantic\_total_i}{N_t}\)

Interpretacija:

VAI od 100 označava mjesec s najvišom zabilježenom gustoćom ekonomskih pojmova unutar analiziranog razdoblja. VAI od 0 označava mjesec s najnižom gustoćom. Srednja vrijednost oko 50 sugerira prosječnu razinu medijske pažnje relativno na promatrano razdoblje.

5.2.2 Sectoral Composite Index (SCI)

SCI sintetizira dinamiku četiri ključna realna sektora gospodarstva u jedinstvenu kompozitnu mjeru. Za svaki mjesec se izračunava jednostavni aritmetički prosjek normaliziranih vrijednosti indeksa industrije, građevinarstva, trgovine i turizma. Jednaka ponderiranost svih komponenti izbjegava dominaciju pojedinačnog sektora. Rezultirajuća vrijednost se skalira na raspon 0 do 100 primjenom min max normalizacije. SCI pruža sažetu sliku ukupne aktivnosti realnog sektora prema percepciji medija.

Komponente:

  1. Industrija (macro_industrija): Proizvodna aktivnost, prerađivačka industrija, energetika
  2. Građevinarstvo (macro_gradevinarstvo): Građevinski radovi, infrastruktura, nekretnine
  3. Trgovina (macro_trgovina): Vanjska trgovina, izvoz, uvoz, maloprodaja
  4. Turizam (macro_turizam): Turistički promet, dolasci, noćenja, smještaj

Formula:

\[SCI_t = normalize_{01}\left(\frac{1}{4}\sum_{s \in S} macro_{s,t}\right) \times 100\]

5.2.3 Sentiment Adjusted Index (SAI)

SAI nadograđuje osnovnu volume mjeru integracijom tonaliteta medijskog izvještavanja. Polazna točka je gustoća ekonomskih pojmova identična VAI indeksu. Ta vrijednost se modulira faktorom koji ovisi o omjeru pozitivnih i negativnih sentiment riječi identificiranih korijenskim pretraživanjem. Sentiment ratio izračunava se kao razlika broja pozitivnih i negativnih pojmova podijeljena njihovim zbrojem što daje vrijednost u rasponu minus jedan do plus jedan. Volume metrika se množi s faktorom (1 + sentiment_ratio) čime se povećava za pozitivan odnosno smanjuje za negativan sentiment.

Stupanj 1 — Ekstrakcija sentimenta:

\[SR_i = \frac{P_i - N_i}{P_i + N_i}\]

gdje \(P_i\) i \(N_i\) označavaju broj pozitivnih odnosno negativnih pojmova u članku \(i\).

Stupanj 2 — Integracija s volume metrikom:

\[SAI_t = normalize_{01}\left(\frac{semantic\_total_t}{N_t} \times (1 + \overline{SR_t})\right) \times 100\]

Interpretacija:

SAI iznad 50 sugerira da kombinacija volumena i sentimenta prelazi prosjek promatranog razdoblja.

5.2.4 Uncertainty Index (UCI)

UCI kvantificira razinu ekonomske neizvjesnosti percipirane kroz medijski diskurs. Konstrukcija se temelji na prebrojavanju pojavljivanja korijena riječi koje signaliziraju neizvjesnost kao što su neizvjesn, nesigurn, rizik, volatil, nepredvid, možda, vjerojatno i slično. Suma tih pojavljivanja normalizira se brojem članaka kako bi se dobila prosječna mjesečna frekvencija pojmova neizvjesnosti. Rezultat se skalira na raspon 0 do 100 standardnom normalizacijom. Povišene vrijednosti UCI indeksa indiciraju razdoblja percipirane povećane neizvjesnosti u ekonomskom okruženju.

Leksikon neizvjesnosti obuhvaća 33 korijena riječi:

  1. Direktni izrazi neizvjesnosti: neizvjesn, nesigurn, nepredvid, nepoznat, nejasn, neodređen
  2. Izrazi rizika: rizik, volatil, oprez, strah, zabrinut
  3. Modalni izrazi: možda, eventualno, potencijalno, vjerojatno, moguć
  4. Kondicionalnost: ako, ukoliko, ovisno, zavisi
  5. Procesni zastoji: čekanj, odgod, zastoj, blokad, oklijevan
  6. Revizijski izrazi: preispitivan, revizi, korekci

Formula:

\[UCI_t = normalize_{01}\left(\frac{\sum_{i \in M_t} uncertainty_i}{N_t}\right) \times 100\]

5.2.5 Forward Looking Index (FLI)

FLI mjeri stupanj orijentiranosti medijskog sadržaja prema budućim ekonomskim kretanjima. Indeks se konstruira prebrojavanjem korijena riječi koje impliciraju očekivanja, prognoze i planove uključujući očekuje se, predviđa se, prognoz, projekci, plan, strategi, buduć, perspektiv, trend i slične. Mjesečna suma pojavljivanja normalizira se brojem članaka i skalira na 0 do 100. Viši FLI sugerira da medijski diskurs stavlja naglasak na anticipaciju budućih događaja i trendova.

Leksikon sadrži 24 korijena riječi:

  1. Eksplicitne prognoze: očekuje se, predviđa se, prognoz, projekci, procjen
  2. Planiranje: plan, namjer, strategi
  3. Temporalni markeri: buduć, sljedeć, nadolazec
  4. Futur glagoli: će, hoće, planira, namjerav
  5. Perspektiva: perspektiv, izgled, trend, smjer, scenari

Komplementarnost s UCI:

Visok UCI uz visok FLI sugerira neizvjesnost popraćenu aktivnim promišljanjem o budućnosti. Visok UCI uz nizak FLI može indicirati paralizu odlučivanja uslijed neizvjesnosti.

5.2.6 Principal Component Index (PCI)

PCI primjenjuje analizu glavnih komponenti za ekstrakciju latentnog faktora koji objašnjava zajedničko kretanje svih sektorskih indeksa. Svi makro sektorski indeksi se prvo standardiziraju na srednju vrijednost nula i standardnu devijaciju jedan. PCA dekompozicija kovarijacijske matrice ekstrahira prvu glavnu komponentu (PC1) kao linearnu kombinaciju koja maksimizira objašnjenu varijancu. PC1 bodovi za svaki mjesec normaliziraju se na raspon 0 do 100. PCI reprezentira dominantni zajednički faktor koji pokreće kretanje svih sektorskih indeksa.

Matematička formulacija:

Za matricu standardiziranih sektorskih indeksa \(\mathbf{X}\) dimenzija \(T \times K\), PCA pronalazi ortogonalnu dekompoziciju:

\[\mathbf{X} = \mathbf{U} \mathbf{D} \mathbf{V}^T\]

Prva glavna komponenta:

\[PC1_t = \sum_{k=1}^{K} v_{1k} \cdot x_{k,t}\]

Prednosti PCI pristupa:

  1. Statistički optimalna agregacija bez arbitrarnih pondera
  2. Robusnost na multikolinearnost među sektorima
  3. Jasna interpretacija kao latentni faktor ekonomske aktivnosti
PCA: PC1 objašnjava 22 % varijance
Konstruirano 6 indeksa

5.3 Opis indeksa

Pregled konstruiranih indeksa
Indeks Naziv Opis
VAI Volume Activity Index Ukupan broj ekonomskih pojmova normaliziran po broju članaka
SCI Sectoral Composite Index Prosjek ključnih realnih sektora (industrija, građevinarstvo, trgovina, turizam)
SAI Sentiment Adjusted Index Volume indeks prilagođen za net sentiment (pozitivan/negativan ton)
UCI Uncertainty Index Mjera ekonomske neizvjesnosti u medijskom diskursu
FLI Forward Looking Index Mjera forward looking orijentacije (očekivanja, prognoze, planovi)
PCI Principal Component Index Prva glavna komponenta svih makro kategorija

6 Vizualizacija indeksa

6.1 Glavni indeksi

Glavni semantički indeksi gospodarske aktivnosti

6.2 Forward Looking Index (FLI) vs Uncertainty Index (UCI)

Forward Looking Index vs Uncertainty Index

6.3 Principal Component Index (PCI)

Principal Component Index s kliznim prosjekom

7 Sektorska analiza

7.1 Dinamika po sektorima

Dinamika sektora kroz vrijeme

7.2 Heatmapa sektorske aktivnosti

Heatmapa sektorske aktivnosti

7.3 Korelacijska struktura

Korelacijska matrica sektora i indeksa

8 Sentiment analiza

8.1 Sentiment komponente

Sentiment komponente kroz vrijeme

9 Volatilnost i momentum

9.1 Konstrukcija volatilnosti i momentuma

Volatilnost se računa kao rolling standardna devijacija s prozorom od tri mjeseca uzimajući vrijednosti tekućeg i dva prethodna mjeseca. Momentum se definira kao razlika između tekuće vrijednosti i vrijednosti s vremenskim pomakom, gdje mjesečni momentum koristi lag 1 a tromjesečni momentum lag 3. Kombinacija volatilnosti i momentuma omogućuje karakterizaciju četiri režima: stabilno mirovanje (nizak momentum i niska volatilnost), stabilan trend (visok momentum i niska volatilnost), turbulentna stagnacija (nizak momentum i visoka volatilnost), te turbulentna tranzicija (visok momentum i visoka volatilnost).

Volatilnost (Rolling Standard Deviation):

\[\sigma_t = \sqrt{\frac{1}{w-1} \sum_{j=0}^{w-1} (X_{t-j} - \bar{X}_{t,w})^2}\]

gdje \(\bar{X}_{t,w} = \frac{1}{w} \sum_{j=0}^{w-1} X_{t-j}\)

Momentum (Rate of Change):

Mjesečni: \(Mom_{t,1} = X_t - X_{t-1}\)

Tromjesečni: \(Mom_{t,3} = X_t - X_{t-3}\)

Volatilnost i momentum indeksa

10 Koncentracija tema

10.1 Konstrukcija mjera koncentracije

Herfindahl Hirschman indeks (HHI) računa se kao suma kvadrata udjela svake makro kategorije u ukupnom broju detektiranih pojmova. Udjeli se dobivaju dijeljenjem broja pojmova pojedine kategorije s ukupnim brojem pojmova svih kategorija u danom mjesecu. HHI vrijednosti bliže jedinici indiciraju visoku koncentraciju na manji broj tema dok vrijednosti bliže nuli sugeriraju disperziranu distribuciju. Za 12 makro kategorija minimalni HHI iznosi približno 0.083 što odgovara savršeno jednakoj distribuciji.

Herfindahl Hirschman Index (HHI):

\[HHI_t = \sum_{k=1}^{K} s_{k,t}^2\]

gdje \(s_{k,t} = \frac{n_{k,t}}{\sum_{j=1}^{K} n_{j,t}}\)

Interpretacija:

HHI > 0.25: Visoka koncentracija, dominacija malog broja tema

HHI 0.15 — 0.25: Umjerena koncentracija

HHI < 0.15: Niska koncentracija, diverzificirano pokrivanje

Koncentracija tema

11 Korelacije između indeksa

Korelacijska matrica indeksa
VAI SCI SAI UCI FLI PCI
VAI 1.000 0.242 0.560 0.036 -0.106 0.213
SCI 0.242 1.000 0.232 -0.091 -0.207 0.415
SAI 0.560 0.232 1.000 -0.361 -0.066 -0.133
UCI 0.036 -0.091 -0.361 1.000 -0.112 0.207
FLI -0.106 -0.207 -0.066 -0.112 1.000 -0.274
PCI 0.213 0.415 -0.133 0.207 -0.274 1.000

12 Export

13 Sažetak

Sažetak analize
Metrika Vrijednost
Broj analiziranih članaka 12,427
Vremenski raspon 01/2021 — 01/2024
Broj semantičkih kategorija 41
Broj makro sektora 12
Broj konstruiranih indeksa 6
Prosječni VAI 32.9
Prosječni sentiment ratio 0.285
Prosječni UCI 30.4

Izvještaj generiran: 2026-01-02 13:50:49.56316

GIMES Research | Semantički indeks gospodarske aktivnosti v2.0