Učitano 12,427 članaka
Vremenski raspon: 02.01.2021 do 08.01.2024
Mjerenje ekonomske aktivnosti kroz analizu medijskog diskursa
Ovaj dokument konstruira semantičke indekse gospodarske aktivnosti temeljene na analizi medijskog diskursa. Primjenom leksičke analize na korpus novinskih članaka kvantificiraju se različiti aspekti ekonomske aktivnosti percipirani kroz medijski prostor.
Medijski diskurs predstavlja važan izvor informacija o percepciji gospodarskih kretanja u realnom vremenu. Tradicionalni ekonomski pokazatelji poput BDP rasta ili industrijske proizvodnje objavljuju se s vremenskim odmakom, dok medijsko izvještavanje pruža uvid u trenutnu percepciju ekonomske situacije. Ovim izvještajem se nastoji odgovoriti na ključna pitanja:
U izvještaju se obrađuju sljedeće teme: metodologija identifikacije članaka, eksploratorni pregled podataka, semantička taksonomija pojmova, konstrukcija i vizualizacija indeksa, sektorska analiza, sentiment analiza, volatilnost i momentum te koncentracija tema.
Učitano 12,427 članaka
Vremenski raspon: 02.01.2021 do 08.01.2024
Identifikacija relevantnih članaka se provodi kroz sedmostupanjski proces filtriranja koji osigurava visoku preciznost i relevantnost rezultata.
Filter 1: Tip izvora Odabir članaka iz news portala, isključujući društvene mreže, forume i blogove.
Filter 2: Relevantni news portali Ograničenje na verificirane hrvatske medijske izvore s redovitim ekonomskim izvještavanjem.
Filter 3: Minimalna duljina teksta Članci s manje od 200 znakova se isključuju kao potencijalno irelevantni ili nekompletni.
Filter 4: Naslov članka Provjera prisutnosti ekonomski relevantnih pojmova u naslovu članka.
Filter 5: Core pojmovi Detekcija ključnih ekonomskih termina u tijelu teksta korištenjem regex uzoraka.
Filter 6: Isključivanje irelevantnog sadržaja Eliminacija članaka koji sadrže isključivo sportske, zabavne ili lifestyle teme bez ekonomske komponente.
Filter 7: Hrvatski kontekst Zadržavanje članaka s jasnom referencom na hrvatsko gospodarstvo ili relevantne domaće aktere.
| Metrika | Vrijednost |
|---|---|
| Ukupan broj članaka | 12,427 |
| Vremenski raspon | 02.01.2021 do 08.01.2024 |
| Broj dana | 1101 |
| Prosječno članaka dnevno | 11.29 |
| Broj izvora | 116 |
| Medijan duljine članka | 3,265 |
| Makro_kategorija | Meso_kategorija | Broj_pojmova |
|---|---|---|
| bdp_agregat | bdp_direktno | 4 |
| bdp_dinamika | 10 | |
| recesija_ekspanzija | 8 | |
| kvartalni | 7 | |
| industrija | proizvodnja_opce | 5 |
| preradivacka | 3 | |
| energetika | 6 | |
| kapaciteti | 3 | |
| gradevinarstvo | sektor | 4 |
| projekti | 5 | |
| nekretnine | 4 | |
| dozvole | 3 | |
| turizam | promet | 3 |
| dolasci_nocenja | 4 | |
| smjestaj | 4 | |
| trgovina | vanjska | 3 |
| izvoz | 5 | |
| uvoz | 4 | |
| maloprodaja | 4 | |
| investicije | opce | 4 |
| strane | 5 | |
| javne | 4 | |
| trziste_rada | zaposlenost | 5 |
| nezaposlenost | 5 | |
| place | 5 | |
| sentiment_poslovni | povjerenje | 4 |
| optimizam_pesimizam | 4 | |
| ankete | 3 | |
| potrosnja | osobna | 3 |
| potrosaci | 5 | |
| stednja | 3 | |
| financije | bankarstvo | 7 |
| trziste_kapitala | 5 | |
| likvidnost | 3 | |
| institucije | statistika | 4 |
| centralna_banka | 4 | |
| komore | 4 | |
| vlada | 3 | |
| sektori | it_tehnologija | 5 |
| poljoprivreda | 5 | |
| promet_logistika | 5 |
Definirano 28 pozitivnih i 29 negativnih sentiment korijena
Definirano 33 neizvjesnost korijena
Definirano 24 forward looking korijena
Izračunato 41 semantičkih varijabli
Agregirano 37 mjeseci podataka
Sektorski indeksi kvantificiraju intenzitet medijskog pokrivanja pojedinih segmenata gospodarstva. Za svaki članak se provodi automatsko pretraživanje teksta korištenjem regex uzoraka iz semantičke taksonomije. Mjesečni sektorski indeks za sektor s u mjesecu t računa se kao suma detektiranih pojmova svih članaka u tom mjesecu, omogućujući praćenje apsolutne razine medijske pažnje kroz vrijeme. Indeks industrije agregira pojmove proizvodne aktivnosti i energetike. Indeks građevinarstva prati infrastrukturne projekte i tržište nekretnina. Turistički indeks mjeri izvještavanje o dolascima i smještajnim kapacitetima. Trgovinski indeks obuhvaća vanjskotrgovinsku razmjenu i maloprodajni promet.
Proces ekstrakcije značajki:
Pretprocesiranje teksta: Konverzija u mala slova primjenjuje se na cjelokupni tekst članka.
Pattern matching: Za svaki uzorak iz sektorskog leksikona izvršava se regex pretraga korištenjem funkcije stri_count_regex().
Agregatni sektorski score: Svi meso kategorijski bodovi unutar jedne makro kategorije sumiraju se u jedinstveni makro sektorski indeks.
Vremenska agregacija: Dnevni podaci agregiraju se na mjesečnu razinu korištenjem funkcije floor_date().
Normalizacija:
Sirovi mjesečni sektorski bodovi mogu se normalizirati po broju članaka kako bi se dobila prosječna sektorska gustoća, ili se mogu zadržati u apsolutnom obliku za praćenje ukupne medijske pažnje.
VAI predstavlja temeljnu mjeru ukupne zastupljenosti ekonomskog sadržaja u medijskom prostoru. Za svaki članak se zbrajaju sva pojavljivanja ekonomskih pojmova iz semantičke taksonomije korištenjem korijenskih oblika za detekciju morfoloških varijanti. Agregatni broj se normalizira brojem članaka u promatranom mjesecu čime se dobiva prosječna gustoća ekonomskih pojmova. Min max normalizacija skalira rezultate na raspon 0 do 100 gdje minimalna vrijednost postaje 0 a maksimalna 100. Viša vrijednost VAI indicira intenzivnije medijsko pokrivanje ekonomskih tema.
Formalna definicija:
\[VAI_t = \frac{x_t - x_{min}}{x_{max} - x_{min}} \times 100\]
gdje je \(x_t = \frac{\sum_{i \in M_t} semantic\_total_i}{N_t}\)
Interpretacija:
VAI od 100 označava mjesec s najvišom zabilježenom gustoćom ekonomskih pojmova unutar analiziranog razdoblja. VAI od 0 označava mjesec s najnižom gustoćom. Srednja vrijednost oko 50 sugerira prosječnu razinu medijske pažnje relativno na promatrano razdoblje.
SCI sintetizira dinamiku četiri ključna realna sektora gospodarstva u jedinstvenu kompozitnu mjeru. Za svaki mjesec se izračunava jednostavni aritmetički prosjek normaliziranih vrijednosti indeksa industrije, građevinarstva, trgovine i turizma. Jednaka ponderiranost svih komponenti izbjegava dominaciju pojedinačnog sektora. Rezultirajuća vrijednost se skalira na raspon 0 do 100 primjenom min max normalizacije. SCI pruža sažetu sliku ukupne aktivnosti realnog sektora prema percepciji medija.
Komponente:
Formula:
\[SCI_t = normalize_{01}\left(\frac{1}{4}\sum_{s \in S} macro_{s,t}\right) \times 100\]
SAI nadograđuje osnovnu volume mjeru integracijom tonaliteta medijskog izvještavanja. Polazna točka je gustoća ekonomskih pojmova identična VAI indeksu. Ta vrijednost se modulira faktorom koji ovisi o omjeru pozitivnih i negativnih sentiment riječi identificiranih korijenskim pretraživanjem. Sentiment ratio izračunava se kao razlika broja pozitivnih i negativnih pojmova podijeljena njihovim zbrojem što daje vrijednost u rasponu minus jedan do plus jedan. Volume metrika se množi s faktorom (1 + sentiment_ratio) čime se povećava za pozitivan odnosno smanjuje za negativan sentiment.
Stupanj 1 — Ekstrakcija sentimenta:
\[SR_i = \frac{P_i - N_i}{P_i + N_i}\]
gdje \(P_i\) i \(N_i\) označavaju broj pozitivnih odnosno negativnih pojmova u članku \(i\).
Stupanj 2 — Integracija s volume metrikom:
\[SAI_t = normalize_{01}\left(\frac{semantic\_total_t}{N_t} \times (1 + \overline{SR_t})\right) \times 100\]
Interpretacija:
SAI iznad 50 sugerira da kombinacija volumena i sentimenta prelazi prosjek promatranog razdoblja.
UCI kvantificira razinu ekonomske neizvjesnosti percipirane kroz medijski diskurs. Konstrukcija se temelji na prebrojavanju pojavljivanja korijena riječi koje signaliziraju neizvjesnost kao što su neizvjesn, nesigurn, rizik, volatil, nepredvid, možda, vjerojatno i slično. Suma tih pojavljivanja normalizira se brojem članaka kako bi se dobila prosječna mjesečna frekvencija pojmova neizvjesnosti. Rezultat se skalira na raspon 0 do 100 standardnom normalizacijom. Povišene vrijednosti UCI indeksa indiciraju razdoblja percipirane povećane neizvjesnosti u ekonomskom okruženju.
Leksikon neizvjesnosti obuhvaća 33 korijena riječi:
Formula:
\[UCI_t = normalize_{01}\left(\frac{\sum_{i \in M_t} uncertainty_i}{N_t}\right) \times 100\]
FLI mjeri stupanj orijentiranosti medijskog sadržaja prema budućim ekonomskim kretanjima. Indeks se konstruira prebrojavanjem korijena riječi koje impliciraju očekivanja, prognoze i planove uključujući očekuje se, predviđa se, prognoz, projekci, plan, strategi, buduć, perspektiv, trend i slične. Mjesečna suma pojavljivanja normalizira se brojem članaka i skalira na 0 do 100. Viši FLI sugerira da medijski diskurs stavlja naglasak na anticipaciju budućih događaja i trendova.
Leksikon sadrži 24 korijena riječi:
Komplementarnost s UCI:
Visok UCI uz visok FLI sugerira neizvjesnost popraćenu aktivnim promišljanjem o budućnosti. Visok UCI uz nizak FLI može indicirati paralizu odlučivanja uslijed neizvjesnosti.
PCI primjenjuje analizu glavnih komponenti za ekstrakciju latentnog faktora koji objašnjava zajedničko kretanje svih sektorskih indeksa. Svi makro sektorski indeksi se prvo standardiziraju na srednju vrijednost nula i standardnu devijaciju jedan. PCA dekompozicija kovarijacijske matrice ekstrahira prvu glavnu komponentu (PC1) kao linearnu kombinaciju koja maksimizira objašnjenu varijancu. PC1 bodovi za svaki mjesec normaliziraju se na raspon 0 do 100. PCI reprezentira dominantni zajednički faktor koji pokreće kretanje svih sektorskih indeksa.
Matematička formulacija:
Za matricu standardiziranih sektorskih indeksa \(\mathbf{X}\) dimenzija \(T \times K\), PCA pronalazi ortogonalnu dekompoziciju:
\[\mathbf{X} = \mathbf{U} \mathbf{D} \mathbf{V}^T\]
Prva glavna komponenta:
\[PC1_t = \sum_{k=1}^{K} v_{1k} \cdot x_{k,t}\]
Prednosti PCI pristupa:
PCA: PC1 objašnjava 22 % varijance
Konstruirano 6 indeksa
| Indeks | Naziv | Opis |
|---|---|---|
| VAI | Volume Activity Index | Ukupan broj ekonomskih pojmova normaliziran po broju članaka |
| SCI | Sectoral Composite Index | Prosjek ključnih realnih sektora (industrija, građevinarstvo, trgovina, turizam) |
| SAI | Sentiment Adjusted Index | Volume indeks prilagođen za net sentiment (pozitivan/negativan ton) |
| UCI | Uncertainty Index | Mjera ekonomske neizvjesnosti u medijskom diskursu |
| FLI | Forward Looking Index | Mjera forward looking orijentacije (očekivanja, prognoze, planovi) |
| PCI | Principal Component Index | Prva glavna komponenta svih makro kategorija |
Volatilnost se računa kao rolling standardna devijacija s prozorom od tri mjeseca uzimajući vrijednosti tekućeg i dva prethodna mjeseca. Momentum se definira kao razlika između tekuće vrijednosti i vrijednosti s vremenskim pomakom, gdje mjesečni momentum koristi lag 1 a tromjesečni momentum lag 3. Kombinacija volatilnosti i momentuma omogućuje karakterizaciju četiri režima: stabilno mirovanje (nizak momentum i niska volatilnost), stabilan trend (visok momentum i niska volatilnost), turbulentna stagnacija (nizak momentum i visoka volatilnost), te turbulentna tranzicija (visok momentum i visoka volatilnost).
Volatilnost (Rolling Standard Deviation):
\[\sigma_t = \sqrt{\frac{1}{w-1} \sum_{j=0}^{w-1} (X_{t-j} - \bar{X}_{t,w})^2}\]
gdje \(\bar{X}_{t,w} = \frac{1}{w} \sum_{j=0}^{w-1} X_{t-j}\)
Momentum (Rate of Change):
Mjesečni: \(Mom_{t,1} = X_t - X_{t-1}\)
Tromjesečni: \(Mom_{t,3} = X_t - X_{t-3}\)
Herfindahl Hirschman indeks (HHI) računa se kao suma kvadrata udjela svake makro kategorije u ukupnom broju detektiranih pojmova. Udjeli se dobivaju dijeljenjem broja pojmova pojedine kategorije s ukupnim brojem pojmova svih kategorija u danom mjesecu. HHI vrijednosti bliže jedinici indiciraju visoku koncentraciju na manji broj tema dok vrijednosti bliže nuli sugeriraju disperziranu distribuciju. Za 12 makro kategorija minimalni HHI iznosi približno 0.083 što odgovara savršeno jednakoj distribuciji.
Herfindahl Hirschman Index (HHI):
\[HHI_t = \sum_{k=1}^{K} s_{k,t}^2\]
gdje \(s_{k,t} = \frac{n_{k,t}}{\sum_{j=1}^{K} n_{j,t}}\)
Interpretacija:
HHI > 0.25: Visoka koncentracija, dominacija malog broja tema
HHI 0.15 — 0.25: Umjerena koncentracija
HHI < 0.15: Niska koncentracija, diverzificirano pokrivanje
| VAI | SCI | SAI | UCI | FLI | PCI | |
|---|---|---|---|---|---|---|
| VAI | 1.000 | 0.242 | 0.560 | 0.036 | -0.106 | 0.213 |
| SCI | 0.242 | 1.000 | 0.232 | -0.091 | -0.207 | 0.415 |
| SAI | 0.560 | 0.232 | 1.000 | -0.361 | -0.066 | -0.133 |
| UCI | 0.036 | -0.091 | -0.361 | 1.000 | -0.112 | 0.207 |
| FLI | -0.106 | -0.207 | -0.066 | -0.112 | 1.000 | -0.274 |
| PCI | 0.213 | 0.415 | -0.133 | 0.207 | -0.274 | 1.000 |
| Metrika | Vrijednost |
|---|---|
| Broj analiziranih članaka | 12,427 |
| Vremenski raspon | 01/2021 — 01/2024 |
| Broj semantičkih kategorija | 41 |
| Broj makro sektora | 12 |
| Broj konstruiranih indeksa | 6 |
| Prosječni VAI | 32.9 |
| Prosječni sentiment ratio | 0.285 |
| Prosječni UCI | 30.4 |
Izvještaj generiran: 2026-01-02 13:50:49.56316
GIMES Research | Semantički indeks gospodarske aktivnosti v2.0