www.mediaspajz.info

www.mediaspajz.info

Szlovákiában számos magyarul megjelenő az interneten is elérhető vagy letölthető napilap, hetilap, folyóirat, helyi és regionális lap található. A médiák egyre nagyobb hangsúlyt helyeznek az interneten való megjelenésre, ezen belül pedig az online hírek szolgáltatására ún. RSS hírcsatornákon keresztül. A projektum célja első lépésben a meglévő hírcsatornák rendszeres figyelése, az egyes hírek begyűjtése és indexálása, valamint egy egységes keresőmotor kialakítása, amely egyszerre tud keresni az aktuális hírekben és az egyes online újságok archívumaiban is. A későbbiekben az adatbázist szeretnénk kibővíteni az intézetben található archív folyóiratok digitalizált tartalmával is.

CímkézveWEB-oldal
Kezdés éve2010-01
Befejezés éve2014-12
RészlegDigitalizáló és Internetes Adatbázisok Központja
ProgramvezetőFrivolt György
RésztvevőkKonkoly László, Laczkó Sándor, Csambal Tamás
Idei terv
A meglévő hírcsatornák folyamatos figyelése és a cikkek indexálása ujszo.com, parameter.sk, bumm.sk, felvidek.ma.A 2014-es évben szeretnénk adatbázisunkat kibővíteni a hirek.sk országos hírportál, a két magyar politikai párt és néhány kisebb regionális lap tartalmával, valamint kialakítani egy olyan WordPress modult, amely segítségével automatikusan tudjuk bővíteni a Médiaspájz tartalmát a Fórum Intézet kezelése alatt álló honlapokon megjelenő cikkekkel (foruminst.sk, kerekasztal.org, jogsegely.sk, madari.sk).

Fő feladatok:

  • A sajto.foruminst.sk-ról áthelyezni az oldalt a mediaspajz.info oldalra.
  • Honlap dizájnjának frissítése, uniformizálása az „Adatbank dizájnra”.
  • Kódolási hibák javítása
  • Elastic search alapú keresés
  • Cikkek újratöltése az Új Szó bug miatt
  • Új oldalak betöltése: Hírek.sk, Vasárnap
Eddigi eredmények
A kereső a http://sajto.foruminst.sk címen érhető el.

Kronológia:

2011-2012

  • Tesztelési fázis. A 2011-es évben sikerült kialakítani a begyűjtést végző robot programot (web scraper). Első lépésben kialakítottuk az RSS csatornákat tartalmazó adatbázist, amely bármikor bővíthető. Jelenleg kb. 20 olyan kisebb-nagyobb portált tartunk számon amely naponta vagy hetente frissülő tartalmat hordoz. A hírek begyűjtése automatikusan működik. A 2011-2012 -es években sikerült beindexálni az Új Szó, Paraméter, Bumm és Felvidék.ma internetes portálok teljes tartalmát. Ez közel 300.000 cikket jelent.
  • Látogatottság:  Látogatók:1.273, Egyedi látogatók: 922, Oldalnyitás: 3.483, Napi átlag: 5
    (2012-es év márciustól – decemberig)

2013

  • A 2013-as év végére több szoftvermódosítás és grafikai változtatás után elindult a kereső új verziója. A Médiaspájz adatbázisa jelenleg 450.000 cikket tartalmaz és napi 100-150 cikkel gyarapodik.
    Technikai leírás:
    A cikkek begyűjtését és feldolgozását egy robotprogram végzi az RSS csatornák folyamatos figyelésével. A feldolgozás lényege, hogy a beolvasott oldalból kiszűrjük a tartalmi részeket és az oldal kódolásának módosítása után tároljuk a cikkekre vonatkozó meta adatokat. (web-scraping).
    A cikk egyes meta adatainak (cím, leírás, szöveg, szerző és dátum) indexálására használt eszköz az elasticsearch, azaz szabadszöveges keresés.
    A szoftver kizárólag webes alapú, a kereső fejlesztésére Ruby on Rails keretrendszert alkalmaztunk az oldal grafikai megjelenítéséhez pedig Zurb Foundation CSS keretrendszert. Az oldal teljes mértékben reszponzív (rugalmasan alkalmazkodik a különböző képernyő méretekhez).
  • Látogatottság:  Látogatók: 2.193, Egyedi látogatók: 1.918, Oldalnyitás: 4.064, Napi átlag: 6

 

Támogatók

SZK Kulturális Minisztériuma (Pozsony)