„Webarchiválás” változatai közötti eltérés
[nem ellenőrzött változat] | [nem ellenőrzött változat] |
Tartalom törölve Tartalom hozzáadva
Nincs szerkesztési összefoglaló |
Nincs szerkesztési összefoglaló |
||
1. sor:
'''A webarchiválás''' a [[világháló]] (World Wide Web) egyes részeinek begyűjtésére és megőrzésére irányuló tevékenység. Fő célja, hogy a világhálón tárolt információk a kutatók, történészek és a széles társadalmi nyilvánosság részére, szervezett gyűjteményi keretek között, a jövőben is elérhetők legyenek.
== A webarchiválás szervezeti keretei ==
A legnagyobb és legrégebbi internet archiválással foglalkozó non-profit szervezet, az [[Internet Archive]], amely a teljes világháló egyes szegmenseiről készít mentéseket.
A 2001-ben alakult International Web Archiving Workshop (IWAW) elsőként biztosított egységes platformot a tapasztalatok megosztásához és a közös szakmai gondolkodáshoz. Az International Internet Preservation Consortium (IIPC)<ref>{{Cite journal|date=2019-01-24|title=International Internet Preservation Consortium|language=en|journal=Wikipedia|url=https://en.wikipedia.org/w/index.php?title=International_Internet_Preservation_Consortium&oldid=879928679}}</ref> későbbi, 2003-ban történt megalapítása jelentősen megkönnyítette a nemzetközi együttműködést a szabványok és a nyílt forráskódú eszközök fejlesztésének terén. Az IIPC segítséget nyújt az egyes nemzeti webarchívumok létrehozásához, folyamatos fejlődéséhez, és közös ernyőszervezetben tömöríti 45 országból<ref>{{Cite web |title=IIPC members |url=http://netpreserve.org/about-us/members/ |work=IIPC |accessdate=2019-03-19 |language=en-GB}}</ref> a webarchiválásban érintett közgyűjteményeket, non-profit intézményi szereplőket és magánvállalatokat.<ref>{{Cite web |title=International Internet Preservation Consortium |url=http://netpreserve.org/ |work=IIPC |accessdate=2019-03-13 |language=en-GB}}</ref>
Magyarországi partnerként az [[Országos Széchényi Könyvtár]] (OSZK) 2018-ban csatlakozott a szervezethez.<ref>{{Cite web |title=Országos Széchényi Könyvtár - IIPC tagsági információk angol nyelven |url=http://netpreserve.org/about-us/members/orszagos-szechenyi-konyvtar/ |work=IIPC |accessdate=2019-03-13 |language=en-GB}}</ref> Mivel a kulturális alkotások egyre nagyobb hányada már eleve a számítógépes világhálón jön létre, illetve ott is rögzítésre kerül, ezért egyre nagyobb az igény e kultúrkincs archiválásra a közgyűjtemények részéről. Az IIPC közös kereteket ad ahhoz, hogy egyre több könyvtár, levéltár és múzeum feleljen meg e szakmai kihívásnak.
== A webarchiválás múltja ==
A világháló hőskorát még a statikus honlapok és az azokon keresztül közzétett információ korlátozott, könnyen áttekinthető és nyilvántartható rendszere jelentette.
Magyarországon a webarchiválás gondolata már a 2000-es évek elején felmerült különféle
== A web gyűjtése ==
A webarchívumok munkatársai általában különböző típusú tartalmakat archiválnak, beleértve a [[HTML]] weboldalakat, a stíluslapokat, a [[JavaScript|JavaScript-et]], a képeket és a videoanyagokat.
== A tartalom gyűjtésének módszerei ==
=== Távoli aratás ===
A leggyakoribb webarchiválási módszer a [[Keresőrobot|keresőrobotokhoz]] hasonlóan automatizálja a [[Weblap|weboldalak]] gyűjtésének folyamatát.
* [[Wget]]
28. sor:
=== A távoli aratással begyűjtött anyag tárolási formája és megjelenítési módja ===
A HTTrack ugyanabban a könyvtárszerkezetben gyűjti be a webes anyagot, ahogyan az az eredeti webhelyen megjelent. A hosszú távú megőrzéshez azonban a webarchívumok ennél célravezetőbb tárolási módot használnak. A WARC a robotok által begyűjtött digitális objektumok és metaadataik tárolására szolgáló, 2009-ben szabványosított (ISO 28500<ref>{{Cite web |title=ISO 28500:2017 - Information and documentation - WARC file format |url=https://www.iso.org/standard/68004.html |accessdate=2019-03-18 |language=en-US}}</ref>) nyílt formátum. A WARC fájl egy olyan, jellemzően nagy méretű csomag, amely egy vagy több WARC rekordot tartalmaz (ezeknek 8 fajtája létezik), melyek mindegyike egy ''header''-ből és egy ''content block''-ból áll. Utóbbiban bármilyen fájltípus tárolható. A Heritrix által vezérelt robotok ilyen gyűjtőfájlokba mentik a learatott tartalmat.<ref>{{Cite web |title=WARC – MIA WIKI szócikk |url=http://mekosztaly.oszk.hu/mediawiki/index.php/WARC |work=mekosztaly.oszk.hu |accessdate=2019-03-13}}</ref>
=== Adatbázis archiválás ===
Ez a kategória az adatbázis-alapú webhelyek tartalmának archiválására szolgáló módszereket foglalja magában, ami általában az [[adatbázis]] tartalmának szabványos sémába történő exportálását igényli, gyakran [[XML]] használatával.
=== Tevékenység-alapú archiválás ===
Ez egy olyan eseményalapú archiválási módszer, amely összegyűjti a [[webszerver]] és a [[webböngésző]] közötti tranzakciókat.
=== Ingyenes webarchiválási szolgáltatások ===
Különféle ingyenes szolgáltatások is léteznek,
A WebCite<ref>{{Cite web |title=WebCite |url=http://www.webcitation.org/ |work=www.webcitation.org |accessdate=2019-03-13 |language=en}}</ref> egy elsősorban szerzőknek és szerkesztőknek szánt ingyenes, igény szerint archiváló szolgáltatás, amely lementi és stabil URI-val látja el a felhasználó által javasolt publikációkat és egyéb online forrásokat, így biztosítva, hogy az ezekre való hivatkozások hosszú távon is működőképesek maradnak.<ref>{{Cite web |title=WebCite – MIA WIKI szócikk |url=http://mekosztaly.oszk.hu/mediawiki/index.php/WebCite |work=mekosztaly.oszk.hu |accessdate=2019-03-13}}</ref>
A Webrecorder<ref>{{Cite web |title=Webrecorder |url=https://webrecorder.io/ |work=Webrecorder |accessdate=2019-03-13 |language=en-US}}</ref> a Rhizome non-profit szervezet által 2016 óta fejlesztett, [[Python (programozási nyelv)|Python]] nyelven írt nyílt forráskódú program a weben való böngészések archiválására és utólagos visszanézésére. (Csak a felhasználó által meglátogatott oldalak nézhetők újra). Elsősorban a közösségi média megőrzésére optimális, olyan regisztrációhoz kötött, interaktív, dinamikus, média-gazdag oldalakhoz, amelyekkel a hagyományos robotok és egyéb letöltők nem boldogulnak. Az archív tartalom WARC formában tárolható, és fel-
Az Archive.is<ref>{{Cite web |title=Az archive.is webarchiváló szolgáltatás angol nyelvű honlapja |url=http://archive.is/ |work=archive.is |accessdate=2019-03-13}}</ref> egy ingyenes weboldal archiváló szolgáltatás, ami egy bookmarklet segítségével böngészőbe is beépíthető. A felhasználó kezdeményezésére lementett weblapok stabil URL-eken hivatkozhatók és kereső is van hozzájuk. A lementett oldalakról 1024x768 pixeles képernyőfotó is készül. A maximális mérethatár 50 MB (oldalanként, képekkel együtt), megőrzési határidőkorlát nincs. A szöveges tartalomról három másolatot tárol, de a képanyag is duplikálva van különböző európai adatközpontokban.<ref>{{Cite web |title=archive.is – MIA WIKI szócikk |url=http://mekosztaly.oszk.hu/mediawiki/index.php/Archive.is |work=mekosztaly.oszk.hu |accessdate=2019-03-13}}</ref>
== Kihívások, korlátok, nehézségek ==
54. sor:
* A robotokat fogságba ejtő csapdák (pl. öröknaptárak) esetében az adott helyre tévedő robot végtelen számú oldalt tölthet le, s így nem tud továbbhaladni. A robotok ezért általában úgy vannak beállítva, hogy korlátozzák a feltérképezett dinamikusan generált oldalak számát.
Fontos azonban megjegyezni, hogy egy natív formátumokra támaszkodó
Az egyes lekérdezési műveletekre válaszként folyton dinamikusan változó tartalmat generáló oldalak archiválása viszont nem oldható meg hagyományos webrobotok segítségével. Fejlesztés alatt állnak olyan, az emberi böngészési tevékenységet imitáló szoftverek, melyek segítségével a jelenleg nem jól aratható tartalmak (pl. közösségi média, folyamatosan változó hírportálok, a láthatatlan webet alkotó adatbázisok stb.) is feltérképezhetőbbé és menthetőbbé válhatnak. Jelenleg még csupán arra van lehetőség, hogy a Webrecorder szolgáltatás révén manuálisan, egy böngésző segítségével gyűjtsük be az általunk bejárt dinamikus oldalakat.
61. sor:
=== A webszerver beállításainak hatása a webarchiválásra ===
Egyes webszerverek úgy vannak beállítva, hogy eltérő oldalakat küldjenek vissza a kereső vagy archiváló robotoknak és a természetes személyeknek.
=== Szerzői jogi és szellemi tulajdonjogi keretek ===
A webarchívumok munkatársainak nem csupán a webarchiválás technikai kihívásait kell kezelniük, hanem a szellemi tulajdonjoggal kapcsolatos jogi szabályozással is foglalkozniuk kell. A közvéleményben általános vélekedésként él, hogy a világhálón közzétett tartalmak a közjavak körébe tartoznak. Valójában a világháló minden egyes szelete [[Szerzői jog|szerzői jogvédelem alatt áll]], így szigorú jogi érvelés szerint egyéb törvényi felhatalmazás hiányában a webarchívumoknak nincs joguk a tartalom lemásolására. Azokban az országokban azonban, ahol nemzeti szintű webarchiválási tevékenység zajlik, a [[Nemzeti könyvtár|nemzeti könyvtáraknak]]
A nemzeti és egyéb közgyűjteményi webarchívumokban az európai szerzői jogi gyakorlatot tükröző jogszabályok szerint a jogtulajdonos kifejezett engedélye kell hozzá, hogy az adott webhely lementett tartalmát nyilvánosan szolgáltatni is lehessen. Engedély hiányában csak az adott intézmény épületében kijelölt terminálokon, illetve zárt hálózaton érhetők el a jogvédett anyagok.
Az
Néhány non-profit webarchívum anyaga nyilvánosan, korlátozás nélkül hozzáférhető (pl.
== A webarchívum, mint a kutatás tárgya, a gyűjtemények használata, hasznosítási lehetőségei ==
A webarchívum, illetve az abban megőrzött tartalmak maguk is a tudományos kutatás tárgyaként jelennek meg. Számos tudományág képviselői dolgoznak együtt nagyméretű webes korpuszok elemzésén, azok szerkezeti, illetve tartalmi jellemzőit feltárva. Új területek születésének vagyunk tanúi az utóbbi években, ilyen például a webtörténelem.<ref>{{Cite web |title=Drótos László-Kokas Károly: Webarchiválás és történeti kutatások |url=https://doi.org/10.31400/dh-hun.2018.1.129 |work=Digitális Bölcsészet 1. évf. 1. sz. pp. 35-55. |accessdate=2019-03-14}}</ref>
A webarchívumokban tárolt anyag kutatási célú felhasználása felsőoktatási intézményeken belüli, illetve azok közötti interdiszciplináris együttműködéseket alapozhat meg, újfajta tantervi keretek születéséhez járulhat hozzá a digitális bölcsészethez, az informatikához, az adattudományhoz, illetve a könyvtár- és információtudományhoz kötődő tanszékek, tudományos műhelyek együttműködése révén.
== Webarchiválás Magyarországon ==▼
Az Országos Széchényi Könyvtár 2017 áprilisától az Országos Könyvtári Rendszer (OKR) projekt<ref>{{Cite web |title=Országos Széchényi Könyvtár - OKR projekt |url=http://www.oszk.hu/okr-projekt |work=www.oszk.hu |accessdate=2019-03-13}}</ref> keretében elkezdett kísérletezni a webarchiválás technológiájával, az internetes források hosszú távú megőrzésének érdekében. ▼
Ennek a kutatási és fejlesztési munkának az a célja, hogy megalapozza egy leendő magyar internet archívum feltételeit:▼
* álljon rendelkezésre egy olyan műszaki infrastruktúra, amely képes a nyilvános internetről nagy tömegű, sokféle formátumú digitális tartalmat begyűjteni feldolgozni, biztonságosan megőrizni és - a jogi státusz függvényében - szolgáltatni;▼
* legyenek a magyar közgyűjteményekben dolgozó könyvtárosok, levéltárosok és informatikusok között olyan szakemberek, akik értenek ehhez a tevékenységhez;▼
* készüljenek el olyan dokumentumok, amelyek alapján szabályozott módon folyhat ez a munka (pl. gyűjtőköri leírás és válogatási szempontok, a magyar webtér lehatárolása, metaadat struktúra, szerződésminták a tartalomgazdák számára, az archiválási tevékenység és az archívumhoz való hozzáférés jogszabályi előírásai).▼
A projekt keretében létrejött egy nyilvánosan elérhető demó webarchívum, olyan kulturális és tudományos webhelyekről készült mentésekből, melyek tulajdonosai hozzájárultak ehhez.
Az internet archiválásával kapcsolatban az elmúlt több mint 20 évben számos projekt indult a világban és rengeteg ismeret összegyűlt
== A webarchiválás oktatása ==
=== Nemzetközi keretek ===
Az IIPC keretében 2017 végén alakult meg a képzési munkacsoport.<ref>{{Cite web |title=Training Working Group |url=http://netpreserve.org/about-us/working-groups/training-working-group/ |work=IIPC |accessdate=2019-03-19 |language=en-GB}}</ref>
Az IIPC képzési munkacsoportja a kérdőív tapasztalatait felhasználva tervezi jelenleg azokat a fajta oktatási tevékenységeket, melyekkel a leghatékonyabb segítséget tudják majd nyújtani tagintézményeik, illetve a lehető legszélesebb körű szakmai célcsoportok számára. Fokozottan szeretnének építeni az egyes országokban eddig felhalmozott tapasztalatokra. Most először mérik fel azt is, hogy az egyes országokban milyen oktatási és képzési tevékenységek zajlanak, milyen keretek között, s hányan vesznek azokban részt. Remélhetőleg a közeljövőben olyan oktatási programok és szakmai anyagok kidolgozása kezdődik el, amelyekből a magyar szakmai közönség is sokat profitálhat majd.
=== A webarchiválás oktatása Magyarországon ===
Az Országos Széchényi
A tananyag az alábbi fő témakörökből áll:
- A webarchívumokban megőrzött tartalom különböző (elsősorban tudományos) célú hasznosításával és az archívum fenntarthatóságával kapcsolatos ismeretek.▼
Emellett – az Országos Széchényi Könyvtár Országos Könyvtári Rendszer program részeként megvalósuló e-learning rendszert felhasználva – egy „blended” típusú, vagyis részben távoktatással megvalósuló, részben pedig személyes jelenlétet is igénylő tananyag fejlesztése is elkezdődött, amely remélhetőleg szintén még az idén elérhető lesz az internetes tartalmak hosszú távú megőrzése iránt érdeklődők számára.<br />▼
▲== Webarchiválás Magyarországon ==
▲Az Országos Széchényi Könyvtár 2017 áprilisától az OKR projekt<ref>{{Cite web |title=Országos Széchényi Könyvtár - OKR projekt |url=http://www.oszk.hu/okr-projekt |work=www.oszk.hu |accessdate=2019-03-13}}</ref> keretében elkezdett kísérletezni a webarchiválás technológiájával, az internetes források hosszú távú megőrzésének érdekében.
▲Ennek a kutatási és fejlesztési munkának az a célja, hogy megalapozza egy leendő magyar internet archívum feltételeit:
▲* álljon rendelkezésre egy olyan műszaki infrastruktúra, amely képes a nyilvános internetről nagy tömegű, sokféle formátumú digitális tartalmat begyűjteni feldolgozni, biztonságosan megőrizni és - a jogi státusz függvényében - szolgáltatni;
▲* legyenek a magyar közgyűjteményekben dolgozó könyvtárosok, levéltárosok és informatikusok között olyan szakemberek, akik értenek ehhez a tevékenységhez;
▲* készüljenek el olyan dokumentumok, amelyek alapján szabályozott módon folyhat ez a munka (pl. gyűjtőköri leírás és válogatási szempontok, a magyar webtér lehatárolása, metaadat struktúra, szerződésminták a tartalomgazdák számára, az archiválási tevékenység és az archívumhoz való hozzáférés jogszabályi előírásai).
▲
▲Emellett – az
▲Az internet archiválásával kapcsolatban az elmúlt több mint 20 évben számos projekt indult a világban és rengeteg ismeret összegyűlt. MIA Wikiben ezeket próbáljuk meg minél tömörebben összefoglalni, a következő kategóriák alatt: Fogalmak, Formátumok, Fórumok, Hasznosítás, Irodalom, Projektek, Rendezvények, Szabványok, Szervezetek, Szoftverek és Szolgáltatások. A wiki 2017. július 26. óta működik<ref>{{Cite web |title=MIA WIKI |url=http://mekosztaly.oszk.hu/mediawiki/index.php/Kezd%C5%91lap |work=mekosztaly.oszk.hu |accessdate=2019-03-13}}</ref>. A projekt honlapján e mellett egy időszakosan frissített bibliográfia is elérhető a webarchiválás hazai és nemzetközi szakirodalmáról<ref>{{Cite web |title=A webarchiválás válogatott bibliográfiája / Selected bibliography on web archiving |url=http://mekosztaly.oszk.hu/mia/doc/webarchivalas-irodalom.html |work=mekosztaly.oszk.hu |accessdate=2019-03-13}}</ref>.
== Hivatkozások ==
|