„Webarchiválás” változatai közötti eltérés

[nem ellenőrzött változat][nem ellenőrzött változat]
Tartalom törölve Tartalom hozzáadva
Nemethm78 (vitalap | szerkesztései)
Nincs szerkesztési összefoglaló
Nemethm78 (vitalap | szerkesztései)
aNincs szerkesztési összefoglaló
1. sor:
 
'''A webarchiválás''' a [[világháló]] (World Wide Web) egyes részeinek begyűjtésére és megőrzésére irányuló tevékenység. Fő célja, hogy a világhálón tárolt információk a kutatók, történészek és a széles társadalmi nyilvánosság részére, szervezett gyűjteményi keretek között, a jövőben is elérhetők legyenek.<ref>{{Cite journal|author=Habibzadeh|first=P.|date=2013-01-01|title=Decay of References to Web sites in Articles Published in General Medical Journals: Mainstream vs Small Journals|language=amerikai angol|journal=Applied Clinical Informatics|volume=4|issue=4|pages=455–464|doi=10.4338/aci-2013-07-ra-0055|pmid=24454575}}</ref> A webarchiválással foglalkozó szakemberek rendszerint [[Keresőrobot|keresőrobotokat használnak]] az automatizált begyűjtéshez, jelenleg ez a leginkább elterjedt módszer a nagy mennyiségű és nagy terjedelmű webes információforrások begyűjtésére.
 
== A webarchiválás szervezeti keretei ==
A legnagyobb és legrégebbi internet archiválással foglalkozó non-profit szervezet, az [[Internet Archive]], amely a teljes világháló egyes szegmenseiről készít mentéseket. „Rajta kívül a [[Nemzeti könyvtár|nemzeti könyvtárak]], a [[Magyar Nemzeti Levéltár|nemzeti levéltár]]<nowiki/>ak, valamint a webarchiválásban érdekelt egyéb szervezetek által alkotott különféle szövetségek, konzorciumok játszanak vezető szerepet a webes kulturális örökség megőrzésében.
 
A 2001-ben alakult International Web Archiving Workshop (IWAW) elsőként biztosított egységes platformot a tapasztalatok megosztásához és a közös szakmai gondolkodáshoz. Az [[:en:International_Internet_Preservation_Consortium|International Internet Preservation Consortium]] (IIPC)<ref>{{Cite journal|date=2019-01-24|title=International Internet Preservation Consortium|language=en|journal=Wikipedia|url=https://en.wikipedia.org/w/index.php?title=International_Internet_Preservation_Consortium&oldid=879928679}}</ref> későbbi, 2003-ban történt megalapítása jelentősen megkönnyítette a nemzetközi együttműködést a szabványok és a nyílt forráskódú eszközök fejlesztésének terén. Az IIPC segítséget nyújt az egyes nemzeti webarchívumok létrehozásához, folyamatos fejlődéséhez, és közös ernyőszervezetben tömöríti 45 országból<ref>{{Cite web |title=IIPC members |url=http://netpreserve.org/about-us/members/ |work=IIPC |accessdate=2019-03-19 |language=en-GB}}</ref> a webarchiválásban érintett közgyűjteményeket, non-profit intézményi szereplőket és magánvállalatokat.<ref>{{Cite web |title=International Internet Preservation Consortium |url=http://netpreserve.org/ |work=IIPC |accessdate=2019-03-13 |language=en-GB}}</ref>
 
Magyarországi partnerként az [[Országos Széchényi Könyvtár]] (OSZK) 2018-ban csatlakozott a szervezethez.<ref>{{Cite web |title=Országos Széchényi Könyvtár - IIPC tagsági információk angol nyelven |url=http://netpreserve.org/about-us/members/orszagos-szechenyi-konyvtar/ |work=IIPC |accessdate=2019-03-13 |language=en-GB}}</ref> Mivel a kulturális alkotások egyre nagyobb hányada már eleve a számítógépes világhálón jön létre, illetve ott is rögzítésre kerül, ezért egyre nagyobb az igény e kultúrkincs archiválásra a közgyűjtemények részéről. Az IIPC közös kereteket ad ahhoz, hogy egyre több könyvtár, levéltár és múzeum feleljen meg e szakmai kihívásnak.
 
== A webarchiválás múltja ==
15. sor:
 
== A web gyűjtése ==
A webarchívumok munkatársai általában különböző típusú tartalmakat archiválnak, beleértve a [[HTML]] weboldalakat, a stíluslapokat, a [[JavaScript|JavaScript-et]], a képeket és a videoanyagokat. Az archiválás során az összegyűjtött források [[Metaadat|metaadatait]] is megőrzik. A különböző típusú (leíró, adminisztratív, technikai) metaadatok rögzítésére szolgáló intézményi gyakorlat kialakítását nemzetközi ajánlások segítik.<ref>{{Cite web |title=Descriptive Metadata for Web Archiving |url=https://www.oclc.org/research/publications/2018/oclcresearch-descriptive-metadata.html |work=OCLC |date=2018-09-04 |accessdate=2019-03-13 |language=enamerikai angol}}</ref> A metaadatok hasznosak a gyűjtemény hitelességének és eredetiségének megállapításához is, különösen a levéltárak által archivált "hivatalos" webdokumentumok esetében van ennek fokozott jelentősége.
 
== A tartalom gyűjtésének módszerei ==
23. sor:
 
* [[Wget]]
* Heritrix<ref>{{Cite journal|date=2019-03-19|title=Heritrix is the Internet Archive's open-source, extensible, web-scale, archival-quality web crawler project.|language=amerikai : internetarchive/heritrix3angol|url=https://github.com/internetarchive/heritrix3}}</ref><ref>{{Cite journal|date=2018-12-24|title=Heritrix|language=enamerikai angol|journal=Wikipedia|url=https://en.wikipedia.org/w/index.php?title=Heritrix&oldid=875128053}}</ref>
* [[HTTrack]]
* Webrecorder<ref>{{Cite web |title=Webrecorder |url=https://webrecorder.io/ |work=Webrecorder |accessdate=2019-03-13 |language=en-US}}</ref>
39. sor:
Különféle ingyenes szolgáltatások is léteznek, webes források archiválására, a fentebb tárgyalt aratási technikák valamelyikének alkalmazásával. A teljesség igénye nélkül néhány a lényegesebbek közül:
 
A WebCite<ref>{{Cite web |title=WebCite |url=http://www.webcitation.org/ |work=www.webcitation.org |accessdate=2019-03-13 |language=enamerikai angol}}</ref> egy elsősorban szerzőknek és szerkesztőknek szánt ingyenes, igény szerint archiváló szolgáltatás, amely lementi és stabil URI-val látja el a felhasználó által javasolt publikációkat és egyéb online forrásokat, így biztosítva, hogy az ezekre való hivatkozások hosszú távon is működőképesek maradnak.<ref>{{Cite web |title=WebCite – MIA WIKI szócikk |url=http://mekosztaly.oszk.hu/mediawiki/index.php/WebCite |work=mekosztaly.oszk.hu |accessdate=2019-03-13}}</ref> Böngészőbe beépíthető könyvjelző alkalmazás is van hozzá.
 
A Webrecorder<ref>{{Cite web |title=Webrecorder |url=https://webrecorder.io/ |work=Webrecorder |accessdate=2019-03-13 |language=en-US}}</ref> a Rhizome non-profit szervezet által 2016 óta fejlesztett, [[Python (programozási nyelv)|Python]] nyelven írt nyílt forráskódú program a weben való böngészések archiválására és utólagos visszanézésére. (Csak a felhasználó által meglátogatott oldalak nézhetők újra). Elsősorban a közösségi média megőrzésére optimális, olyan regisztrációhoz kötött, interaktív, dinamikus, média-gazdag oldalakhoz, amelyekkel a hagyományos robotok és egyéb letöltők nem boldogulnak. Az archív tartalom WARC formában tárolható, és fel- illetve letölthető az WebRecorder.io szerverre, ami 5 GB ingyen tárhelyet ad. A munkamenetek fájlkezelő-szerű felületen menedzselhetők és megoszthatók másokkal.<ref>{{Cite web |title=Webrecorder – MIA WIKI szócikk |url=http://mekosztaly.oszk.hu/mediawiki/index.php/Webrecorder |work=mekosztaly.oszk.hu |accessdate=2019-03-13}}</ref>
 
Az Archive.is<ref>{{Cite web |title=Az archive.is webarchiváló szolgáltatás angol nyelvű honlapja |url=http://archive.is/ |work=archive.is |accessdate=2019-03-13 |language=amerikai angol}}</ref> egy ingyenes weboldal archiváló szolgáltatás, ami egy bookmarklet segítségével böngészőbe is beépíthető. A felhasználó kezdeményezésére lementett weblapok stabil URL-eken hivatkozhatók és kereső is van hozzájuk. A lementett oldalakról 1024x768 pixeles képernyőfotó is készül. A maximális mérethatár 50 MB (oldalanként, képekkel együtt), megőrzési határidőkorlát nincs. A szöveges tartalomról három másolatot tárol, de a képanyag is duplikálva van különböző európai adatközpontokban.<ref>{{Cite web |title=archive.is – MIA WIKI szócikk |url=http://mekosztaly.oszk.hu/mediawiki/index.php/Archive.is |work=mekosztaly.oszk.hu |accessdate=2019-03-13 |language=amerikai angol}}</ref>
 
== Kihívások, korlátok, nehézségek ==
61. sor:
 
=== A webszerver beállításainak hatása a webarchiválásra ===
Egyes webszerverek úgy vannak beállítva, hogy eltérő oldalakat küldjenek vissza a kereső vagy archiváló robotoknak és a természetes személyeknek.<ref>{{Cite journal|author=Habibzadeh|first=Parham|date=2015-07-30|title=Are current archiving systems reliable enough?|language=amerikai angol|journal=International Urogynecology Journal|volume=26|issue=10|pages=1553|doi=10.1007/s00192-015-2805-7|issn=0937-3462|pmid=26224384}}</ref> Ez néha azért történik, hogy a keresőgépeket félrevezessék és nagyobb felhasználói forgalmat irányítsanak az adott webhelyre, vagy pedig azért, hogy elkerüljék a szolgáltatott tartalommal kapcsolatos elszámoltathatóságot. Az is előfordul, hogy úgy optimalizálják a webhely megjelenését és funkcióit, hogy csak meghatározott böngésző típusok vagy verziók számára nyújtsanak emelt minőségű, az adott böngésző képességeire specializált szolgáltatást. A robotok ilyenkor szintén nem, vagy csak részlegesen tudják learatni a webhely tartalmát, illetve számos esetben a speciális technológiák miatt nem tudják megőrizni a weboldalak eredeti külalakját.
 
=== Szerzői jogi és szellemi tulajdonjogi keretek ===
A webarchívumok munkatársainak nem csupán a webarchiválás technikai kihívásait kell kezelniük, hanem a szellemi tulajdonjoggal kapcsolatos jogi szabályozással is foglalkozniuk kell. A közvéleményben általános vélekedésként él, hogy a világhálón közzétett tartalmak a közjavak körébe tartoznak. Valójában a világháló minden egyes szelete [[Szerzői jog|szerzői jogvédelem alatt áll]], így szigorú jogi érvelés szerint egyéb törvényi felhatalmazás hiányában a webarchívumoknak nincs joguk a tartalom lemásolására. Azokban az országokban azonban, ahol nemzeti szintű webarchiválási tevékenység zajlik, a [[Nemzeti könyvtár|nemzeti könyvtáraknak]]<ref>{{Cite web |url=http://netpreserve.org/legal-deposit |title=Legal Deposit {{!}} IIPC |work=netpreserve.org |language=enbrit angol |accessdate=2017-01-31 |archiveurl=https://web.archive.org/web/20170316103200/http://netpreserve.org/legal-deposit |archivedate=2017-03-16}}</ref>, illetve a kötelespéldányokat gyűjtő egyéb intézményeknek általában joguk van arra, hogy a webes tartalmakat a [[Köteles példány|kötelespéldány]] rendelkezések kiterjesztésével gyűjtsék be. Ez történhet úgy, hogy a kötelespéldány rendeletbe vagy törvénybe építik be a webarchiválásra vonatkozó rendelkezéseket, de néhány országban külön törvény szabályozza ezt a tevékenységet. Magyarországon 2018 második felében kezdődött el webarchiválásra vonatkozó jogszabályi háttér kidolgozása.
 
A nemzeti és egyéb közgyűjteményi webarchívumokban az európai szerzői jogi gyakorlatot tükröző jogszabályok szerint a jogtulajdonos kifejezett engedélye kell hozzá, hogy az adott webhely lementett tartalmát nyilvánosan szolgáltatni is lehessen. Engedély hiányában csak az adott intézmény épületében kijelölt terminálokon, illetve zárt hálózaton érhetők el a jogvédett anyagok. Az intézmények lehetővé teszik a tartalomtulajdonosok számára, hogy elrejtsék vagy eltávolítsák az archivált tartalmat, amit nem akarnak a nyilvánosság számára hozzáférhetővé tenni. Kötelespéldányként begyűjtött tartalom esetében csupán a szolgáltatásból történő kizárás jöhet szóba, a tartalmat nem lehet töröltetni. Az IIPC weboldalán található egy összefoglaló az egyes országok webarchiválással kapcsolatos jogi szabályozásáról, hivatkozásokkal a vonatkozó nemzeti joganyagra<ref>{{Cite web |title=A webarchiválást is érintő nemzeti kötelespéldány rendelkezések áttekintése angol nyelven |url=http://netpreserve.org/web-archiving/legal-deposit/ |work=IIPC |accessdate=2019-03-13 |language=en-GB}}</ref>.
73. sor:
 
== A webarchívum, mint a kutatás tárgya, a gyűjtemények használata, hasznosítási lehetőségei ==
A webarchívum, illetve az abban megőrzött tartalmak maguk is a tudományos kutatás tárgyaként jelennek meg. Számos tudományág képviselői dolgoznak együtt nagyméretű webes korpuszok elemzésén, azok szerkezeti, illetve tartalmi jellemzőit feltárva. Új területek születésének vagyunk tanúi az utóbbi években, ilyen például a webtörténelem.<ref>{{Cite web |title=Drótos László-Kokas Károly: Webarchiválás és történeti kutatások |url=https://doi.org/10.31400/dh-hun.2018.1.129 |work=Digitális Bölcsészet 1. évf. 1. sz. pp. 35-55. |accessdate=2019-03-14}}</ref> Az archivált webes korpuszok egyes szegmensei maguk is a történeti elemzés tárgyai lehetnek, de magának a számítógépes világhálónak a története, az információtechnológiai eszköztár fejlődése is kutatások tárgya. A webarchívumban tárolt nagy mennyiségű adattömeg pedig a webtörténet határain túlmutató, sokszínű adattudományi elemzések tárgyául is szolgálhat.<ref>{{Cite journal|author=C.|last=Maemura|first=E.|coauthors=I.|date=2016-12|title=Understanding computational web archives research methods using research objects|language=amerikai angol|journal=2016 IEEE International Conference on Big Data (Big Data)|pages=3250–3259|doi=10.1109/BigData.2016.7840982|url=https://ieeexplore.ieee.org/document/7840982/}}</ref> A harmadik nagy terület az információtudományhoz, illetve az információkeresés terén megjelenő szemantikus webes eszközök térhódításához kapcsolódik. A webarchívumokban tárolt tartalom szemantikus metaadatokkal való gazdagítása, a sok szempontú visszakereshetőség és értelmezési lehetőség megteremtése, a webarchívumok beillesztése a nyílt kapcsolt adatok világának felhőrendszerébe, szintén egy igen fontos kutatási irány.<ref>{{Cite journal|author=Helge|last=Fafalios|first=Pavlos|coauthors=Vaibhav|date=2018-07-05|title=Building and querying semantic layers for web archives (extended version)|language=enamerikai angol|journal=International Journal on Digital Libraries|doi=10.1007/s00799-018-0251-0|url=https://doi.org/10.1007/s00799-018-0251-0|issn=1432-1300}}</ref> Amikor a webarchívumok társadalmi hasznáról van szó, éppen ezek a kutatási irányok segítenek feltárni a hatalmas adattömegekben rejtőző hozzáadott értéket.
 
A webarchívumokban tárolt anyag kutatási célú felhasználása felsőoktatási intézményeken belüli, illetve azok közötti interdiszciplináris együttműködéseket alapozhat meg, újfajta tantervi keretek születéséhez járulhat hozzá a digitális bölcsészethez, az informatikához, az adattudományhoz, illetve a könyvtár- és információtudományhoz kötődő tanszékek, tudományos műhelyek együttműködése révén.
93. sor:
 
=== Nemzetközi keretek ===
Az IIPC keretében 2017 végén alakult meg a képzési munkacsoport.<ref>{{Cite web |title=Training Working Group |url=http://netpreserve.org/about-us/working-groups/training-working-group/ |work=IIPC |accessdate=2019-03-19 |language=en-GB}}</ref> Első projektjük keretében összeállítottak egy kérdőívet<ref>{{Cite web |title=Free Online Survey Software by SurveyMonkey: Closed Survey |url=https://www.surveymonkey.com/survey-closed/?sm=IyvozjFx6uLG_2BkajvFWbiDKeomcn55pOL93pw5kH6e8WSiAyB7bVv4Ct1EKW26iqEHq_2FR9Kc0bSiKtKzhOEIcr0e0vX2VTYQa81zfCLexrg_3D |work=www.surveymonkey.com |accessdate=2019-03-19 |language=amerikai angol}}</ref> annak felmérésére, hogy az egyes országokban milyen típusú szervezetek, mekkora létszámban foglalkoznak webarchiválással, valamint ezeknek a szakembereknek milyen igényeik vannak az oktatás, a szakmai továbbképzés terén.<ref>{{CitLib |aut=Drótos László |aut2=Németh Márton |tit=A webarchiválás oktatása |ann=2018 |url=http://dx.doi.org/10.31915/nws.2018.4 |pag=31–37 |accd=2019-03-19}}</ref> Ebből is kiderült, hogy még nagyon az út elején tartunk, ami az oktatási, képzési tevékenységek súlyát felértékeli. A legtöbben jelenleg online forrásokra támaszkodnak, ha szakmai kompetenciáik bővítésére vágynak, s ettől jelentősen elmarad bármilyen szervezett oktatási tevékenység hozzáférhetősége, illetve relatív módon jelentős a súlya a semmiféle képzésben nem részesült munkatársaknak is. Messze a legkevesebben vesznek részt hivatalos tantervi alapú képzésekben. Az oktatási tevékenység workshopok keretében, illetve informális keretek között vagy valamely szakmai szervezet által koordinálva zajlik. A képzési igényeket felmérő kérdésre a legtöbben azt válaszolták, hogy a webarchiválással, a digitális megőrzéssel kapcsolatos szabványok és technológiák terén szeretnék tudásukat elmélyíteni, illetve az egyes szoftvereszközök használatának oktatását tartanák fontosnak. A képzési formák közül pedig a legnépszerűbbnek a webináriumok, illetve a személyes jelenlétre épülő tanfolyamok bizonyultak.
 
Az IIPC képzési munkacsoportja a kérdőív tapasztalatait felhasználva tervezi jelenleg azokat a fajta oktatási tevékenységeket, melyekkel a leghatékonyabb segítséget tudják majd nyújtani tagintézményeik, illetve a lehető legszélesebb körű szakmai célcsoportok számára. Fokozottan szeretnének építeni az egyes országokban eddig felhalmozott tapasztalatokra. Most először mérik fel azt is, hogy az egyes országokban milyen oktatási és képzési tevékenységek zajlanak, milyen keretek között, s hányan vesznek azokban részt. Remélhetőleg a közeljövőben olyan oktatási programok és szakmai anyagok kidolgozása kezdődik el, amelyekből a magyar szakmai közönség is sokat profitálhat majd.