„Webarchiválás” változatai közötti eltérés
[nem ellenőrzött változat] | [nem ellenőrzött változat] |
Tartalom törölve Tartalom hozzáadva
Nincs szerkesztési összefoglaló |
aNincs szerkesztési összefoglaló |
||
1. sor:
'''A webarchiválás''' a [[világháló]] (World Wide Web) egyes részeinek begyűjtésére és megőrzésére irányuló tevékenység. Fő célja, hogy a világhálón tárolt információk a kutatók, történészek és a széles társadalmi nyilvánosság részére, szervezett gyűjteményi keretek között, a jövőben is elérhetők legyenek.<ref>{{Cite journal|author=Habibzadeh|first=P.|date=2013-01-01|title=Decay of References to Web sites in Articles Published in General Medical Journals: Mainstream vs Small Journals|language=amerikai angol|journal=Applied Clinical Informatics|volume=4|issue=4|pages=455–464|doi=10.4338/aci-2013-07-ra-0055|pmid=24454575}}</ref> A webarchiválással foglalkozó szakemberek rendszerint [[Keresőrobot|keresőrobotokat használnak]] az automatizált begyűjtéshez, jelenleg ez a leginkább elterjedt módszer a nagy mennyiségű és nagy terjedelmű webes információforrások begyűjtésére.
== A webarchiválás szervezeti keretei ==
A legnagyobb és legrégebbi internet archiválással foglalkozó non-profit szervezet, az [[Internet Archive]], amely a teljes világháló egyes szegmenseiről készít mentéseket. „Rajta kívül a [[Nemzeti könyvtár|nemzeti könyvtárak]], a [[Magyar Nemzeti Levéltár|nemzeti levéltár]]<nowiki/>ak, valamint a webarchiválásban érdekelt egyéb szervezetek által alkotott különféle szövetségek, konzorciumok játszanak vezető szerepet a webes kulturális örökség megőrzésében.
A 2001-ben alakult International Web Archiving Workshop (IWAW) elsőként biztosított egységes platformot a tapasztalatok megosztásához és a közös szakmai gondolkodáshoz. Az [[:en:International_Internet_Preservation_Consortium|International Internet Preservation Consortium]] (IIPC)
Magyarországi partnerként az [[Országos Széchényi Könyvtár]] (OSZK) 2018-ban csatlakozott a szervezethez.<ref>{{Cite web |title=Országos Széchényi Könyvtár - IIPC tagsági információk
== A webarchiválás múltja ==
15. sor:
== A web gyűjtése ==
A webarchívumok munkatársai általában különböző típusú tartalmakat archiválnak, beleértve a [[HTML]] weboldalakat, a stíluslapokat, a [[JavaScript|JavaScript-et]], a képeket és a videoanyagokat. Az archiválás során az összegyűjtött források [[Metaadat|metaadatait]] is megőrzik. A különböző típusú (leíró, adminisztratív, technikai) metaadatok rögzítésére szolgáló intézményi gyakorlat kialakítását nemzetközi ajánlások segítik.<ref>{{Cite web |title=Descriptive Metadata for Web Archiving |url=https://www.oclc.org/research/publications/2018/oclcresearch-descriptive-metadata.html |work=OCLC |date=2018-09-04 |accessdate=2019-03-13 |language=
== A tartalom gyűjtésének módszerei ==
23. sor:
* [[Wget]]
* Heritrix<ref>{{Cite journal|date=2019-03-19|title=Heritrix is the Internet Archive's open-source, extensible, web-scale, archival-quality web crawler project.|language=amerikai
* [[HTTrack]]
* Webrecorder<ref>{{Cite web |title=Webrecorder |url=https://webrecorder.io/ |work=Webrecorder |accessdate=2019-03-13 |language=en-US}}</ref>
39. sor:
Különféle ingyenes szolgáltatások is léteznek, webes források archiválására, a fentebb tárgyalt aratási technikák valamelyikének alkalmazásával. A teljesség igénye nélkül néhány a lényegesebbek közül:
A WebCite<ref>{{Cite web |title=WebCite |url=http://www.webcitation.org/ |work=www.webcitation.org |accessdate=2019-03-13 |language=
A Webrecorder<ref>{{Cite web |title=Webrecorder |url=https://webrecorder.io/ |work=Webrecorder |accessdate=2019-03-13 |language=en-US}}</ref> a Rhizome non-profit szervezet által 2016 óta fejlesztett, [[Python (programozási nyelv)|Python]] nyelven írt nyílt forráskódú program a weben való böngészések archiválására és utólagos visszanézésére. (Csak a felhasználó által meglátogatott oldalak nézhetők újra). Elsősorban a közösségi média megőrzésére optimális, olyan regisztrációhoz kötött, interaktív, dinamikus, média-gazdag oldalakhoz, amelyekkel a hagyományos robotok és egyéb letöltők nem boldogulnak. Az archív tartalom WARC formában tárolható, és fel- illetve letölthető az WebRecorder.io szerverre, ami 5 GB ingyen tárhelyet ad. A munkamenetek fájlkezelő-szerű felületen menedzselhetők és megoszthatók másokkal.<ref>{{Cite web |title=Webrecorder – MIA WIKI szócikk |url=http://mekosztaly.oszk.hu/mediawiki/index.php/Webrecorder |work=mekosztaly.oszk.hu |accessdate=2019-03-13}}</ref>
Az Archive.is<ref>{{Cite web |title=Az archive.is webarchiváló szolgáltatás
== Kihívások, korlátok, nehézségek ==
61. sor:
=== A webszerver beállításainak hatása a webarchiválásra ===
Egyes webszerverek úgy vannak beállítva, hogy eltérő oldalakat küldjenek vissza a kereső vagy archiváló robotoknak és a természetes személyeknek.<ref>{{Cite journal|author=Habibzadeh|first=Parham|date=2015-07-30|title=Are current archiving systems reliable enough?|language=amerikai angol|journal=International Urogynecology Journal|volume=26|issue=10|pages=1553|doi=10.1007/s00192-015-2805-7|issn=0937-3462|pmid=26224384}}</ref> Ez néha azért történik, hogy a keresőgépeket félrevezessék és nagyobb felhasználói forgalmat irányítsanak az adott webhelyre, vagy pedig azért, hogy elkerüljék a szolgáltatott tartalommal kapcsolatos elszámoltathatóságot. Az is előfordul, hogy úgy optimalizálják a webhely megjelenését és funkcióit, hogy csak meghatározott böngésző típusok vagy verziók számára nyújtsanak emelt minőségű, az adott böngésző képességeire specializált szolgáltatást. A robotok ilyenkor szintén nem, vagy csak részlegesen tudják learatni a webhely tartalmát, illetve számos esetben a speciális technológiák miatt nem tudják megőrizni a weboldalak eredeti külalakját.
=== Szerzői jogi és szellemi tulajdonjogi keretek ===
A webarchívumok munkatársainak nem csupán a webarchiválás technikai kihívásait kell kezelniük, hanem a szellemi tulajdonjoggal kapcsolatos jogi szabályozással is foglalkozniuk kell. A közvéleményben általános vélekedésként él, hogy a világhálón közzétett tartalmak a közjavak körébe tartoznak. Valójában a világháló minden egyes szelete [[Szerzői jog|szerzői jogvédelem alatt áll]], így szigorú jogi érvelés szerint egyéb törvényi felhatalmazás hiányában a webarchívumoknak nincs joguk a tartalom lemásolására. Azokban az országokban azonban, ahol nemzeti szintű webarchiválási tevékenység zajlik, a [[Nemzeti könyvtár|nemzeti könyvtáraknak]]<ref>{{Cite web |url=http://netpreserve.org/legal-deposit |title=Legal Deposit {{!}} IIPC |work=netpreserve.org |language=
A nemzeti és egyéb közgyűjteményi webarchívumokban az európai szerzői jogi gyakorlatot tükröző jogszabályok szerint a jogtulajdonos kifejezett engedélye kell hozzá, hogy az adott webhely lementett tartalmát nyilvánosan szolgáltatni is lehessen. Engedély hiányában csak az adott intézmény épületében kijelölt terminálokon, illetve zárt hálózaton érhetők el a jogvédett anyagok. Az intézmények lehetővé teszik a tartalomtulajdonosok számára, hogy elrejtsék vagy eltávolítsák az archivált tartalmat, amit nem akarnak a nyilvánosság számára hozzáférhetővé tenni. Kötelespéldányként begyűjtött tartalom esetében csupán a szolgáltatásból történő kizárás jöhet szóba, a tartalmat nem lehet töröltetni. Az IIPC weboldalán található egy összefoglaló az egyes országok webarchiválással kapcsolatos jogi szabályozásáról, hivatkozásokkal a vonatkozó nemzeti joganyagra<ref>{{Cite web |title=A webarchiválást is érintő nemzeti kötelespéldány rendelkezések áttekintése angol nyelven |url=http://netpreserve.org/web-archiving/legal-deposit/ |work=IIPC |accessdate=2019-03-13 |language=en-GB}}</ref>.
73. sor:
== A webarchívum, mint a kutatás tárgya, a gyűjtemények használata, hasznosítási lehetőségei ==
A webarchívum, illetve az abban megőrzött tartalmak maguk is a tudományos kutatás tárgyaként jelennek meg. Számos tudományág képviselői dolgoznak együtt nagyméretű webes korpuszok elemzésén, azok szerkezeti, illetve tartalmi jellemzőit feltárva. Új területek születésének vagyunk tanúi az utóbbi években, ilyen például a webtörténelem.<ref>{{Cite web |title=Drótos László-Kokas Károly: Webarchiválás és történeti kutatások |url=https://doi.org/10.31400/dh-hun.2018.1.129 |work=Digitális Bölcsészet 1. évf. 1. sz. pp. 35-55. |accessdate=2019-03-14}}</ref> Az archivált webes korpuszok egyes szegmensei maguk is a történeti elemzés tárgyai lehetnek, de magának a számítógépes világhálónak a története, az információtechnológiai eszköztár fejlődése is kutatások tárgya. A webarchívumban tárolt nagy mennyiségű adattömeg pedig a webtörténet határain túlmutató, sokszínű adattudományi elemzések tárgyául is szolgálhat.<ref>{{Cite journal|author=C.|last=Maemura|first=E.|coauthors=I.|date=2016-12|title=Understanding computational web archives research methods using research objects|language=amerikai angol|journal=2016 IEEE International Conference on Big Data (Big Data)|pages=3250–3259|doi=10.1109/BigData.2016.7840982|url=https://ieeexplore.ieee.org/document/7840982/}}</ref> A harmadik nagy terület az információtudományhoz, illetve az információkeresés terén megjelenő szemantikus webes eszközök térhódításához kapcsolódik. A webarchívumokban tárolt tartalom szemantikus metaadatokkal való gazdagítása, a sok szempontú visszakereshetőség és értelmezési lehetőség megteremtése, a webarchívumok beillesztése a nyílt kapcsolt adatok világának felhőrendszerébe, szintén egy igen fontos kutatási irány.<ref>{{Cite journal|author=Helge|last=Fafalios|first=Pavlos|coauthors=Vaibhav|date=2018-07-05|title=Building and querying semantic layers for web archives (extended version)|language=
A webarchívumokban tárolt anyag kutatási célú felhasználása felsőoktatási intézményeken belüli, illetve azok közötti interdiszciplináris együttműködéseket alapozhat meg, újfajta tantervi keretek születéséhez járulhat hozzá a digitális bölcsészethez, az informatikához, az adattudományhoz, illetve a könyvtár- és információtudományhoz kötődő tanszékek, tudományos műhelyek együttműködése révén.
93. sor:
=== Nemzetközi keretek ===
Az IIPC keretében 2017 végén alakult meg a képzési munkacsoport.<ref>{{Cite web |title=Training Working Group |url=http://netpreserve.org/about-us/working-groups/training-working-group/ |work=IIPC |accessdate=2019-03-19 |language=en-GB}}</ref> Első projektjük keretében összeállítottak egy kérdőívet<ref>{{Cite web |title=Free Online Survey Software by SurveyMonkey: Closed Survey |url=https://www.surveymonkey.com/survey-closed/?sm=IyvozjFx6uLG_2BkajvFWbiDKeomcn55pOL93pw5kH6e8WSiAyB7bVv4Ct1EKW26iqEHq_2FR9Kc0bSiKtKzhOEIcr0e0vX2VTYQa81zfCLexrg_3D |work=www.surveymonkey.com |accessdate=2019-03-19 |language=amerikai angol}}</ref> annak felmérésére, hogy az egyes országokban milyen típusú szervezetek, mekkora létszámban foglalkoznak webarchiválással, valamint ezeknek a szakembereknek milyen igényeik vannak az oktatás, a szakmai továbbképzés terén.<ref>{{CitLib |aut=Drótos László |aut2=Németh Márton |tit=A webarchiválás oktatása |ann=2018 |url=http://dx.doi.org/10.31915/nws.2018.4 |pag=31–37 |accd=2019-03-19}}</ref> Ebből is kiderült, hogy még nagyon az út elején tartunk, ami az oktatási, képzési tevékenységek súlyát felértékeli. A legtöbben jelenleg online forrásokra támaszkodnak, ha szakmai kompetenciáik bővítésére vágynak, s ettől jelentősen elmarad bármilyen szervezett oktatási tevékenység hozzáférhetősége, illetve relatív módon jelentős a súlya a semmiféle képzésben nem részesült munkatársaknak is. Messze a legkevesebben vesznek részt hivatalos tantervi alapú képzésekben. Az oktatási tevékenység workshopok keretében, illetve informális keretek között vagy valamely szakmai szervezet által koordinálva zajlik. A képzési igényeket felmérő kérdésre a legtöbben azt válaszolták, hogy a webarchiválással, a digitális megőrzéssel kapcsolatos szabványok és technológiák terén szeretnék tudásukat elmélyíteni, illetve az egyes szoftvereszközök használatának oktatását tartanák fontosnak. A képzési formák közül pedig a legnépszerűbbnek a webináriumok, illetve a személyes jelenlétre épülő tanfolyamok bizonyultak.
Az IIPC képzési munkacsoportja a kérdőív tapasztalatait felhasználva tervezi jelenleg azokat a fajta oktatási tevékenységeket, melyekkel a leghatékonyabb segítséget tudják majd nyújtani tagintézményeik, illetve a lehető legszélesebb körű szakmai célcsoportok számára. Fokozottan szeretnének építeni az egyes országokban eddig felhalmozott tapasztalatokra. Most először mérik fel azt is, hogy az egyes országokban milyen oktatási és képzési tevékenységek zajlanak, milyen keretek között, s hányan vesznek azokban részt. Remélhetőleg a közeljövőben olyan oktatási programok és szakmai anyagok kidolgozása kezdődik el, amelyekből a magyar szakmai közönség is sokat profitálhat majd.
|