Láthatatlan web

A láthatatlan web a világháló azon része, amelyet elkerülnek a keresők.

Az utóbbi években elérkeztünk abba a korba, amelyben az internet világa teljesen áthatja a hétköznapjainkat. Az interneten minden megtalálható, tehát ami ott nincs, az nem is létezhet – talán ez közelíti meg legjobban némelyek hozzáállását a világhálóhoz. A nagy keresőmotorok közreműködhetnek ennek a látszatnak az alátámasztásában. Az internet jelentős része azonban még a keresőmotoroknak sem elérhető különböző okok miatt. A láthatatlan web „a World Wide Web azon oldalai, amelyek nem részei a felszíni webnek, azaz nincsenek indexelve az általános keresők által”.^[1]

Terminológiája

A láthatatlan webet más kifejezésekkel is szokták illetni, mint például a mély web vagy rejtett web. Ezek közt a kifejezések közt viszont egyesek szerint apróbb tartalmi eltérések vannak. Michael Bergman véleménye szerint a „láthatatlan web” elnevezés keresőmotor-centrikus, emiatt félrevezető, ugyanis információkat nem csak a keresőmotorok segítségével lehet keresni.^[2] A mély web ellentétpárja a felszíni web, amelyhez a keresők könnyedén hozzáférnek.

Terjedelme

A láthatatlan web méretével kapcsolatos becslések Bergman 2001-ben megjelent tanulmányának adatain alapulnak.^[3] Ezek szerint:

a láthatatlan web mintegy 550-szer nagyobb lehet, mint a felszíni, látható web;^[3]
tárterületben ez körülbelül 7500 TB információt jelent.^[4]

Bergman tanulmányában a következő főbb megállapítások szerepelnek még:^[2]

a láthatatlan web havi forgalma átlagosan 50%-kal nagyobb, mint a felszíni web esetében;
a láthatatlan web oldalai közt magasabb szintű az összekapcsolás;
a láthatatlan web növekszik a legjobban új információkkal;
tartalmilag mélyebbek (specializáltak és részletesebbek);
- ebből adódóan ezerszer-kétezerszer nagyobb a minőségi tartalma;
a láthatatlan web több mint fele témaspecifikus adatbázisokban van;
95%-a nyilvánosan hozzáférhető (nincsenek díjak, illetve előfizetések).

Egységei

Chris Sherman és Gary Price láthatóság szerint négy típust különített el:^[5]

„Átlátszatlan”, nem átlátható web (Opaque web);
Privát web (Private web);
Szabadalmazott web (Proprietary web);
Valóban láthatatlan web (Truly invisible web).

Danny Sullivan egy ötödik típust is meghatározott, az ún. „sekély” webet (shallow web).^[6]

A láthatatlanság okai

Ahhoz, hogy megoldást találjunk a láthatatlanság problémájára, ismernünk kell az okait. Annak, hogy egy oldalt miért nem indexelnek a keresők, több oka is lehet:

az oldal tartalma egy adatbázisból kerül a weblapra
- az információ eléréséhez különböző adatbázisokat (ACCESS, Oracle, SQL Server, DB2, stb.) kell lekérdezni
az oldal csak regisztráció után érhető el
nem szöveges állományok
- multimédia- és grafikus fájlok
- szoftverek
- nem standard HTML formátumú dokumentumok (pl. PDF fájlok)^[7]

teljes vagy részleges kizárásra kerülnek (szolgáltatótól függően) a különböző scripteket tartalmazó oldalak, amelyeknek URL-je tartalmazza a kérdőjelet
egy oldalra vagy egész site-ra nem mutat egyetlen link sem, így tartalma nem kerül be a kereső adatbázisába, sem pedig keresésnél az eredményhalmazba^[8]

hiányoznak az indexeléshez szükséges, megfelelő kulcsszavak
az oldalon található információk időközben elavulttá válnak^[9]
az adott oldal nincs bejelentve, vagy ha mégis, akkor a keresésükhöz speciális keresőkre van szükség^[10]
az adott oldalt eltávolították a keresőrendszer indexéből (például illegalitás miatt)^[11]

Top 25 kategória^[12]

Nyilvános cégiratok
Telefonszámok
Egyedi térképek és útbaigazítások
Klinikai perek
Szabadalmak
Utánnyomás nélküli könyvek
Könyvtári katalógusok
Mérvadó szótárak
Környezettudományi információk
Tőzsdei információk
Történeti dokumentumok és képek
Cégjegyzékek
Kereshető témabibliográfiák
Gazdasági információk
Díjak
Álláshirdetések
Ösztöndíjjal kapcsolatos információk
Fordítóeszközök
Irányítószámok
Alapvető demográfiai információk
Interaktív iskolai keresők
Kampányok pénzügyi információi
Időjárási adatok
Termékkatalógusok
Művészeti galériák

A láthatatlan webhez való hozzáférés^[13]

Annak érdekében, hogy a láthatatlan web is láthatóvá váljon, több megoldás is született, illetve alkalmazható:

fájlformátumok láthatóvá tétele^[14]
képek láthatóvá tétele^[15]
speciálisan a láthatatlan web megtalálására kifejlesztett rendszerek használata
- témakatalógusok
- ágens/platform/portál
- keresőgépek
- adatbázisokban való keresés

Témakatalógusok

Ágens/platform/portál

Copernic Agent
Deep Query Manager
Profusion

Keresőgépek

Hidden Web Exposer (HIWE)
Turbo 10
LexiBot^[8]
Lycos Invisible Web Catalog^[8]

Adatbázisokban való keresés^[8]

Jegyzetek

↑ Rabb (2006) 7. p.
↑ ^a ^b Bergman (2001)
↑ ^a ^b Lewandowski (2006) 533. p.
↑ Somogyi (2009). [2016. március 6-i dátummal az eredetiből archiválva]. (Hozzáférés: 2012. március 4.)
↑ Sherman-Price (2001) 70. p.
↑ Sullivan (2000). [2012. január 1-i dátummal az eredetiből archiválva]. (Hozzáférés: 2012. március 1.)
↑ Rutkovszky (2003)
↑ ^a ^b ^c ^d Rabb (2006) 91. p.
↑ Pajor (2006) 76. p.. [2016. augusztus 23-i dátummal az eredetiből archiválva]. (Hozzáférés: 2012. március 4.)
↑ Pajor (2006) 80. p.. [2016. augusztus 23-i dátummal az eredetiből archiválva]. (Hozzáférés: 2012. március 4.)
↑ Pajor (2006) 83. p.. [2016. augusztus 23-i dátummal az eredetiből archiválva]. (Hozzáférés: 2012. március 4.)
↑ Sherman-Price (2001) 96-103. p.
↑ Pajor (2006) pp. 95-111.. [2016. augusztus 23-i dátummal az eredetiből archiválva]. (Hozzáférés: 2012. március 4.)
↑ Pajor (2006) 95. p.. [2016. augusztus 23-i dátummal az eredetiből archiválva]. (Hozzáférés: 2012. március 4.)
↑ Pajor (2006) 96. p.. [2016. augusztus 23-i dátummal az eredetiből archiválva]. (Hozzáférés: 2012. március 4.)

Források

Bergman, Michael K.: White Paper: The Deep Web: Surfacing Hidden Value In: The Journal of Electronic Publishing, Vol. 7. (2001) Issue 1.
Lewandowski, Dirk - Mayr, Philipp: Exploring the academic invisible web In: Library Hi Tech, Vol. 24. (2006) Issue 4., pp. 529-539.
Pajor Enikő: A láthatatlan/mély web felhasználása a könyvtári tájékoztatásban, Budapest, 2006. 214. p.
Rabb Ágnes: Szöveggyűjtemény a mély web tanulmányozásához : Cikkek és tanulmányok, külföldi és magyar források alapján, Szeged, 2006., 92. p.
Rutkovszky Edéné - Rutkovszky Ádám: A láthatatlan web keresése, Debrecen, 2003.
Sherman, Chris - Price, Gary: The invisible Web: uncovering information sources search engines can't see, Information Today, Inc., 2001. 439. p. ISBN 091096551X, 9780910965514
Somogyi Tamás: A láthatatlan web tudományos részének feltárása In: Tudományos és Műszaki Tájékoztatás, 56. évf. (2009) 1. szám Archiválva 2016. március 6-i dátummal a Wayback Machine-ben
Sullivan, Danny: Invisible Web Gets Deeper, 2000.

Külső hivatkozások

További információk

melyweb.lap.hu

Informatikai portál • összefoglaló, színes tartalomajánló lap

[1] Rabb (2006) 7. p.

[Bergman_2001-2] Bergman (2001)

[Lewandowski_2006_533._p-3] Lewandowski (2006) 533. p.

[4] Somogyi (2009). [2016. március 6-i dátummal az eredetiből archiválva]. (Hozzáférés: 2012. március 4.)

[5] Sherman-Price (2001) 70. p.

[6] Sullivan (2000). [2012. január 1-i dátummal az eredetiből archiválva]. (Hozzáférés: 2012. március 1.)

[7] Rutkovszky (2003)

[Rabb_2006_91._p-8] Rabb (2006) 91. p.

[9] Pajor (2006) 76. p.. [2016. augusztus 23-i dátummal az eredetiből archiválva]. (Hozzáférés: 2012. március 4.)

[10] Pajor (2006) 80. p.. [2016. augusztus 23-i dátummal az eredetiből archiválva]. (Hozzáférés: 2012. március 4.)

[11] Pajor (2006) 83. p.. [2016. augusztus 23-i dátummal az eredetiből archiválva]. (Hozzáférés: 2012. március 4.)

[12] Sherman-Price (2001) 96-103. p.

[13] Pajor (2006) pp. 95-111.. [2016. augusztus 23-i dátummal az eredetiből archiválva]. (Hozzáférés: 2012. március 4.)

[14] Pajor (2006) 95. p.. [2016. augusztus 23-i dátummal az eredetiből archiválva]. (Hozzáférés: 2012. március 4.)

[15] Pajor (2006) 96. p.. [2016. augusztus 23-i dátummal az eredetiből archiválva]. (Hozzáférés: 2012. március 4.)

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]