وب نامرئی یا وب عمیق چیست؟

شناسه محتوا : 12915

1394/11/17

تعداد بازدید : 800

گردآوری : هادی کوشا سرگروه کار و فناوری تربت حیدریه

وب عمیق چیست؟

اصطلاح وب نامرئی یا وب “عمیق” به مخزن عظیمی از اطلاعات اطلاق می شود که موتورهای جستجو به آنها دسترسی مستقیم ندارند. به طور مثال پایگاه داده کتابخانه های دانشگاهها، سایتهایی که برای مشاهده آنها نیاز به رمز عبور داریم و سایتهایی که به هر دلیل، موتورهای جستجو از فهرست بندی آنها،منع شده اند.بر خلاف صفحات قابل مشاهده (یعنی همین وبی که می توانید توسط موتورهای جستجو ببینید) اطلاعاتی در پایگاههای داده موجود است که اسپایدرها و رباتهای خزنده (یعنی ابزارهای جستجوی اطلاعات موتورهای جستجو)به آنها دسترسی ندارند.

بعنوان نمونه، اغلب مردم گوگل را بعنوان دارنده بزرگترین پایگاه داده جستجو تصور می کنند که حدودا ۸بیلیون صفحه را فهرست بندی کرده است. این رقم بزرگ است. ولی اگر وب مخفی را در نظر بگیریم باید این رقم را بایستی در ۵۰۰ضرب کنیم. بعلاوه گوگل فقط صفحات قابل جستجو را که حدودا ۲۵۰بیلیون است ذخیره کرده است ولی از رقم دقیق صفحات غیر قابل جستجو خبری نیست.

 

اهمیت وب نامرئی

آمارهای زیر می تواند گوشه ای از اهمیت وب های عمیق را نشان دهد.

- بهترين موتورهاي كاوش فقط قادر هستند كه حدود 16 درصد از اطلاعات موجود در وب را بازيابي كنند و بنابراين 84 درصد آن‌ها جزو وب نامرئي به حساب مي‌آيند.

 
-  وب ژرف حاوی ۷۵۰۰ترابایت اطلاعات است، در مقابل وب سطحی ۱۹ترابایت ذخیره کرده است.

- وب ژرف دارای نزدیک به ۵۵۰بیلیون مستند می باشد در حالیکه این رقم برای وب سطحی ۱بیلیون است.
- بیش از ۲۰۰هزار وب سایت ژرف وجود دارند.

- جالب است بدانید که بیش از نیمی از محتوای وب عمیق در عنوان سایتهایشان از کلمهDatabase استفاده کرده اند و اگر این کلمه را در جستجوهایتان بکار برید، امکان دسترسی تان را به این سایتها افزایش می دهید.

مرور نوشتارها حاكي از آن است كه به احتمال قريب به يقين عبارت «وب نامرئي» نخستين بار درسال 1994 توسط «ژيل السورث»ابداع شده است. البته معدودي از منابع نيز شخص ديگري به نام «متيوكل» را به عنوان مبدع اين اصطلاح معرفي مي‌كنند.
در خصوص وب نامرئي كلماتي نظير وب پنهان،‌ وب عميق، وب تاريك، به طور مترادف در متون مختلف به كار برده شده‌اند. اما اين‌ها در حقيقت معادل يكديگر نيستند و هر يك به جنبه‌اي از نامرئي بودن اشاره مي‌كنند که در زیر به اختصار به آنها پرداخته می شود.

بخش‌هاي مختلف وب نامرئي

1-    وب مات يا تاريك( Opaque Web)

بخشي از فضاي وب نامرئي به وب مات موسوم گرديده كه مي‌توانسته مورد استفاده كاربران قرار گيرد، اما به دلايل زير اين اطلاعات در خارج از دسترس كاربران قرار گرفته و موتورهاي كاوش نمي‌توانند آن‌ها را بازيابي كنند:
- از آنجا كه اولاً محيط وب دائماً در تغيير است و هر روز منابع و اطلاعات جديد به آن‌ افزوده مي‌گردد و ثانياً صفحاتي در وب وجود دارند كه هيچ پيوندي بين آن‌ها با منابع ديگر برقرار نشده، خزنده‌هاي موتورهاي جستجو قادر به يافتن اين صفحات و همگام نمودن خود با اين حجم عظيم اطلاعات نيستند.

- به دليل محدوديت توانايي، نرم‌افزارهاي خزنده‌ فرصت كافي براي روزآمدسازي صفحات جديد وب را ندارند. موتورهاي كاوش نيز امكان روزآمدسازي حجم عظيمي از اطلاعات و منابع جديد را ندارند و به همين دليل بسياري از اين اطلاعات از حوزه موتورهاي كاوش دور مي‌مانند.

- محدوديت توان مالي بسياري از موتورهاي كاوش سبب گرديده كه موتورهاي كاوش نتوانند تمام صفحات وب سايت‌ها را نمايه‌سازي كنند، چرا كه براي آن‌ها هزينه‌هاي زيادي دارد و بنابراين موتورهاي كاوش بنا بر سياست‌هاي خودشان، تنها بخشي از وب سايت‌ها يا لايه‌هاي بيروني آن‌ها را نمايه‌سازي مي‌كنند. بنابراين هميشه بخش عظيم لايه‌هاي دروني وب سايت‌ها پنهان مي‌مانند.

2-وب عميق

بخش ديگري از وب نامرئي، به مجموعه‌اي از اطلاعات الكترونيكي پيوسته اطلاق مي‌شود كه بسياري از پايگاه‌هاي اطلاع‌رساني، آن‌ها را از طريق شبكه جهان گستر وب در دسترس عموم قرار داده‌اند. برخي اين اطلاعات را به رايگان، و برخي ديگر را با دريافت هزينه در دسترس عموم قرار مي‌دهند. مندرجات اين پايگاه‌ها معمولاً خارج از حوزه جستجوي موتورهاي كاوش قرار دارند هريك از اين پايگاه‌ها صفحه جستجوي مبتني بر وب دارند. كه امكان جستجو در آن‌ها براي كاربران را فراهم مي‌كند، اما خزنده‌هاي موتورهاي جستجو توان ورود به آن‌ها را ندارند و در نتيجه حجم انبوهي از اطلاعات، نمايه نشده باقي مي‌ماند. به عنوان نمونه اگر يك متخصص موضوعي (مثلاً يك دانشجوي رشته پزشكي) بخواهد خود را به موتورهاي كاوش معمولي محدود كند و نتواند به پايگاه‌هاي اطلاعاتي تخصصي مراجعه نمايد يا از وجود آن‌ها آگاه نباشد، از دسترسي به حجم انبوهي از اطلاعات محروم خواهد ماند. بنابراين كاربر بايد در اين موارد از طريق موتورهاي جستجو، پايگاه‌هاي مرتبط با موضوع خود را شناسايي كند و سپس، جداگانه به جستجو در آن‌ها بپردازد تا از دسترسي به وب عميق باز نماند.

3 - وب خصوصي ( Private Web) و وب ملكی (Proprietary Web)

بخشي ديگر از وب نامرئي وجود دارد كه چون اطلاعات موجود در آن جزو دارايي‌هاي شخصي يا خصوصي سازمان‌ها يا افراد مي‌باشد، از حوزه دسترسي موتورهاي جستجو پنهان است. مثلاً در برخي از سازمان‌ها و مؤسسات خصوصي يا دولتي، به دلايل امنيتي از اطلاعات مربوط به مسائل كاري و سازماني و پرسنلي خود حفاظت مي‌كنند اجازه دسترسي به آن‌ها را به ديگران نمي‌دهند و فقط كساني كه داراي اسم كاربر و گذرواژه هستند مي‌توانند از آن‌ها استفاده كنند؛ اين بخش، وب خصوصي محسوب مي‌گردد . بخش ديگر، منابع اطلاعاتي از قبيل نشريات الكترونيكي مبتني بر وب مي‌باشند كه دسترسي به آن‌ها از طريق پرداخت حق اشتراك و خريد محصولات اطلاعاتي شركت‌هاي مختلف صورت مي‌گيرد «وب ملكي» ناميده مي‌شود.
4 - وب واقعا پنهان (Truly Invisible Web)

بخش ديگري از وب پنهان وجود دارد كه بنا به مسائل فني و ناكارآمدي ابزارهاي جستجو، از دسترسي كاربران دورمانده است. بسياري از موتورهاي جستجو قادر به بازيابي اطلاعات متني اچ‌تي‌ام‌ال هستند، ولي توانايي بازيابي فايل‌هاي پي‌دي‌اف را ندارند، يا به دليل كمبود منابع مالي و فني از جستجوي فايل‌هاي غيرمتني صرف‌نظر كرده‌اند. بنابراين منابع اطلاعاتي متنوعي نيز در وب وجود دارند كه تنها به دليل محدوديت‌هاي فناورانه يا مالي موتورهاي جست وجو، از حوزه كاوش آن‌ها و در نتيجه از دسترس كاربران دور مانده‌اند‌.

شيوه‌هاي کسب اطلاعات در وب نامرئي

در حال حاضر ابزارهايي به وجود آمده‌اند كه منابع وب نامرئي را شناسايي، و كاربران را به سايت‌هاي مناسب راهنمايي مي‌كنند. اين رويكرد توسط بزرگراه‌هاي اطلاعاتي و كتابخانه‌هاي مجازي پذيرفته شده است؛ بطوري كه فقط توصيفي از پايگاه‌هاي اطلاعاتي و مجلات نامرئي را ارائه مي‌كنند؛ مثل سايت« Invisible web»كه فهرستي از منابع نامرئي  و سايتComplete plaset كه فهرستي از تقريباً 40000 پايگاه اطلاعاتي وب نامرئي را ارائه مي‌دهند. برخی ديگر از ابزارهاي اطلاع‌يابي نيز وجود دارند که با یک جستجو در اینترنت می توانید به آنها دسترسی داشته باشید.

              خلاصه و نتیجه گیری

افزايش روز افزون منابع اطلاعاتي در اينترنت و مشكلات فني و غيرفني موتورهاي كاوش باعث گرديده كه حجم زيادي از اين اطلاعات از ديد كاربران پنهان بماند و به عنوان وب نامرئي مورد بحث بسياري از متخصصان اطلاع‌رساني قرار گيرد. همانطوري كه مي‌دانيم امروزه گرايش بسياري از كتابخانه‌ها و مراكز اطلاع‌رساني و محققان به سوي ديجيتالي كردن منابع و قراردادن آن‌ها در محيط اينترنت مي‌باشد. چنانچه دسترسي مطلوب به منابع ذخيره‌شده در اينترنت وجود نداشته باشد بسياري از ميراث‌هاي علمي،  پژوهشي،‌ فكري و فرهنگي بشر به هيچ وجه مورد استفاده حال و آينده قرار نخواهد گرفت. در اين ميان كتابداران و اطلاع‌رسانان نيز با آگاه‌كردن كاربران از وجود وب نامرئي و شيوه‌هاي دستيابي و اطلاع‌يابي كاربران از اين اطلاعات مي‌توانند نقش مهمي را در كاستن سطح نامرئي اطلاعات بر عهده بگيرند.
البته بايد يادآور شد كه به دليل پژوهش‌ها و پيشرفت‌هاي اخير در حوزه بازيابي اطلاعات چه در بعد فني و چه از نظر رويكرد كاربرمدار، آينده روشن‌تري در بازيابي اطلاعات در محيط وب پيش‌بيني مي‌شود . به طوركلي پيش‌بيني مي‌شود كه با پيشرفت ابزارهاي بازيابي اطلاعات در وب و بهبود سواد اطلاعاتي كاربران، به تدريج از سطح ناپيدايي اطلاعات در محيط وب كاسته شود.

منابع

 “The Invisible Web”, Wendy Boswell,
http://websearch.about.com                         

http://mohandesiit20.blogfa.com