loading...

تحقيقات و پژوهش

تحقيقات و پژوهش

بازدید : 345
سه شنبه 16 ارديبهشت 1399 زمان : 11:18

مقاله جستجو در وب پنهان
مقاله جستجو در وب پنهان

فرمت فايل : doc

حجم : 459

صفحات : 35

گروه : پژوهش

توضيحات محصول :

مقاله جستجو در وب پنهان

چكيده

با رشد روز افزون حجم اطلاعات وب در صفحات ديناميك و پايگاه هاي داده آنها، تلاش هاي زيادي در رسيدن به راه حلي براي تسهيل بازيابي اين اطلاعات توسط كاربران، انجام گرفته است. اين نوشتار سعي در معرفي اين بخش از منابع وب، اهميت آن و دسته بندي راه هاي جستجو در آن دارد.

كلمات كليدي : وب پنهان، فرم هاي HTML، موتورهاي جستجو، انديس گذاري

مقدمه

دنياي وب منبع عظيمي از اطلاعات است كه روز به ‌روز برحجم آن افزوده مي‌شود. در حال حاضر با رشد روز افزون اين پديده، حجم گسترده اى از منابع اطلاعاتى حوزه هاى مختلف مثل كتب، مجلات، پايان نامه ها، طرحهاى پژوهشى و پايگاههاى اطلاعاتى در بسترهاى جديد و با قابليتهاى متنوعى در مقايسه با منابع چاپى قابل دسترسى هستند. اين در حالي است كه تولد وب سايت هاي جديد و توسعه سيستم هاي ديناميك ارائه محتوا، به حجم و غناي اين اطلاعات مي افزايد. نرخ رشد اطلاعات تا به آنجا رسيده كه امروزه مشكل «دسترسي به اطلاعات» جدي تر از «فقدان اطلاعات» است. امروزه چالش عمده اكثر كاربران، دستيابي به اطلاعات مي باشد.

انواع اسناد وب

اسناد[1] وب، مجموعه اي از اطلاعات ذخيره شده در قالب فايل بر روي سرورهاي متصل به اينترنت است كه از طريق پروتكل HTTP در اختيار كلاينت هاي متقاضي قرار مي گيرد. اين اسناد بر اساس اين كه در چه سطحي از دسترسي براي موتورهاي عمومي جستجوي وب قرار مي گيرد، به دونوع «اسناد سطح وب» و «اسناد ناپيداي وب» تقسيم مي شوند كه در ادامه به معرفي آنها مي پردازيم.

اسناد سطح وب

اسناد سطح وب (وب سطحي[2]) به بخشي از اسناد وب اطلاق مي شود كه توسط موتورهاي عادي جستجوي وب قابل انديس گذاري هستند، از اين رو به اين بخش از وب «وب قابل انديس گذاري[3]» يا به اختصار PIW گفته مي شود. اين اسناد كه غالبا محتواي استاتيك (ذخيره شده و ثابت) دارند عموما داراي يك URL حقيقي بوده و از طريق دنبال كردن لينك هاي موجود در صفحات وب به اين URLها قابل دسترسي هستند.


[1] documents [2] Surface Web [3] Publicly Indexable Web

- دشوار در كشف[1]: اين دسته از صفحات پنهان داراي URL هستند اما از آنجا كه لينكي در صفحات ديگر ندارند، بسادگي قابل دسترسي نمي باشند.

- فاقد هويت ساده[2]: اين دسته از صفحات تنها بكمك يك URL نشان داده نمي شوند و اطلاعات بيشتري مورد نياز است. اين مسئله نه تنها براي موتورهاي جستجو بلكه براي هر سيستم ديگري كه براي شناسايي محتوي يك سند تنها از URL آن اقدام مي كنند، نيز وجود دارد.

يك نمونه از اين منابع صفحاتي هستند كه تنها بعد از پر كردن و فرستادن فرم هاي HTML با متد HTTP POST قابل دسترسي اند. با متد POST براي منبع URL منحصر به فرد توليد نمي شود و منبع فقط مي تواند در برابر تكميل و فرستادن اين فرم نمايش داده شود. لازم به ذكر است با وجود اينكه متد ديگر ارسال داده هاي فرم كه URL منحصر به فرد توليد مي كند يعني HTTP GET، در مواردي مانند فرم هاي جستجوهاي پيشرفته، طول داده هابي كه براي شناسايي منبع بايد رمزگشايي شود از طول يك URL قابل شناسايي تجاوز مي كند و چاره اي جز استفاده از متد POST در آن ها نيست.


[1] Difficult in discovery

[2] Lack of simple identity

وب پنهان چيست؟

«وب پنهان[1]» به بخشي از صفحات ديناميك وب اطلاق مي شود كه با استفاده از اطلاعات بدست آمده از فرم هاي HTML مربوط به آن صفحه توليد مي شوند. اين اسناد حاوي منبع عظيمي از اطلاعات هستند كه در پايگاه هاي داده قابل جستجوي وب سايت ها ذخيره شده اند. وب پنهان در واقع زير مجموعه اي از وب ناپيدا (مذكور در قسمت قبل) است كه دو خصوصيت «دشواري در كشف» و «فقدان هويت ساده» را دارد.

دشواري در كشف اين بخش از وب به علت آن است كه در حقيقت راه ورود به اين صفحات ديناميك، لينك هاي ساده موجود در صفحات ديگر نيست بلكه از طريق تكميل و ارسال فرم هاي HTML توسط كاربران قابل دسترسي اند. به همين خاطر موتورهاي جستجوي معمولي كه قادر به تكميل فرم HTML و ارسال آن به سرور مربوطه نيستند نمي توانند به محتويات اين صفحات دسترسي داشته باشند.

به لحاظ هويت سند، URLهاي ساده را مي توان به عنوان آدرس اسناد وب در نظر گرفت كه حاوي آدرس سرور، شاخه اي روي آن سرور و نام سند مربوطه اند. صفحات ديناميك مورد بحث يك URL حقيقي نداشته و URL آنها پس از تكميل فرم توليد مي شود، به همين دليل علاوه بر آدرس صفحه پاسخگو به درخواست فرم، حاوي اطلاعات ارسالي داخل فرم نيز هست كه با URLهاي ساده تفاوت دارد.


[1] Hidden Web

فهرست مطالب

1 مقدمه. 5

2 شرح.. 7

2.1 انواع اسناد وب... 7

2.1.1 اسناد سطح وب... 7

2.1.2 اسناد ناپيداي وب... 7

2.2 وب پنهان چيست؟. 11

2.3 واسط هاي وب پنهان. 11

2.4 اهميت وب پنهان. 12

2.5 رهيافت هاي جستجوي وب پنهان. 13

2.5.1 ابزارهاي سنتي جستجوي وب پنهان. 14

2.5.2 رهيافت هاي پيشرفته جستجوي وب پنهان. 16

2.6 دسته بندي خودكار وب پنهان. 16

2.6.1 تكنولوژي هاي كشف واسط هاي وب پنهان. 17

2.6.2 تكنولوژي هاي دسته بندي واسط هاي وب پنهان. 18

2.7 موتورهاي جستجوي وب پنهان. 19

2.7.1 تكنولوژي هاي انديس گذاري وب پنهان. 20

2.7.2 تكنولوژي هاي جستجوي بلادرنگ.... 26

3 بحث... 31

4 نتيجه گيري.. 31

5 خلاصه. 33

6 منابع. 35

قيمت محصول : 5000 تومان

دانلود
برچسب

مقاله جستجو در وب پنهان

مقاله جستجو در وب پنهان
مقاله جستجو در وب پنهان

فرمت فايل : doc

حجم : 459

صفحات : 35

گروه : پژوهش

توضيحات محصول :

مقاله جستجو در وب پنهان

چكيده

با رشد روز افزون حجم اطلاعات وب در صفحات ديناميك و پايگاه هاي داده آنها، تلاش هاي زيادي در رسيدن به راه حلي براي تسهيل بازيابي اين اطلاعات توسط كاربران، انجام گرفته است. اين نوشتار سعي در معرفي اين بخش از منابع وب، اهميت آن و دسته بندي راه هاي جستجو در آن دارد.

كلمات كليدي : وب پنهان، فرم هاي HTML، موتورهاي جستجو، انديس گذاري

مقدمه

دنياي وب منبع عظيمي از اطلاعات است كه روز به ‌روز برحجم آن افزوده مي‌شود. در حال حاضر با رشد روز افزون اين پديده، حجم گسترده اى از منابع اطلاعاتى حوزه هاى مختلف مثل كتب، مجلات، پايان نامه ها، طرحهاى پژوهشى و پايگاههاى اطلاعاتى در بسترهاى جديد و با قابليتهاى متنوعى در مقايسه با منابع چاپى قابل دسترسى هستند. اين در حالي است كه تولد وب سايت هاي جديد و توسعه سيستم هاي ديناميك ارائه محتوا، به حجم و غناي اين اطلاعات مي افزايد. نرخ رشد اطلاعات تا به آنجا رسيده كه امروزه مشكل «دسترسي به اطلاعات» جدي تر از «فقدان اطلاعات» است. امروزه چالش عمده اكثر كاربران، دستيابي به اطلاعات مي باشد.

انواع اسناد وب

اسناد[1] وب، مجموعه اي از اطلاعات ذخيره شده در قالب فايل بر روي سرورهاي متصل به اينترنت است كه از طريق پروتكل HTTP در اختيار كلاينت هاي متقاضي قرار مي گيرد. اين اسناد بر اساس اين كه در چه سطحي از دسترسي براي موتورهاي عمومي جستجوي وب قرار مي گيرد، به دونوع «اسناد سطح وب» و «اسناد ناپيداي وب» تقسيم مي شوند كه در ادامه به معرفي آنها مي پردازيم.

اسناد سطح وب

اسناد سطح وب (وب سطحي[2]) به بخشي از اسناد وب اطلاق مي شود كه توسط موتورهاي عادي جستجوي وب قابل انديس گذاري هستند، از اين رو به اين بخش از وب «وب قابل انديس گذاري[3]» يا به اختصار PIW گفته مي شود. اين اسناد كه غالبا محتواي استاتيك (ذخيره شده و ثابت) دارند عموما داراي يك URL حقيقي بوده و از طريق دنبال كردن لينك هاي موجود در صفحات وب به اين URLها قابل دسترسي هستند.


[1] documents [2] Surface Web [3] Publicly Indexable Web

- دشوار در كشف[1]: اين دسته از صفحات پنهان داراي URL هستند اما از آنجا كه لينكي در صفحات ديگر ندارند، بسادگي قابل دسترسي نمي باشند.

- فاقد هويت ساده[2]: اين دسته از صفحات تنها بكمك يك URL نشان داده نمي شوند و اطلاعات بيشتري مورد نياز است. اين مسئله نه تنها براي موتورهاي جستجو بلكه براي هر سيستم ديگري كه براي شناسايي محتوي يك سند تنها از URL آن اقدام مي كنند، نيز وجود دارد.

يك نمونه از اين منابع صفحاتي هستند كه تنها بعد از پر كردن و فرستادن فرم هاي HTML با متد HTTP POST قابل دسترسي اند. با متد POST براي منبع URL منحصر به فرد توليد نمي شود و منبع فقط مي تواند در برابر تكميل و فرستادن اين فرم نمايش داده شود. لازم به ذكر است با وجود اينكه متد ديگر ارسال داده هاي فرم كه URL منحصر به فرد توليد مي كند يعني HTTP GET، در مواردي مانند فرم هاي جستجوهاي پيشرفته، طول داده هابي كه براي شناسايي منبع بايد رمزگشايي شود از طول يك URL قابل شناسايي تجاوز مي كند و چاره اي جز استفاده از متد POST در آن ها نيست.


[1] Difficult in discovery

[2] Lack of simple identity

وب پنهان چيست؟

«وب پنهان[1]» به بخشي از صفحات ديناميك وب اطلاق مي شود كه با استفاده از اطلاعات بدست آمده از فرم هاي HTML مربوط به آن صفحه توليد مي شوند. اين اسناد حاوي منبع عظيمي از اطلاعات هستند كه در پايگاه هاي داده قابل جستجوي وب سايت ها ذخيره شده اند. وب پنهان در واقع زير مجموعه اي از وب ناپيدا (مذكور در قسمت قبل) است كه دو خصوصيت «دشواري در كشف» و «فقدان هويت ساده» را دارد.

دشواري در كشف اين بخش از وب به علت آن است كه در حقيقت راه ورود به اين صفحات ديناميك، لينك هاي ساده موجود در صفحات ديگر نيست بلكه از طريق تكميل و ارسال فرم هاي HTML توسط كاربران قابل دسترسي اند. به همين خاطر موتورهاي جستجوي معمولي كه قادر به تكميل فرم HTML و ارسال آن به سرور مربوطه نيستند نمي توانند به محتويات اين صفحات دسترسي داشته باشند.

به لحاظ هويت سند، URLهاي ساده را مي توان به عنوان آدرس اسناد وب در نظر گرفت كه حاوي آدرس سرور، شاخه اي روي آن سرور و نام سند مربوطه اند. صفحات ديناميك مورد بحث يك URL حقيقي نداشته و URL آنها پس از تكميل فرم توليد مي شود، به همين دليل علاوه بر آدرس صفحه پاسخگو به درخواست فرم، حاوي اطلاعات ارسالي داخل فرم نيز هست كه با URLهاي ساده تفاوت دارد.


[1] Hidden Web

فهرست مطالب

1 مقدمه. 5

2 شرح.. 7

2.1 انواع اسناد وب... 7

2.1.1 اسناد سطح وب... 7

2.1.2 اسناد ناپيداي وب... 7

2.2 وب پنهان چيست؟. 11

2.3 واسط هاي وب پنهان. 11

2.4 اهميت وب پنهان. 12

2.5 رهيافت هاي جستجوي وب پنهان. 13

2.5.1 ابزارهاي سنتي جستجوي وب پنهان. 14

2.5.2 رهيافت هاي پيشرفته جستجوي وب پنهان. 16

2.6 دسته بندي خودكار وب پنهان. 16

2.6.1 تكنولوژي هاي كشف واسط هاي وب پنهان. 17

2.6.2 تكنولوژي هاي دسته بندي واسط هاي وب پنهان. 18

2.7 موتورهاي جستجوي وب پنهان. 19

2.7.1 تكنولوژي هاي انديس گذاري وب پنهان. 20

2.7.2 تكنولوژي هاي جستجوي بلادرنگ.... 26

3 بحث... 31

4 نتيجه گيري.. 31

5 خلاصه. 33

6 منابع. 35

قيمت محصول : 5000 تومان

دانلود
برچسب

مقاله جستجو در وب پنهان

نظرات این مطلب

تعداد صفحات : 48

درباره ما
موضوعات
آمار سایت
  • کل مطالب : 485
  • کل نظرات : 0
  • افراد آنلاین : 1
  • تعداد اعضا : 0
  • بازدید امروز : 14
  • بازدید کننده امروز : 1
  • باردید دیروز : 201
  • بازدید کننده دیروز : 0
  • گوگل امروز : 0
  • گوگل دیروز : 0
  • بازدید هفته : 217
  • بازدید ماه : 2089
  • بازدید سال : 7017
  • بازدید کلی : 280038
  • <
    پیوندهای روزانه
    آرشیو
    اطلاعات کاربری
    نام کاربری :
    رمز عبور :
  • فراموشی رمز عبور؟
  • خبر نامه


    معرفی وبلاگ به یک دوست


    ایمیل شما :

    ایمیل دوست شما :



    لینک های ویژه