جستجوگر های اینترنت چگونه کار می کنند؟ا

اشاره :
نکته جالبی که در مورد اینترنت و بارزترین جزء لاینفک آن یعنی شکبه جهانی وب مطرح می باشد این است که هزاران میلیون صفحه در شبکه منتظرند تا اطلاعاتی را در سوژه های مختلف به کاربران در سراسر دنیا ارائه دهند. از سوی دیگر هزاران و شاید میلیون ها صفحه وب نیز وجود داردکه به علت نام گذاری نادرست و نا مشخص توسط نویسنده آنها روی سرورها بلا استفاده باقی می مانند.در حال حاضر تمام کاربران اینترنت برای پیدا کردن مقاله ، مطلب ، تصویر ومواردی از این قبیل از جستجوگرهای اینترنتی ( Internet Search Engines ) استفاده می کنید. ....

جستجوگرها سایت های خاصی در وب می باشند که به منظور یافتن اطلاعات ذخیره شده در سایت های دیگر ، به مردم سرویس می دهند. با اینکه جستجو گر های اینترنتی هر کدام به روش های مختلفی کار می کنند اما تمام آنها سه وظیفه اصلی دارند که به شرح زیر می باشند:

• موتورهای جستجو بر مبنای یک سری کلمات خاص به عملیات جستجو و همچنین انتخاب قسمت هایی از اینترنت اقدام می نمایند.

• فهرستی از کلمات یافته شده را به همراه محل آنها نگهداری می کنند.

• همچنین به کاربران اینترنتی اجازه می دهند تا کلمات و یا مشتقاتی از آن کلمات یافته شده را جستجو کنند.

این موتورهای جستجوگر چند صد میلیون صفحه وب و اسناد مختلف را در داخل فهرست خود نگهداری می کنند همچنین در یک روز به بیش از ده ها میلیون درخواست پاسخ می دهند. در این مقاله قصد داریم تا شما را با نحوه کار موتورهای جستجوگر آشنا سازیم و خواهید دید که چگونه این موتورها قسمت های مختلفی را به صورت منظم کنار هم قرار می دهند تا به اطلاعات مورد نیازتان دست یابید.

جستجو در اینترنت

قبل از اینکه شبکه وب به عنوان بارز ترین قسمت اینترنت و به صورت امروزی مطرح باشد برای یافتن اطلاعات در شبکه اینترنت ، چندین موتور جستجوگر وجود داشت که از مهمترین آنها می توان به برنامه هایی مانند Gopher , Archie اشاره کرد. این برنامه ها فایل های ذخیره شده در سرور های متصل به اینترنت را لیست می کردند که مقدار قابل توجهی از زمان دستیابی به برنامه ها و اسناد را کوتاه می کرد. در اواخر دهه 1980 از برنامه هایی مانند gopher , archie , veronica بیشتر استفاده می شد. اما امروزه اکثر کاربران اینترنتی جستجوی خود را در شبکه وب انجام می دهند در نتیجه ما نیز در این مقاله در مورد اینگونه موتورهای جستجو صحبت خواهیم کرد.

قبل از اینکه یک جستجوگر بتواند آدرس فایل و یا سند مورد نظر شما را اعلام نماید ابتدا باید لیستی از آنها را بیابد. موتورهای جستجوگر برای یافتن اطلاعات از بین صدها میلیون صفحه در وب موجود از روبات های نرم افزاری به نام اسپایدر ( Spider ) استفاده می کنند تا نتیجه یافت شده را به صورت لیست در آورد. اسپایدرها برای تهیه لیست کلمات ، می باید از تمامی صفحات دیدن کند و طی آن پروسه ای را به نام Web Crawling به انجام می رسانند.

اما سوال که در اینجا مطرح می گردد اینست که چگونه هر اسپایدر در شبکه وب شروع به گشتن زنی می کند؟

آنها از سرورهای کاربردی تر و صفحات متداول شروع می کنند و کلمات و لینک های سایت ها را برای شما فهرست می کند. این سیستم به سرعت در شبکه حرکت می کند و به سایر بخش های شبکه گسترش می یابد. جستجوگر Google به عنوان یکی از موتور های جستجوگر آکادمیک به حساب می آید.

سرگی برین (Sergey Brin ) و لارنس پیچ (Lawrence Page ) که گوگل را ایجاد کردنه اند می گویندآنها برای تهیه لیست اولیه خود از چندین اسپایدر ( معمولاً 3 اسپایدر ) استفاده می کنند که هر یک از این اسپایدر ها همزمان با سیصد صفحه وب ارتباط برقرار می کند. برای رسیدن به آخرین درجه از کارایی ، چهار عدد اسپایدر می توانند تعداد چند صد صفحه وب را در یک ثانیه جستجو کنند. تمامی این کارها با سرعت و به منظور تهیه اطلاعات مورد نیاز اسپایدرها صورت می گیرند. اسپایدر گوگل در حین جستجو صفحه HTML دو نکته زیر را مورد توجه قرار می دهد:

• کلمات داخل صفحه

• محل پیدا شدن یک کلمه

امکان جستجو در بین کلمات مشابه به عملیات اسپایدرها سرعت بیشتری می بخشد و همچنین به کاربران اجازه می دهد تا به شیوه موثرتری به جستجو بپردازند به عنوان مثال برخی از اسپایدارها ردیفی از شامل صد لغت رایج موجود در تیترها ، سرتیترها ولینک ها وهمچنین هر یک از لغات موجود در بیست سطر نخست یک متن را در فهرست خود نگه می دارند.

سیستم های دیگر مانند AltaVista به روش دیگری عمل می کنند آنها هر یک از کلمات را به همراه حروف a ، the و an و حتی کلمات بی معنی موجود در یک صفحه را فهرست می کنند.

شکل 1: تصویری از نحوه عملکرد یک موتور جستجو گر

Meta Tags

Meta Ttags به طراحان و صاحبان صفحات وب اجازه می دهد تا برای تعریف و مشخص کردن محتویات صفحات خود از کلمات کلیدی که مرتبط با مطالب داخل آن صفحه است استفاده کنند .

به عنوان مثال شما می توانید صفحه ای که شامل مطالبی در زمینه نقاط تاریخی ایران است بسازید و در قسمت متا تگ آن از کلمات کلیدی مثل تخت جمشید ، پرسپولیس ، ارگ بم ، سی و سه پل و مواردی از این قبیل استفاده کنید در این صورت متا تگ ها ، ماشین های جستجوگر را در انتخاب معنای صحیح لغات راهنمایی می کنند. اما متا تگ ها همیشه مورد اعتماد نیستند چرا که برخی از طراحان و صاحبان صفحات یک وب سایت با بی احتیاطی تگ هایی را وارد لیست خود می کنند که دارای موضوعات رایج و هیچ ارتباطی با متن صفحات وب ندارند برای جلوگیری از وقوع چنین حالتی ، اسپایدرها ارتباطی را بین متا تگ ها و متن صفحات بر قرار می سازند و همچنین تگ هایی را که ارتباطی با لغات درون صفحات ندارند را قبول نمی کنند.

شکل 2 : نمونه ای از یک Meta Tag که در ابتدای یک صفحه HTML می آید.

ساخت ایندکس

به محض اینکه اسپایدرها کار جستجو و یافتن اطلاعات موجود در وب را به پایان می رسانند موتورهای جستجوگر باید اطلاعات را با روشی مناسب نگهداری کنند. در فرآیند جمع آوری اطلاعات برای نمایش به کاربر ، دو جزء کلیدی دخالت دارد:

• نگهداری اطلاعات.

• روش ایندکس یا فهرست کردن اطلاعات.

در ساده ترین حالت ممکن ، یک موتور جستجوگر می تواند کلمه وآدرس (URL) آن را نگهداری نماید. در واقع این حالت برای یک موتور جستجوگر محدودیت ایجاد می کند چرا که هیچ روشی برای جدا کردن کلمات اصلی از کلمات فرعی وجود نخواهد داشت و یا اینکه تشخیص دهد کلمه ای یک بار یا چندین بار در صفحه تکرار شده است به عبارت دیگر روش خاصی وجود ندارد تا لیستی که پس از جستجو نشان می دهد را بررسی و امتیاز بندی نماید.

برای رسیدن به نتایج بهتر ، بیشتر موتورهای جستجوگر بیش از یک لغت و آدرس را نگهداری می کنند. یک موتور جستجوگر تعداد دفعات تکرار لغات موجود در یک صفحه را ثبت می کند. همچنین لغات را با توجه به اولویت مکان آنها معین می کنند. جدا از اینکه قسمت هایی از اطلاعات جانبی توسط موتورهای مرورگر ذخیره می شوند ، دیتاها نیز برای اشغال فضای کمتر به صورت کد در می آیند. به عنوان مثال موتور جستجوی گوگل برای ذخیره سازی اطلاعات درجه بندی شده فضایی را به اندازه 2 بایت یعنی 16 بیت اختصاص می دهد که در این فضا اطلاعاتی نگهداری می کند.

ایندکس کردن یک هدف را دنبال می کند : دستیابی به اطلاعات در سریع ترین حالت ممکن.

برای ساخت یک فهرست ، یکی از روش های موثر ، روش ساخت Hash Table می باشد. در این روش فرمولی به کاربرده می شود که به کمک آن برای هر کلمه ای یک ارزش عددی در نظر گرفته می شود. فرمول مذکور به منظور توزیع متعادل اعداد پیش فرض به کار برده می شود. توزیع عددی کلمات کاملاً با توزیع کلمات بر حسب حروف الفبا متفاوت است و این تنها کلید موفقیت جدول Hash می باشد.

در زبان انگلیسی ، حروف زیادی در ابتدای لغات استفاده می شوند در حالی که برخی دیگر کمتر. مثلاً در فرهنگ لغات انگلیسی قسمت مربوط به حرف M قطورتر از حرف X می باشد. این نا برابری به این معنا می باشد که برای یافتن لغات متداول نسبت به یافتن لغاتی که به مراتب کاربرد کمتری دارند ، مدت زمان بیشتری باید صرف کرد. عملیاتHashing ( ترتیب بندی لغات براساس اعداد ) باعث ایجاد تعادل می گردد و سرعت جستجوی بخش های ورودی را کاهش می دهد. همچنین فهرست را از سیستم ورودی جدا می سازد. جدول Hash شامل اعداد مجزایی می باشد که هر یک از آنها به اطلاعات فعلی دلالت می کند و به موثرترین روشی ممکن ذخیره می شوند.

جستجو

جستجو در یک ایندکس بر اساس در خواستی می باشد که کاربر آن را به یک موتور جستجو ارسال می نماید. این درخواست می تواند بسیار ساده مانند یک کلمه باشد. اما اگر بخواهید در خواست کامل تری را به موتور جستجوگر بفرستید می باید از عملگرهای بولین (Boolean ) استفاده کنید تا بتوانید دامنه درخواست خود را توسعه دهید.

رایج ترین عملگرهای بولین عبارتند از :

• AND : توسط این عملگر می توانید چندین واژه را همزمان جستجو کنید البته به خاطر داشته باشید که برخی از موتورهای جستجوگر از عملگر + به جای AND نیز استفاده می کنند. با این عملگر نتیجه جستجو شامل همه کلماتی است که بین آنها این عملگر وجود دارد.

• OR : با تایپ این عملگر موتور جستجوگر تمام صفحاتی که حتی یکی از واژه ها را درون خود داشته باشد نمایش می دهد یعنی نتیجه شامل هر کدام از کلمات که باشد نمایش داده می شود.

• NOT : اگر بعد از عملگر NOT کلمه و یا واژه ای را تایپ کنید ، در این صورت موتور جستجوگر صفحاتی که دارای آن واژه باشد را نمایش نمی دهد البته به خاطر داشته باشید که در برخی از مرورگرها از علامت - ( علامت منفی ) به جای عملگر NOT استفاده می شود.

• Quotation Marks : کلماتی که درون" " آورده می شوند ( به عنوان مثال "RAM" ) در حین جستجو به عنوان یک عبارت به حساب می آیند و جستجوگر در داخل سند دقیقا به دنبال عبارت داخل گیومه می گردد.

برای آشنایی بیشتر با عملگرهای بولین می توانید به آدرس www.google.com/help/refinesearch.html سر بزنید.

آینده جستجوگرها

جستجوهایی که به کمک عملگرهای بولین انجام می شوند به جستجوهای Literal یا لفظی موسوم اند. جستجوگرها دقیقا کلمه یا عباراتی را جستجو می کنند که در قسمت جستجو وارد شده است. اگر کلمه ای دارای معنای مختلفی باشد در نتیجه عملیات با مشکل مواجه می شود. به طور مثال لغت Bed را در نظر بگیرید. لغت مذکور دارای چندین معنای متفاوت می باشد از جمله محل خوابیدن ، محل کاشتن گل ها ، فضای ذخیره سازی یک واگن باری ، بستر رودخانه که ماهی ها در آنجا تخم می گذارند.

حال اگر به دنبال یکی از معانی Bed باشید و بخواهید صفحات وبی را جستجو کنید که دارای لغت Bed با معنای مورد نظرتان باشد و موتور جستجوگر صفحات دیگری را جستجو نکند در این قسمت باید از جستجوی لفظی استفاده کنید که در این نوع جستجو ، موتور صفحاتی را که دارای معانی ناخواسته باشد را کنار می گذارد.

در حال حاضر افراد زیادی برای رسیدن به نتایج بهتر در زمینه کارایی مرورگرها مشغول به فعالیت می باشند اما عده ای نیز در زمینهNatural-Language Queries فعالیت می کنند.در روش Natural-Language به راحتی می توانید در خواست خود را بدون نیاز به عملگرهای بولین و یا واژه های پیچیده جستجو کنید. سایت Askjeeves.com یکی از علمی ترین سایت ها می باشد که در خواست شما را به صورت کلمات کلیدی تجزیه می کند و سپس آنها را در سایت هایی که بوجود آورده به کار می برد.

در آینده بسیار نزدیک موتور های جستجو آنقدر باهوش خواهند شد که بسیاری از ملاحظات را خودشان بطور خودکار انجام می دهند و جستجو را بسیار راحت تر از حال حاضر خواهند کرد.

جستجوگر های اینترنت چگونه کار می کنند؟ا

مطالب مشابه :

طریقه نوشتن نامه اداری و رسمی

جستجوگر های اینترنت چگونه کار می کنند؟ا

فرم الکترونیکی درخواست رواديد (EVAF)