همان طور که می دانید، جمع شدن صفحات سایت توسط یک موتور جستجو، اولین گام در ایجاد یک سایت قابل دسترس روی محیط وب است. ساده ترین راه برای این کار این است که به موتور های جستجوی بگویید سایت شما موجود است!
برای این کار می توانید آدرس سایت (URL) خود را در موتورهای جستجوی مختلف ثبت کنید. (که کمابیش با نحوه انجام این کار آگاهی دارید)
حذف روبات
قبل از اینکه بخواهید سایت و یا وبلاگ خود را در هر موتور جستجویی قرار دهید، به خاطر داشته باشد که داشتن یک روبات که کل سایت شما را ایندکس کند، ایده خوبی نیست! اولین دلیل آن، این است که بعضی صفحات مثل برنامه هایی که در دایرکتوری cgi-bin شما هستند، نیازی به ایندکس شدن ندارند و دومین دلیل اینکه بعضی از صفحات موقت و ناپایدار هستند و ایندکس کردن آن ها، منجر به ایجاد خطاهای بسیاری هنگام بازیابی آن ها می شود.
Robots.txt
برای محدود کردن دسترسی به روبات،
پروتکل Robot Exclusion، تهیه شده است و ایده ابتدایی آن، استفاده از فایل خاص Robot.txt در دایرکتوری ریشه سایت است.
برای مثال اگر یک Spider در حال ایندکس کردن
http://www.weblogina.com باشد، ابتدا به جستجوی فایل
http://www.weblogina.com/robots.txt می پردازد. اگر این فایل را پیدا کرد، قبل از شروع به اینکس سایت، آن را تجزیه و تحلیل می کند.
فرمت اولیه فایل Robots.txt، لیستی از Spider های خاص است که می خواهید آن ها را محدود کنید و یا مسیر های دایرکتوری خاصی را برای آن ها ممنوع نمایید.
User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /archive/
آخرین نظرات
عالی بود.دستتون درد نکنه. من یکی که مشکلم حل شد.از...
با سلام جنا میشه بپرسم شما از چه سیستم عاملی استفا...
سلام خسته نباشید ببخشید چرا مطالبی که به وبلاگ ارس...
خيلي خوبه ممنون استفاده كردم از اين مطالب زياد بزا...
سلام خوبی - اینا که هیچ کدومش کار نکرد واااااااااا...