اذا لم تجد ما تبحث عنه يمكنك استخدام كلمات أكثر دقة.
بالنظر إلى الحجم الحالي للشبكة، حتى محركات البحث الكبرى لا تستطيع سوى تغطية جزء مما متاح للجمهور. وأظهرت دراسة أجريت عام 2005 ان محركات البحث الكبرى لا تفهرس أكثر من 40 ٪ -70 ٪ من الشبكة المتاحة؛ ودراسة سابقة أجراها الدكتور ستيف لورانس وجايلز لي أظهرت أنه لم يوجد محرك البحث قادر على فهرسة أكثر من 16 ٪ من شبكة الإنترنت في عام 1999. بما ان تنزيلات الزاحف دائما مجرد جزء صغير من صفحات الشبكة، فمن المرغوب فيه جدا أن الجزء المحمل يحتوي على معظم الصفحات ذات الاهمية، وليس مجرد عينة عشوائية من الشبكة.
هذا يتطلب مجدول من الثوابت لتحديد أولويات الصفحات على الشبكة. أهمية الصفحة تنبع من جودتها الذاتية، ومدى شعبيتها من حيث الوصلات أو الزيارات، وحتى من عنوانها (وهذا الثابت الأخير هو الحال في محركات البحث العمودى التي تقتصر على المستوى الأعلى من موقع، أو محركات البحث المقصورة على موقع ثابت). وهناك صعوبة اضافية في تصميم سياسة انتقاء جيدة: وهي انها يجب أن تتعامل مع معلومات جزئية، فأثناء الزحف لا تعرف المجموعة الكاملة من صفحات الشبكة مسبقا.
قام تشو وآخرون بأول دراسة حول السياسات المتعلقة بجدولة الزحف. مجموعة بياناتهم كان زحف على 180000 صفحة من موقع stanford.edu، وتم محاكاة الزحف باستراتيجيات مختلفة. كانت جداول الترتيب التي اختبرت هي الاتساع اولا، وعدد الصلات العائدة، وحسابات ترتيب الصفحة الجزئي. كان واحدا من الاستنتاجات ان الزاحف إذا اراد تحميل الصفحات ذات الرتبة العالية في وقت مبكر خلال عملية الزحف فإن سياسة رتبة الصفحة الجزئي هي الأفضل، وتليها استراتيجية الاتساع أولا، ثم عدد الصلات العائدة. ومع ذلك، فإن هذه النتائج هي لموقع واحد فقط.
نفذ ناجورك ووينر عملية زحف فعلي على 328 مليون صفحة مستخدمين سياسة الاتساع أولا. ووجدوا أن الزحف بسياسة الاتساع أولا يلتقط الصفحات ذات رتبة الصفحة العالية في وقت مبكر من الزحف (لكنهم لم يقارنوا هذه الاستراتيجية ضد استراتيجيات أخرى). التفسير الذي قدمه الباحثون لهذه النتيجة هو أن "أهم صفحات يصلها العديد من الروابط من مضيفين متعددين، وسيتم العثور على تلك الروابط في وقت مبكر، بغض النظر عن المضيف أو الصفحة التي ينشاء منها الزحف".
صمم ابيطبول استراتيجية زحف قائمة على خوارزمية تدعى OPIC (حساب أهمية الصفحة على الإنترنت، أو اوبيك). في أوبيك، تعطى كل صفحة مبلغ أولي من "النقدية" التي يتم توزيعها بالتساوي بين الصفحات التي تشير إليها. وذلك مماثل لحساب رتبة الصفحة، ولكنه أسرع ويتم في خطوة واحدة فقط. والزاحف الذي يستعمل اوبيك ينزل أولا الصفحات في حدود الزحف التي لديها كمية أكبر من "النقد". وأجريت التجارب على رسومات بيانية اصطناعية كل منها يحتوى على 100,000 صفحة، ولكنها لم تقارن مع غيرها من الاستراتيجيات أو في الواقع على الإنترنت.
بولدى وآخرون استخدموا محاكاة على مجموعة مصغرة من الشبكة تحتوى على 40 مليون صفحة تحت منطقة.it الخاصة بإيطاليا و 100 مليون صفحة من الزحف ويب باس، واختبروا استراتيجية الاتساع اولا ضد العمق اولا مع تريب عشوائى واستراتيجية لديها كل المعلومات (كلية العلم). واستندت المقارنة على مدى جودة تقييم رتبة الصفحة المحسوبة على أساس زحف جزئي مقاربة رتبة الصفحة الحقيقية. من المستغرب، ان بعض الزيارات التي تراكم رتبة الصفحة بسرعة كبيرة (وأبرزها، الاتساع اولا، وكلية العلم) تقدم تقديرات تقريبية تدريجية سيئة للغاية. بايز ييتس وآخرون استخدموا محاكاة على اثنين من المجموعات المصغرة من الشبكة مكونة من 3 ملايين صفحة من اليونان وشيلى، واختبروا عليها استراتيجيات زحف عدة. وأظهروا أن كلا من استراتيجية اوبيك والاستراتيجية التي تستخدم طول قوائم الانتظار على الموقع هما أفضل من استراتيجية الاتساع اولا، وأن استخدام أي زحف سابق أيضا فعال جدا، عندما يكون متوفرا، لتوجيه الزحف الحالي.
دانيشباجوه وآخرون صمموا خوارزمية لاكتشاف بذور جيدة. طريقتهم تزحف على صفحات الشبكة ذات الرتبة العالية من مجتمعات مختلفة بتكرار أقل بالمقارنة مع بدء الزحف من بذور عشوائية. يمكن للمرء استخراج بذور جيدة من رسم بياني لشبكة تم زحفها مسبقا باستخدام هذا الأسلوب الجديد. وباستخدام هذه البذور سيكون الزحف الجديد فعالا جدا.