對于百度搜索引擎來說,蜘蛛黑洞特指網站通過極低的成本制造出大量參數過多、內容類同但url不同的動態URL ,就像一個無限循環的“黑洞“,將spider困住。spider浪費了大量資源抓取的卻是無效網頁。
對于百度搜索引擎來說,蜘蛛黑洞特指網站通過極低的成本制造出大量參數過多、內容類同但url不同的動態URL ,就像一個無限循環的“黑洞“,將spider困住。spider浪費了大量資源抓取的卻是無效網頁。
如很多網站都有篩選功能,通過篩選功能產生的網頁經常會被搜索引擎大量抓取,而這其中很大一部分是檢索價值低質的頁面。如“500-1000之間價格的租房”,首先網站(包括現實中)上基本沒有相關資源,其次站內用戶和搜索引擎用戶都沒有這種檢索習慣。這種網頁被搜索引擎大量抓取,只能是占用網站寶貴的抓取配額,那么該如何避免這種情況呢?
我們以北京美團網為例,看看美團網是如何利用robots巧妙避免這種蜘蛛黑洞的:
對于普通的篩選結果頁,使用了靜態鏈接,如:
http://bj.meituan.com/category/zizhucan/weigongcun
同樣是條件篩選結果頁,當用戶選擇不同排序條件后,會生成帶有不同參數的動態鏈接,而且即使是同一種排序條件(如:都是按銷量降序排列),生成的參數也都是不同的。如:http://bj.meituan.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqhekhttp://bj.meituan.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqi5c
對于美團網來說,只讓搜索引擎抓取篩選結果頁就可以了,而各種帶參數的結果排序頁面則通過robots規則拒絕提供給搜索引擎。在robots.txt的文件用法中有這樣一條規則:Disallow: /*?* ,即禁止搜索引擎訪問網站中所有的動態頁面。美團網恰是通過這種方式,對spider優先展示高質量頁面、屏蔽了低質量頁面,為spider提供了更友好的網站結構,避免了黑洞的形成。
河南億恩科技股份有限公司(www.laynepeng.cn)始創于2000年,專注服務器托管租用,是國家工信部認定的綜合電信服務運營商。億恩為近五十萬的用戶提供服務器托管、服務器租用、機柜租用、云服務器、網站建設、網站托管等網絡基礎服務,另有網總管、名片俠網絡推廣服務,使得客戶不斷的獲得更大的收益。
服務器/云主機 24小時售后服務電話:
0371-60135900
虛擬主機/智能建站 24小時售后服務電話:
0371-55621053
網絡版權侵權舉報電話:
0371-60135995
服務熱線:
0371-60135900