Google基于HillTop算法的更新【相關性網站判斷】 |
發布時間: 2012/9/15 14:45:47 |
HillTop ,是一項搜索引擎結果排序的專利,是Google的一個工程師Bharat在2001年獲得的專利。Google的排序規則經常在變化,但變化最大的一次也就是基于HillTop算法進行了優化。
其實HillTop算法的指導思想和PageRank的是一致的,都是通過網頁被鏈接的數量和質量來確定搜索結果的排序權重。但HillTop認為只計算來自具有相同主題的相關文檔鏈接對于搜索者的價值會更大:即主題相關網頁之間的鏈接對于權重計算的貢獻比主題不相關的鏈接價值要更高。如果網站是介紹“SEO培訓”的,有10個鏈接都是從“SEO培訓”相關的網站鏈接過來,那這10個鏈接比另外10個從“網站優化”相關網站鏈接過來的貢獻要大。Bharat稱這種對主題有影響的文檔為“專家”文檔,從這些專家文檔頁面到目標文檔的鏈接決定了被鏈接網頁“權重得分”的主要部分。
Google應用新算法背后的原因
==========================
在1998年Google剛剛開始的時候,PR在決定適當程度與重要性方面起到了一個非常完美的作用。盡管如此,PR算法在設計上還是存在了一些脆弱性與限制性。Google在很早以前也就知道了。
HillTop算法實際上是拒絕了部分通過隨意交換鏈接的方法來擾亂Google的排名規則而得到較好排名的做法,而在HillTop的論文中也提到很多關于識別“網站鏈接交換聯盟”的設計:如根據IPv4地址的頭3段,根據域名的別名推測:example.com = example.com.cn;
PR值對于搜索關鍵詞的匹配度作用不大:因為在很多包含相應關鍵詞的非相關主題的網站具有很高的PR值。這就是Google在HillTop算法中盡量避免的東西:應該盡其所能去列出與搜索關鍵詞相關的結果。
總得看來,從過去到今天,很多搜索引擎停止了那種只使用一種有價值的算法去決定排名的做法。如:meta keyword標簽等。這只是一個開始,Google在第一步已經完全忽略html header中的meta標簽了。與不可見的meta標簽相比,一個網站的可視部分使用干擾技術較在meta使用的要少,因為可視部分畢竟還要面對大部分的實際的訪問者。
專家文檔的動態智能識別
======================
基于“專家”文檔的HillTop算法最大的難點是第一次“專家文檔”的篩選,從目前的觀察來看:Google顯然首先給了教育(.edu),政府(.gov)和非盈利組織(.org)站點很高的優先級。在運行時:Google會在龐大的內存里儲存搜索頻率比較高的關鍵詞的索引,以備搜索者在短期內繼續用同樣的關鍵字短語等進行搜索。這些高頻關鍵詞還有另外一種作用,在“搜索引擎”更新之前很多人已經注意到的了:含有那些突增的搜索關鍵字的網站會得到較快的更新頻率。如關于:"SARS",每天的搜索次數數以百萬計:Google就會優先對與這個主題有關的網站進行更新。
回頭看一下以前每個月的“Google Dance”,也能得出以下的結論:Google也明顯地為一個關鍵詞給予一個隨機的“權重”,動態的根據關鍵詞查詢統計發現這些熱門關鍵詞,然后基于HillTop算法面向主題地找到這些含有熱門關鍵詞的網頁,讓這些網頁作為相應關鍵詞的“專家”文檔,針對這些索引入口保持比較高的更新頻率:這點顯然對于應對突發事件非常有效。而那些含有查詢頻率比較低的關鍵詞所對應的網頁可能要1月才更新一次。簡單的說就是:Google會根據主題的熱門程度動態調整相應網站的索引的強度。而Google中文用戶在總體用戶中的比例與Google索引的中文網頁在索引的總體網頁中的比例,從某種程度上說,也是有一定關系的。
本文出自:億恩科技【www.laynepeng.cn】 |