搜索引擎抓取不到的內容有那些
沒有搜索引擎是萬萬不能的,但搜索引擎不是萬能的;
有些內容,網上明明存在,但是你用搜索引擎搜不到。如果事先理解搜索引擎能做的和不能做的,你就可以設計更佳的搜索策略。而搜索之前思考一下搜索策略,是搜索成功最關鍵的一步。
----------------------------------------------------------------------------- 本文章轉載于互聯網某網站!
這樣的內容,主要有3類:
======================
1、網上有,但是搜索引擎庫里沒有
------------------------------------------------------
1.1 spider未能正確處理的網頁性質及文件類型
(如flash、script、ps、某些動態網頁及frame、數據庫)
1.2 沒有指向鏈接的孤島網頁
1.3 spider訪問時因為某些原因正好是死鏈接
1.4 被認為是劣質網頁而不抓
1.5 因為/色情/反動/spam/等問題而不抓的非法網頁
1.6 需要輸入用戶名、密碼方可打開的網頁
1.7 網站用robots協議拒絕搜索引擎抓取的網頁
1.8 搜索引擎還未來得及抓取的新網頁
1.9 gopher、newsgroups、Telnet、ftp、wais等非http信息
1.10 網站數據庫做得太差勁,spider一抓就宕,只好不抓
2、搜索引擎庫里有,但是未能正確索引網頁中信息
------------------------------------------------------
2.1 分詞引起誤差
2.2 圖型中的文字信息你看得懂但搜索引擎看不懂
2.3 停用詞等搜索引擎故意不索引的信息
2.4 搜索引擎對某些網頁有選擇的索引,未索引全部網頁信息
3、搜索引擎正確索引了網頁中信息,但和你用的關鍵詞不同
-------------------------------------------------------
3.1 你用的搜索關鍵詞中含有錯別字
3.2 網頁作者用了錯別字
3.3 沒有錯別字,但網頁作者用的詞匯和你的關鍵詞不同,畢竟,文字的特性,允許有n種方式表達同一種信息
3.4 簡體繁體不同編碼
http://www.laynepeng.cn/ 本文出自:億恩科技【www.laynepeng.cn】
服務器租用/服務器托管中國五強!虛擬主機域名注冊頂級提供商!15年品質保障!--億恩科技[ENKJ.COM]
|