蜘蛛陷阱是阻止蜘蛛程序爬行網(wǎng)站的障礙物,通常是那些顯示網(wǎng)頁的技術方法,目前很多瀏覽器在
設計的時候考慮過這些因素,所以可能網(wǎng)頁界面看起來非常正常,但這些蜘蛛陷阱會對蜘蛛程序造
成障礙。
如果消除這些蜘蛛陷阱,可以使蜘蛛程序收錄更多的網(wǎng)頁。蜘蛛陷阱也是以前常常使用的黑帽方式
之一,就是用一些動態(tài)網(wǎng)站代碼中,寫一個無線循環(huán)的頁面,使得蜘蛛爬進去后在這個無窮循環(huán)中
輪回收錄,這樣雖然會使得網(wǎng)站疾速進步排名,但也會隨時給我們網(wǎng)站帶來k站的影響,所以優(yōu)越
SEO建議大家最好不要使用。特別是搜索引擎頻繁調(diào)整算法的時期。
搜索引擎蜘蛛抓取結(jié)構(gòu)原理
在此優(yōu)越SEO也簡單為大家介紹幾種易導致蜘蛛陷阱的建站技術:
1、Flash動畫
有得網(wǎng)站喜歡在首頁放一個Flash動畫片頭、用戶訪問網(wǎng)站看完片頭后被轉(zhuǎn)向得真正得HTML版本得文
字網(wǎng)站首頁。但搜索引擎不能讀取Flash、一般也沒辦法從FlashIntro跟蹤到HTML版本頁面。如果
Flash效果是必需得、至少也需要在首頁加上一個通往HTML版本得鏈接。這個鏈接應該是在Flash文
件之外得HTML代碼中、搜索引擎跟蹤這個鏈接可以抓取后面得HTML版本頁面。
2、Session ID
有些網(wǎng)站使用Session ID跟蹤用戶訪問、每個用戶訪問網(wǎng)站時都會生成獨特唯一得SessionID、加在
URL中。搜索引擎蜘蛛的每一次訪問也會被當成一個新得用戶、URL中會加上一個不同得SessionID,
這樣搜索引擎蜘蛛每次來訪問時所得到得同一個頁面得URL將不一樣、后面帶著一個不一樣得
SessionID。這也是最常見得蜘蛛陷進之一。這樣就會產(chǎn)生了同一個頁面但URL不同的情況,但這種
方法會產(chǎn)生復制內(nèi)容頁面,造成了高度重復的內(nèi)容頁。
3、框架結(jié)構(gòu)
對搜索引擎來說、方位一個使用框架得網(wǎng)址所專區(qū)得HTML只包含其他HTML文件得代碼、并不包含任
何文字信息、搜索引擎根本無法判斷這個網(wǎng)址得內(nèi)容是什么。雖然蜘蛛可以跟蹤框架中所調(diào)用得其
他HTML文件、但是這些文件經(jīng)常是不完整得頁面、比如沒有導航只是正文。搜索引擎也無法判斷框
架中的頁面內(nèi)容應該數(shù)屬于主框架、還是屬于框架調(diào)用文件。
4、動態(tài)URL
動態(tài)URL指得是數(shù)據(jù)庫驅(qū)動得網(wǎng)址所生成得、帶有問號、等號及參數(shù)得網(wǎng)址。一般來說動態(tài)URL不利
于搜索引擎蜘蛛爬行、應該盡量避免。有的url會造成蜘蛛的死循環(huán)。
5、JS鏈接
由于Javascript可以創(chuàng)造出很多吸引人得視覺效果、有些網(wǎng)址喜歡使用Javascript腳本生成導航系
統(tǒng)。這也是比較嚴重得蜘蛛陷阱之一。雖然搜索引擎都在嘗試解析JS腳本、不過我們不能寄希望于
搜索引擎自己去克服困難、而要讓搜索引擎跟蹤爬行鏈接得工作盡量簡單容易。
6、要求登錄
有些網(wǎng)站內(nèi)容放在需要用戶登錄之后才能看到得會員區(qū)域、這部分內(nèi)容搜索引擎無法看到。蜘蛛不
能填寫用戶名、密碼、也不會注冊。
7、強制使用Cookies
有些網(wǎng)站為了實現(xiàn)某種功能、如記住用戶登錄信息、跟蹤用戶訪問路徑等、強制用戶使用Cookies、
用戶瀏覽器如果沒有啟用Cookies、頁面顯示不正常。搜索引擎蜘蛛就相當于一個禁用Cookies得瀏
覽器、強制使用Cookies只能造成搜索引擎蜘蛛無法正常訪問。
評論(0人參與,0條評論)
發(fā)布評論
最新評論