網(wǎng)頁抓取
作者:數(shù)風(fēng)流人物
瀏覽:1214次
發(fā)布時間:2017-11-03




搜索引擎派出一個能夠在網(wǎng)上發(fā)現(xiàn)新網(wǎng)頁并抓取文件的程序,這個程序通常被稱為蜘蛛或機(jī)器人。搜索引擎蜘蛛從數(shù)據(jù)庫中已知的網(wǎng)頁開始出發(fā),就像正常用戶的瀏覽器一樣訪問這些網(wǎng)頁并抓取文件。
并且搜索引擎蜘蛛會跟蹤網(wǎng)頁上的鏈接,訪問更多網(wǎng)頁,這個過程就叫爬行。當(dāng)通過鏈接發(fā)現(xiàn)有新的網(wǎng)址時,蜘蛛將把新網(wǎng)址記錄入數(shù)據(jù)庫等待抓取。跟蹤網(wǎng)頁鏈接是搜索引擎蜘蛛發(fā)現(xiàn)新網(wǎng)址的最基本方法,所以反向鏈接成為搜索引擎優(yōu)化的最基本因素之一。沒有反向鏈接,搜索引擎連頁面都發(fā)現(xiàn)不了,就更談不上排名了。
搜索引擎蜘蛛抓取的頁面文件與用戶瀏覽器得到的完全一樣,抓取的文件存入數(shù)據(jù)庫。