觸屏版
全國服務(wù)熱線:0571-87205688
登錄
注冊(cè)
客戶中心
關(guān)注云客
搜索引擎按其工作方式主要可分為三種:
分別是全文搜索引擎(Full Text Search Engine)
目錄索引類搜索引擎(Search Index/Directory)
元搜索引擎(Meta Search Engine)。
■ 全文搜索引擎
全文搜索引擎是名副其實(shí)的搜索引擎,國外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,國內(nèi)著名的有百度(Baidu)。它們都是通過從互聯(lián)網(wǎng)上提取的各個(gè)網(wǎng)站的信息(以網(wǎng)頁文字為主)而建立的數(shù)據(jù)庫中,檢索與用戶查詢條件匹配的相關(guān)記錄,然后按一定的排列順序?qū)⒔Y(jié)果返回給用戶,因此他們是真正的搜索引擎。
從搜索結(jié)果來源的角度,全文搜索引擎又可細(xì)分為兩種,一種是擁有自己的檢索程序(Indexer),俗稱“蜘蛛”(Spider)程序或“機(jī)器人”(Robot)程序,并自建網(wǎng)頁數(shù)據(jù)庫,搜索結(jié)果直接從自身的數(shù)據(jù)庫中調(diào)用,如上面提到的7家引擎;另一種則是租用其他引擎的數(shù)據(jù)庫,并按自定的格式排列搜索結(jié)果,如Lycos引擎。
在搜索引擎分類部分提到過全文搜索引擎從網(wǎng)站提取信息建立網(wǎng)頁數(shù)據(jù)庫的概念。搜索引擎的自動(dòng)信息搜集功能分兩種。一種是定期搜索,即每隔一段時(shí)間(比如Google一般是28天), 蜘蛛搜索引擎搜索引擎主動(dòng)派出“蜘蛛”程序,對(duì)一定IP地址范圍內(nèi)的互聯(lián)網(wǎng)站進(jìn)行檢索,一旦發(fā)現(xiàn)新的網(wǎng)站,它會(huì)自動(dòng)提取網(wǎng)站的信息和網(wǎng)址加入自己的數(shù)據(jù)庫。另一種是提交網(wǎng)站搜索,即網(wǎng)站擁有者主動(dòng)向搜索引擎提交網(wǎng)址,它在一定時(shí)間內(nèi)(2天到數(shù)月不等)定向向你的網(wǎng)站派出“蜘蛛”程序,掃描你的網(wǎng)站并將有關(guān)信息存入數(shù)據(jù)庫,以備用戶查詢。由于近年來搜索引擎索引規(guī)則發(fā)生很大變化,主動(dòng)提交網(wǎng)址并不保證你的網(wǎng)站能進(jìn)入搜索引擎數(shù)據(jù)庫,目前最好的辦法是多獲得一些外部鏈接,讓搜索引擎有更多機(jī)會(huì)找到你并自動(dòng)將你的網(wǎng)站收錄。
當(dāng)用戶以關(guān)鍵詞查找信息時(shí),搜索引擎會(huì)在數(shù)據(jù)庫中進(jìn)行搜尋,如果找到與用戶要求內(nèi)容相符的網(wǎng)站,便采用特殊的算法——通常根據(jù)網(wǎng)頁中關(guān)鍵詞的匹配程度、出現(xiàn)的位置、頻次、鏈接質(zhì)量——計(jì)算出各網(wǎng)頁的相關(guān)度及排名等級(jí),然后根據(jù)關(guān)聯(lián)度高低,按順序?qū)⑦@些網(wǎng)頁鏈接返回給用戶。這種引擎的特點(diǎn)是搜全率比較高。
■ 目錄索引
雖然有搜索功能,但嚴(yán)格意義上不能稱為真正的搜索引擎,只是按目錄分類的網(wǎng)站鏈接列表而已。(更簡單說就是網(wǎng)址導(dǎo)航網(wǎng)站)
用戶完全可以按照分類目錄找到所需要的信息,不依靠關(guān)鍵詞(Keywords)進(jìn)行查詢。目錄索引中最具代表性的莫過于大名鼎鼎的Yahoo、新浪分類目錄搜索。
與全文搜索引擎相比,目錄索引有許多不同之處。
首先,搜索引擎屬于自動(dòng)網(wǎng)站檢索,而目錄索引則完全依賴手工操作。用戶提交網(wǎng)站后,目錄編輯人員會(huì)親自瀏覽你的網(wǎng)站,然后根據(jù)一套自定的評(píng)判標(biāo)準(zhǔn)甚至編輯人員的主觀印象,決定是否接納你的網(wǎng)站。 目錄索引其次,搜索引擎收錄網(wǎng)站時(shí),只要網(wǎng)站本身沒有違反有關(guān)的規(guī)則,一般都能登錄成功。而目錄索引對(duì)網(wǎng)站的要求則高得多,有時(shí)即使登錄多次也不一定成功。尤其象Yahoo這樣的超級(jí)索引,登錄更是困難。
此外,在登錄搜索引擎時(shí),我們一般不用考慮網(wǎng)站的分類問題,而登錄目錄索引時(shí)則必須將網(wǎng)站放在一個(gè)最合適的目錄(Directory)。
最后,搜索引擎中各網(wǎng)站的有關(guān)信息都是從用戶網(wǎng)頁中自動(dòng)提取的,所以用戶的角度看,我們擁有更多的自主權(quán);而目錄索引則要求必須手工另外填寫網(wǎng)站信息,而且還有各種各樣的限制。更有甚者,如果工作人員認(rèn)為你提交網(wǎng)站的目錄、網(wǎng)站信息不合適,他可以隨時(shí)對(duì)其進(jìn)行調(diào)整,當(dāng)然事先是不會(huì)和你商量的。
目錄索引,顧名思義就是將網(wǎng)站分門別類地存放在相應(yīng)的目錄中,因此用戶在查詢信息時(shí),可選擇關(guān)鍵詞搜索,也可按分類目錄逐層查找。如以關(guān)鍵詞搜索,返回的結(jié)果跟搜索引擎一樣,也是根據(jù)信息關(guān)聯(lián)程度排列網(wǎng)站,只不過其中人為因素要多一些。如果按分層目錄查找,某一目錄中網(wǎng)站的排名則是由標(biāo)題字母的先后順序決定(也有例外)。
目前,搜索引擎與目錄索引有相互融合滲透的趨勢(shì)。原來一些純粹的全文搜索引擎現(xiàn)在也提供目錄搜索,如Google就借用Open Directory目錄提供分類查詢。而象 Yahoo! 這些老牌目錄索引則通過與Google等搜索引擎合作擴(kuò)大搜索范圍(注)。在默認(rèn)搜索模式下,一些目錄類搜索引擎首先返回的是自己目錄中匹配的網(wǎng)站,如中國的搜狐、新浪、網(wǎng)易等;而另外一些則默認(rèn)的是網(wǎng)頁搜索,如Yahoo。這種引擎的特點(diǎn)是找的準(zhǔn)確率比較高。
■ 元搜索引擎 (META Search Engine)
元搜索引擎在接受用戶查詢請(qǐng)求時(shí),同時(shí)在其他多個(gè)引擎上進(jìn)行搜索,并將結(jié)果返回給用戶。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索結(jié)果排列方面,有的直接按來源引擎排列搜索結(jié)果,如Dogpile,有的則按自定的規(guī)則將結(jié)果重新排列組合,如Vivisimo。
除上述三大類引擎外,還有以下幾種非主流形式:
垂直搜索引擎
垂直搜索引擎為2006年后逐步興起的一類搜索引擎。不同于通用的網(wǎng)頁搜索引擎,垂直搜索專注于特定的搜索領(lǐng)域和搜索需求(例如:機(jī)票搜索、旅游搜索、生活搜索、小說搜索、視頻搜索等等),如國內(nèi)的酷訊,去哪兒,攜程等。在其特定的搜索領(lǐng)域有更好的用戶體驗(yàn)。相比通用搜索動(dòng)輒數(shù)千臺(tái)檢索服務(wù)器,垂直搜索需要的硬件成本低、用戶需求特定、查詢的方式多樣。
集合式搜索引擎
集合式搜索引擎:該搜索引擎類似元搜索引擎,區(qū)別在于它并非同時(shí)調(diào)用多個(gè)搜索引擎進(jìn)行搜索,而是由用戶從提供的若干搜索引擎中選擇,如HotBot在2002年底推出的搜索引擎。
門戶搜索引擎
門戶搜索引擎:AOLSearch、MSNSearch等雖然提供搜索服務(wù),但自身既沒有分類目錄也沒有網(wǎng)頁數(shù)據(jù)庫,其搜索結(jié)果完全來自其他搜索引擎。
免費(fèi)鏈接列表
免費(fèi)鏈接列表(Free For All Links簡稱FFA):一般只簡單地滾動(dòng)鏈接條目,少部分有簡單的分類目錄,不過規(guī)模要比Yahoo!等目錄索引小很多。
優(yōu)秀的搜索引擎需要復(fù)雜的架構(gòu)和算法,以 此來支撐對(duì)海量數(shù)據(jù)的獲取、存儲(chǔ),以及對(duì)用戶查詢的快速而準(zhǔn)確地響應(yīng)。
從架構(gòu)層面,搜索引擎需要能夠?qū)σ园賰|計(jì)的海量網(wǎng)頁進(jìn)行獲取、存儲(chǔ)、處理的能力,同 時(shí)要保證搜索結(jié)果的質(zhì)量。
如何獲取、存儲(chǔ)并計(jì)算如此海量的數(shù)據(jù)?
如何快速響應(yīng)用戶的査 詢?
如何使得搜索結(jié)果能夠滿足用戶的信息需求?
這些都是搜索引擎面對(duì)的技術(shù)挑戰(zhàn)。 下圖是一個(gè)通用的搜索引笨架構(gòu)示意圖:
搜索引擎架構(gòu)
搜索引擎由很多技術(shù)模塊構(gòu)成,各自負(fù)責(zé)整體 功能的一部分,相互紀(jì)合形成了完善的整體架構(gòu)。
搜索引擎的信息源來自于互聯(lián)網(wǎng)網(wǎng)頁,通過網(wǎng)絡(luò)爬蟲將互聯(lián)網(wǎng)的信息獲取到本地. 因 為互聯(lián)網(wǎng)頁面中有相當(dāng)大比例的內(nèi)容是完全相同或者近似重復(fù)的,"網(wǎng)頁去重"模塊會(huì)對(duì)此做 出檢測(cè),并去除重復(fù)內(nèi)容。
建立索引:
抓取到網(wǎng)頁后,搜索引擎會(huì)對(duì)網(wǎng)頁進(jìn)行解析,抽取出網(wǎng)頁主體內(nèi)容和相關(guān)信息,(包括網(wǎng)頁所在URL、編碼類型、頁面內(nèi)容包含的關(guān)鍵詞、關(guān)鍵詞位置、生成時(shí)間、大小、與其它網(wǎng)頁的鏈接關(guān)系等)。根據(jù)一定的相關(guān)度算法進(jìn)行大量復(fù)雜計(jì)算,得到每一個(gè)網(wǎng)頁針對(duì)頁面內(nèi)容中及超鏈中每一個(gè)關(guān)鍵詞的相關(guān)度(或重要性),然后用這些相關(guān)信息建立網(wǎng)頁建立索引。為了加快響應(yīng)用戶査詢的速度,網(wǎng)頁內(nèi)容通過"倒排索引"這種高效查詢數(shù)據(jù)
結(jié)構(gòu)來保存,而網(wǎng)頁之間的鏈接關(guān)系也會(huì)予以保存。之所以要保存鏈接關(guān)系,是因?yàn)檫@種關(guān)系 在網(wǎng)F相關(guān)性排序階段是可利用的,通過"鏈接分析"可以判斷頁面的相對(duì)重要性,對(duì)于為用 戶提供準(zhǔn)確的搜索結(jié)果幫助很大。
由于網(wǎng)頁數(shù)量太多,搜索引擎不僅需要保存網(wǎng)頁原始信息,還要存儲(chǔ)一些中間的處理結(jié)果 使用單臺(tái)或者少量的機(jī)器明顯是不現(xiàn)實(shí)的。Google等商業(yè)搜索引擎為此開發(fā)了一整套云存儲(chǔ)與 云計(jì)算平臺(tái),使用數(shù)以萬計(jì)的普通廉價(jià)PC搭建了海量信息的可靠存儲(chǔ)與計(jì)算架構(gòu),以此作為搜索 引擎及其相關(guān)應(yīng)用的基礎(chǔ)支撐。優(yōu)秀的云存儲(chǔ)與云計(jì)算平臺(tái)已經(jīng)成為大型商業(yè)搜索引擎的核心
競(jìng)爭力。 上面所述是搜索引擎如何獲取并存儲(chǔ)海量的網(wǎng)頁相關(guān)信息,這些功能因?yàn)椴恍枰獙?shí)時(shí)計(jì) 算,所以可以被看做是搜索弓I擎的后臺(tái)計(jì)算系統(tǒng)。
查詢?cè)~分析
搜索引擎的最重要目的是為用戶提供準(zhǔn)確全 面的搜索結(jié)果,如何響應(yīng)用戶査詢并實(shí)時(shí)地提供準(zhǔn)確結(jié)果構(gòu)成了搜索引擎前臺(tái)計(jì)算系統(tǒng)。 當(dāng)搜索引擎接收到用戶的査詢?cè)~后,首先需要對(duì)查詢?cè)~進(jìn)行分析,希望能夠結(jié)合查詢?cè)~和 用戶信息來正確推導(dǎo)用戶的真正搜索意圖。在此之后,首先在緩存中査找,搜索引擎的緩存系
統(tǒng)存儲(chǔ)了不同的查詢意圖對(duì)應(yīng)的搜索結(jié)果,如果能夠在緩存系統(tǒng)找到滿足用戶需求的信息,則 可以直接將搜索結(jié)果返回給用戶,這樣既省掉了重復(fù)計(jì)算對(duì)資源的消耗,又加快了響應(yīng)速度;
如果保存在緩存的信息無法滿足用戶需求,搜索引擎需要調(diào)用"網(wǎng)頁排序"??旃δ埽鶕?jù)用 戶的査詢實(shí)時(shí)計(jì)算哪些網(wǎng)頁是滿足用戶信息需求的,并排序輸出作為搜索結(jié)果。而網(wǎng)頁排序最 重要的兩個(gè)參考因素中,一個(gè)是內(nèi)容相似性因素,即哪些網(wǎng)頁是和用戶查詢密切相關(guān)的;另外 一個(gè)是網(wǎng)頁重要性因素,即哪些網(wǎng)頁是質(zhì)量較好或者相對(duì)重要的,這點(diǎn)往往可以從鏈接分析的 結(jié)果獲得。結(jié)合以上兩個(gè)考慮因素,就可以對(duì)網(wǎng)頁進(jìn)行排序,作為用戶查詢的搜索結(jié)果。
評(píng)論(2人參與,2條評(píng)論)
發(fā)布評(píng)論
最新評(píng)論
確定回復(fù)
云客119519
長期有單需做,麻煩加我扣2025551354確定回復(fù)