亚洲乱码卡一卡二卡新区公司,亚洲午夜免费福利视频,欧美性爽xyxoooo

觸屏版
全國服務(wù)熱線：0571-87205688

價(jià)格查詢批量查詢一鍵轉(zhuǎn)入

查詢

或者

立即發(fā)布需求

昵稱：匆匆阿胡

接單：1031 關(guān)注TA

達(dá)標(biāo)率 0%

博文分類

搜索引擎原理：搜索引擎的技術(shù)架構(gòu)

作者：匆匆阿胡 瀏覽：158次發(fā)布時(shí)間：2017-04-14

評(píng)論

贊0

1. 搜索引擎的分類

搜索引擎按其工作方式主要可分為三種：

分別是全文搜索引擎（Full Text Search Engine）

目錄索引類搜索引擎（Search Index/Directory）

元搜索引擎（Meta Search Engine）。

■ 全文搜索引擎
全文搜索引擎是名副其實(shí)的搜索引擎，國外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等，國內(nèi)著名的有百度（Baidu）。它們都是通過從互聯(lián)網(wǎng)上提取的各個(gè)網(wǎng)站的信息（以網(wǎng)頁文字為主）而建立的數(shù)據(jù)庫中，檢索與用戶查詢條件匹配的相關(guān)記錄，然后按一定的排列順序?qū)⒔Y(jié)果返回給用戶，因此他們是真正的搜索引擎。
從搜索結(jié)果來源的角度，全文搜索引擎又可細(xì)分為兩種，一種是擁有自己的檢索程序（Indexer），俗稱“蜘蛛”（Spider）程序或“機(jī)器人”（Robot）程序，并自建網(wǎng)頁數(shù)據(jù)庫，搜索結(jié)果直接從自身的數(shù)據(jù)庫中調(diào)用，如上面提到的7家引擎；另一種則是租用其他引擎的數(shù)據(jù)庫，并按自定的格式排列搜索結(jié)果，如Lycos引擎。
在搜索引擎分類部分提到過全文搜索引擎從網(wǎng)站提取信息建立網(wǎng)頁數(shù)據(jù)庫的概念。搜索引擎的自動(dòng)信息搜集功能分兩種。一種是定期搜索，即每隔一段時(shí)間（比如Google一般是28天），蜘蛛搜索引擎搜索引擎主動(dòng)派出“蜘蛛”程序，對(duì)一定IP地址范圍內(nèi)的互聯(lián)網(wǎng)站進(jìn)行檢索，一旦發(fā)現(xiàn)新的網(wǎng)站，它會(huì)自動(dòng)提取網(wǎng)站的信息和網(wǎng)址加入自己的數(shù)據(jù)庫。另一種是提交網(wǎng)站搜索，即網(wǎng)站擁有者主動(dòng)向搜索引擎提交網(wǎng)址，它在一定時(shí)間內(nèi)（2天到數(shù)月不等）定向向你的網(wǎng)站派出“蜘蛛”程序，掃描你的網(wǎng)站并將有關(guān)信息存入數(shù)據(jù)庫，以備用戶查詢。由于近年來搜索引擎索引規(guī)則發(fā)生很大變化，主動(dòng)提交網(wǎng)址并不保證你的網(wǎng)站能進(jìn)入搜索引擎數(shù)據(jù)庫，目前最好的辦法是多獲得一些外部鏈接，讓搜索引擎有更多機(jī)會(huì)找到你并自動(dòng)將你的網(wǎng)站收錄。
當(dāng)用戶以關(guān)鍵詞查找信息時(shí)，搜索引擎會(huì)在數(shù)據(jù)庫中進(jìn)行搜尋，如果找到與用戶要求內(nèi)容相符的網(wǎng)站，便采用特殊的算法——通常根據(jù)網(wǎng)頁中關(guān)鍵詞的匹配程度、出現(xiàn)的位置、頻次、鏈接質(zhì)量——計(jì)算出各網(wǎng)頁的相關(guān)度及排名等級(jí)，然后根據(jù)關(guān)聯(lián)度高低，按順序?qū)⑦@些網(wǎng)頁鏈接返回給用戶。這種引擎的特點(diǎn)是搜全率比較高。

■ 目錄索引
雖然有搜索功能，但嚴(yán)格意義上不能稱為真正的搜索引擎，只是按目錄分類的網(wǎng)站鏈接列表而已。（更簡單說就是網(wǎng)址導(dǎo)航網(wǎng)站）

用戶完全可以按照分類目錄找到所需要的信息，不依靠關(guān)鍵詞（Keywords）進(jìn)行查詢。目錄索引中最具代表性的莫過于大名鼎鼎的Yahoo、新浪分類目錄搜索。
與全文搜索引擎相比，目錄索引有許多不同之處。
首先，搜索引擎屬于自動(dòng)網(wǎng)站檢索，而目錄索引則完全依賴手工操作。用戶提交網(wǎng)站后，目錄編輯人員會(huì)親自瀏覽你的網(wǎng)站，然后根據(jù)一套自定的評(píng)判標(biāo)準(zhǔn)甚至編輯人員的主觀印象，決定是否接納你的網(wǎng)站。目錄索引其次，搜索引擎收錄網(wǎng)站時(shí)，只要網(wǎng)站本身沒有違反有關(guān)的規(guī)則，一般都能登錄成功。而目錄索引對(duì)網(wǎng)站的要求則高得多，有時(shí)即使登錄多次也不一定成功。尤其象Yahoo這樣的超級(jí)索引，登錄更是困難。
此外，在登錄搜索引擎時(shí)，我們一般不用考慮網(wǎng)站的分類問題，而登錄目錄索引時(shí)則必須將網(wǎng)站放在一個(gè)最合適的目錄（Directory）。
最后，搜索引擎中各網(wǎng)站的有關(guān)信息都是從用戶網(wǎng)頁中自動(dòng)提取的，所以用戶的角度看，我們擁有更多的自主權(quán)；而目錄索引則要求必須手工另外填寫網(wǎng)站信息，而且還有各種各樣的限制。更有甚者，如果工作人員認(rèn)為你提交網(wǎng)站的目錄、網(wǎng)站信息不合適，他可以隨時(shí)對(duì)其進(jìn)行調(diào)整，當(dāng)然事先是不會(huì)和你商量的。
目錄索引，顧名思義就是將網(wǎng)站分門別類地存放在相應(yīng)的目錄中，因此用戶在查詢信息時(shí)，可選擇關(guān)鍵詞搜索，也可按分類目錄逐層查找。如以關(guān)鍵詞搜索，返回的結(jié)果跟搜索引擎一樣，也是根據(jù)信息關(guān)聯(lián)程度排列網(wǎng)站，只不過其中人為因素要多一些。如果按分層目錄查找，某一目錄中網(wǎng)站的排名則是由標(biāo)題字母的先后順序決定（也有例外）。
目前，搜索引擎與目錄索引有相互融合滲透的趨勢(shì)。原來一些純粹的全文搜索引擎現(xiàn)在也提供目錄搜索，如Google就借用Open Directory目錄提供分類查詢。而象 Yahoo! 這些老牌目錄索引則通過與Google等搜索引擎合作擴(kuò)大搜索范圍（注）。在默認(rèn)搜索模式下，一些目錄類搜索引擎首先返回的是自己目錄中匹配的網(wǎng)站，如中國的搜狐、新浪、網(wǎng)易等；而另外一些則默認(rèn)的是網(wǎng)頁搜索，如Yahoo。這種引擎的特點(diǎn)是找的準(zhǔn)確率比較高。

■ 元搜索引擎 (META Search Engine)
元搜索引擎在接受用戶查詢請(qǐng)求時(shí)，同時(shí)在其他多個(gè)引擎上進(jìn)行搜索，并將結(jié)果返回給用戶。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等（元搜索引擎列表），中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索結(jié)果排列方面，有的直接按來源引擎排列搜索結(jié)果，如Dogpile，有的則按自定的規(guī)則將結(jié)果重新排列組合，如Vivisimo。

除上述三大類引擎外，還有以下幾種非主流形式：

垂直搜索引擎
垂直搜索引擎為2006年后逐步興起的一類搜索引擎。不同于通用的網(wǎng)頁搜索引擎，垂直搜索專注于特定的搜索領(lǐng)域和搜索需求（例如：機(jī)票搜索、旅游搜索、生活搜索、小說搜索、視頻搜索等等），如國內(nèi)的酷訊，去哪兒，攜程等。在其特定的搜索領(lǐng)域有更好的用戶體驗(yàn)。相比通用搜索動(dòng)輒數(shù)千臺(tái)檢索服務(wù)器，垂直搜索需要的硬件成本低、用戶需求特定、查詢的方式多樣。
集合式搜索引擎
集合式搜索引擎：該搜索引擎類似元搜索引擎，區(qū)別在于它并非同時(shí)調(diào)用多個(gè)搜索引擎進(jìn)行搜索，而是由用戶從提供的若干搜索引擎中選擇，如HotBot在2002年底推出的搜索引擎。
門戶搜索引擎
門戶搜索引擎：AOLSearch、MSNSearch等雖然提供搜索服務(wù)，但自身既沒有分類目錄也沒有網(wǎng)頁數(shù)據(jù)庫，其搜索結(jié)果完全來自其他搜索引擎。
免費(fèi)鏈接列表
免費(fèi)鏈接列表（Free For All Links簡稱FFA）：一般只簡單地滾動(dòng)鏈接條目，少部分有簡單的分類目錄，不過規(guī)模要比Yahoo！等目錄索引小很多。

2. 搜索引擎的技術(shù)架構(gòu)

優(yōu)秀的搜索引擎需要復(fù)雜的架構(gòu)和算法，以此來支撐對(duì)海量數(shù)據(jù)的獲取、存儲(chǔ)，以及對(duì)用戶查詢的快速而準(zhǔn)確地響應(yīng)。

從架構(gòu)層面，搜索引擎需要能夠?qū)σ园賰|計(jì)的海量網(wǎng)頁進(jìn)行獲取、存儲(chǔ)、處理的能力，同時(shí)要保證搜索結(jié)果的質(zhì)量。

如何獲取、存儲(chǔ)并計(jì)算如此海量的數(shù)據(jù)？

如何快速響應(yīng)用戶的査詢？

如何使得搜索結(jié)果能夠滿足用戶的信息需求？

這些都是搜索引擎面對(duì)的技術(shù)挑戰(zhàn)。下圖是一個(gè)通用的搜索引笨架構(gòu)示意圖：

搜索引擎架構(gòu)

搜索引擎由很多技術(shù)模塊構(gòu)成，各自負(fù)責(zé)整體功能的一部分，相互紀(jì)合形成了完善的整體架構(gòu)。

抓取網(wǎng)頁:

搜索引擎的信息源來自于互聯(lián)網(wǎng)網(wǎng)頁，通過網(wǎng)絡(luò)爬蟲將互聯(lián)網(wǎng)的信息獲取到本地. 因為互聯(lián)網(wǎng)頁面中有相當(dāng)大比例的內(nèi)容是完全相同或者近似重復(fù)的，"網(wǎng)頁去重"模塊會(huì)對(duì)此做出檢測(cè)，并去除重復(fù)內(nèi)容。

建立索引：

抓取到網(wǎng)頁后，搜索引擎會(huì)對(duì)網(wǎng)頁進(jìn)行解析，抽取出網(wǎng)頁主體內(nèi)容和相關(guān)信息，（包括網(wǎng)頁所在URL、編碼類型、頁面內(nèi)容包含的關(guān)鍵詞、關(guān)鍵詞位置、生成時(shí)間、大小、與其它網(wǎng)頁的鏈接關(guān)系等）。根據(jù)一定的相關(guān)度算法進(jìn)行大量復(fù)雜計(jì)算，得到每一個(gè)網(wǎng)頁針對(duì)頁面內(nèi)容中及超鏈中每一個(gè)關(guān)鍵詞的相關(guān)度（或重要性），然后用這些相關(guān)信息建立網(wǎng)頁建立索引。為了加快響應(yīng)用戶査詢的速度，網(wǎng)頁內(nèi)容通過"倒排索引"這種高效查詢數(shù)據(jù)
結(jié)構(gòu)來保存，而網(wǎng)頁之間的鏈接關(guān)系也會(huì)予以保存。之所以要保存鏈接關(guān)系，是因?yàn)檫@種關(guān)系在網(wǎng)F相關(guān)性排序階段是可利用的，通過"鏈接分析"可以判斷頁面的相對(duì)重要性，對(duì)于為用戶提供準(zhǔn)確的搜索結(jié)果幫助很大。

由于網(wǎng)頁數(shù)量太多，搜索引擎不僅需要保存網(wǎng)頁原始信息，還要存儲(chǔ)一些中間的處理結(jié)果使用單臺(tái)或者少量的機(jī)器明顯是不現(xiàn)實(shí)的。Google等商業(yè)搜索引擎為此開發(fā)了一整套云存儲(chǔ)與云計(jì)算平臺(tái)，使用數(shù)以萬計(jì)的普通廉價(jià)PC搭建了海量信息的可靠存儲(chǔ)與計(jì)算架構(gòu)，以此作為搜索引擎及其相關(guān)應(yīng)用的基礎(chǔ)支撐。優(yōu)秀的云存儲(chǔ)與云計(jì)算平臺(tái)已經(jīng)成為大型商業(yè)搜索引擎的核心
競(jìng)爭力。上面所述是搜索引擎如何獲取并存儲(chǔ)海量的網(wǎng)頁相關(guān)信息，這些功能因?yàn)椴恍枰獙?shí)時(shí)計(jì) 算，所以可以被看做是搜索弓I擎的后臺(tái)計(jì)算系統(tǒng)。

查詢?cè)~分析

搜索引擎的最重要目的是為用戶提供準(zhǔn)確全面的搜索結(jié)果，如何響應(yīng)用戶査詢并實(shí)時(shí)地提供準(zhǔn)確結(jié)果構(gòu)成了搜索引擎前臺(tái)計(jì)算系統(tǒng)。當(dāng)搜索引擎接收到用戶的査詢?cè)~后，首先需要對(duì)查詢?cè)~進(jìn)行分析，希望能夠結(jié)合查詢?cè)~和用戶信息來正確推導(dǎo)用戶的真正搜索意圖。在此之后，首先在緩存中査找，搜索引擎的緩存系
統(tǒng)存儲(chǔ)了不同的查詢意圖對(duì)應(yīng)的搜索結(jié)果，如果能夠在緩存系統(tǒng)找到滿足用戶需求的信息，則可以直接將搜索結(jié)果返回給用戶，這樣既省掉了重復(fù)計(jì)算對(duì)資源的消耗，又加快了響應(yīng)速度;

搜索結(jié)果排序

如果保存在緩存的信息無法滿足用戶需求，搜索引擎需要調(diào)用"網(wǎng)頁排序"?？旃δ埽鶕?jù)用戶的査詢實(shí)時(shí)計(jì)算哪些網(wǎng)頁是滿足用戶信息需求的，并排序輸出作為搜索結(jié)果。而網(wǎng)頁排序最重要的兩個(gè)參考因素中，一個(gè)是內(nèi)容相似性因素，即哪些網(wǎng)頁是和用戶查詢密切相關(guān)的；另外一個(gè)是網(wǎng)頁重要性因素，即哪些網(wǎng)頁是質(zhì)量較好或者相對(duì)重要的，這點(diǎn)往往可以從鏈接分析的結(jié)果獲得。結(jié)合以上兩個(gè)考慮因素，就可以對(duì)網(wǎng)頁進(jìn)行排序，作為用戶查詢的搜索結(jié)果。

上一篇：符合百度SEO要求的網(wǎng)站內(nèi)容建設(shè)指南3:用戶維護(hù) 下一篇：影響搜索結(jié)果排序的因素

評(píng)論(2人參與，2條評(píng)論)

發(fā)布評(píng)論

亚洲无人区一区二区三区_农村玉米地少妇野战亚洲_国产欧美日韩VA另类在线播放_免费人成视频网站在线_国产在线精品一区二区高清不卡

博文分類

搜索引擎原理：搜索引擎的技術(shù)架構(gòu)

1. 搜索引擎的分類

2. 搜索引擎的技術(shù)架構(gòu)

抓取網(wǎng)頁:

搜索結(jié)果排序

猜你喜歡

評(píng)論(2人參與，2條評(píng)論)

最新評(píng)論

亚洲无人区一区二区三区_农村玉米地少妇野战亚洲_国产欧美日韩VA另类在线播放_免费人成视频网站在线_国产在线精品一区二区高清不卡

博文分類

搜索引擎原理：搜索引擎的技術(shù)架構(gòu)

1. 搜索引擎的分類

2. 搜索引擎的技術(shù)架構(gòu)

抓取網(wǎng)頁:

搜索結(jié)果排序

猜你喜歡

評(píng)論(2人參與，2條評(píng)論)

最新評(píng)論

評(píng)論(2人參與，2條評(píng)論)