搜索引擎要“知道”網(wǎng)上的新生事物,就得派“人”出去收集。每天部有新的網(wǎng)站,每天都有新的內(nèi)容,而且這些新的內(nèi)容是爆炸式的靠人工不可能完成收集任務(wù),所以搜索引擎的發(fā)明者就設(shè)計了一個計算機程序來執(zhí)行這個任務(wù),而這個計算機程序被人們稱為“探測器”。
探測器有很多叫法,如Crawler(爬行器)、Spider(蜘蛛)、Robot(機器人)。這些叫法形象地描繪了搜索引擎派出的蜘蛛機器人爬行在互聯(lián)網(wǎng)上探測新信息的情景,Google的探測器叫做Googlebot,百度的探測器叫做Baiduspider,Yahoo的探測器叫做Slurp。無論名字是什么,它們都是人們編制的計算機程序。它們不分晝夜地訪問各個網(wǎng)站,取回網(wǎng)站的內(nèi)容、標(biāo)簽、圖片等,然后依照搜索引擎的算法給定制索引。
搜索引擎的工作過程可簡略分為以下3個階段:
(1)爬行抓取:搜索引擎的蜘蛛程序通過鏈接爬行到網(wǎng)站,獲得網(wǎng)站頁面的HTML代碼并存人數(shù)據(jù)庫。
(2)索引處理:蜘蛛程序把抓取的頁面數(shù)據(jù)中的文字、圖片等信息進(jìn)行索引處理,為排名做準(zhǔn)備。
(3)排名:用戶輸入關(guān)鍵詞后,搜索引擎的排名算法調(diào)用索引數(shù)據(jù)庫中的信息計算并處理數(shù)據(jù),然后按照相應(yīng)的格式生成結(jié)果頁面。
網(wǎng)站推廣知識之:爬行抓取
爬行抓取是搜索引擎工作的第一步,主要完成數(shù)據(jù)收集工作,如圖6-1所示。
網(wǎng)站推廣知識之示意圖6-1搜索引擎工作原理。
搜索引擎蜘蛛程序通過網(wǎng)頁的鏈接地址來尋找網(wǎng)頁,從網(wǎng)站的某個頁面(通常是首頁)開始,讀取網(wǎng)頁的內(nèi)容,找到網(wǎng)頁中的其他鏈接地址,然后通過這些鏈接地址尋找下個網(wǎng)頁,一直這樣循環(huán)下去,直到把這個網(wǎng)站的所有網(wǎng)頁都抓取為止。如果網(wǎng)站的內(nèi)容質(zhì)量不高或者有大量重復(fù)信息,蜘蛛程序就沒有“耐心”抓取網(wǎng)站里的所有信息了。
如果把整個互聯(lián)網(wǎng)當(dāng)成個網(wǎng)站,那么蜘蛛程序就可以用這個原理把互聯(lián)網(wǎng)上所有的網(wǎng)頁都抓取下來。但是,在實際的工作中,搜索引擎蜘蛛程序是不能抓取所有的互聯(lián)網(wǎng)信息的,畢竟蜘蛛程序的帶寬資源、時間都不是無限的,它不可能“爬”到所有的頁面。受到這些因素的制約,搜索引擎只能爬行和收錄互聯(lián)網(wǎng)信息的小部分。
網(wǎng)站推廣知識之索引處理
抓取網(wǎng)頁后,由分析索引系統(tǒng)程序?qū)κ占貋淼木W(wǎng)頁進(jìn)行分析,提取相關(guān)信息(包括網(wǎng)頁所在URL、編碼類型、頁面內(nèi)容包含的所有關(guān)鍵詞、關(guān)鍵詞的位置、生成時間、大小、與其他網(wǎng)頁的鏈接關(guān)系等).根據(jù)定的相關(guān)度算法進(jìn)行大量復(fù)雜的計算,得到每個網(wǎng)頁針對頁面文字及超鏈中每個關(guān)鍵詞的相關(guān)度(或重要性),然后用這些信息建立網(wǎng)頁索引數(shù)據(jù)庫。
任何搜索引擎在進(jìn)行內(nèi)容索引的時候都是以文字為基礎(chǔ)的。搜索引擎在抓取頁面的時候,并非只訪問用戶能看到的文字信息,還包含大量的H TIVIL代碼、css代碼、JavaScript代碼等對排名沒有作用的內(nèi)容。抓取頁面之后,搜索引擎就要處理這些信息,從HTivIL代碼中分離出標(biāo)簽、代碼,提取有利于網(wǎng)站排名處理的頁面文字內(nèi)容。一段HTML代碼如圖6-2所示。
大串字符中,除去這些HTML代碼后.剩下的文字只有“英國虛擬主機商HostiPlus發(fā)布中文站”一行。通過這個例子可以看出,搜索引擎在抓取頁面代碼后,要取出有用的文字信息,以方便接下來的排名工作。
網(wǎng)站推廣排名
建立網(wǎng)頁索引數(shù)據(jù)庫后.當(dāng)用戶輸入關(guān)鍵詞并進(jìn)行搜索時,搜索系統(tǒng)程序會從問頁索引數(shù)據(jù)庫中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁。因為所有相關(guān)網(wǎng)頁針對該關(guān)鍵同的相關(guān)度早已算好,所以只需按照相關(guān)度數(shù)值排序,相關(guān)度越高,排名越靠前。影響相關(guān)性的因素包含如下幾個方面
.關(guān)鍵詞出現(xiàn)的位置:頁面關(guān)鍵詞出現(xiàn)的位置會被搜索引擎抓取并記錄到索引庫中。會對搜索引擎排名造成影響的關(guān)鍵詞位置包括標(biāo)題<title>標(biāo)簽、<Hl>標(biāo)簽等。
.關(guān)鍵詞出現(xiàn)頻率:一般來說,關(guān)鍵詞在頁面中出現(xiàn)的頻率越高,密度越大,說明頁面與搜索詞的相關(guān)性越高,那么網(wǎng)頁的排名也較好。
但是,如果刻意造成頁面關(guān)鍵詞堆積,頁面不僅不會有較好的排名,而且會受到搜索引擎的“懲罰”。所以,在進(jìn)行頁面內(nèi)容優(yōu)化的時候,要注意關(guān)鍵詞的密度、頻率都不要太大。
.頁面的鏈接也影響著關(guān)鍵詞的相關(guān)性。如果頁面中有較多的搜索詞為錨文本鏈接,就說明頁面的相關(guān)性比較強,這會對搜索引擎相關(guān)性的計算產(chǎn)生影響。
相關(guān)性計算完畢,搜索引擎可能還有些過濾算法用于對排名進(jìn)行調(diào)整。雖然這些過濾算法包含對頁面作弊嫌疑的判定,相關(guān)性較高的頁面理應(yīng)排在搜索結(jié)果的前面,但是搜索引擎的過濾算法可在最后的排名中把網(wǎng)站的排名調(diào)整到后面去。
經(jīng)過相關(guān)性算法、過濾算法之后,所有的關(guān)鍵詞排名都確定了,排名程序調(diào)用原始頁面的信息,并把這些信息在搜索結(jié)果中顯示出來。網(wǎng)建設(shè)公司本文關(guān)于了解搜索引擎工作原理對網(wǎng)站關(guān)鍵詞排名的重要性就分享到這里,希望能給您的工作有所幫助。謝謝關(guān)注,博納網(wǎng)絡(luò)編輯整理。