SEO是研究搜索引擎的,在了解搜索引擎對關(guān)鍵詞的排名原理,才能做好SEO優(yōu)化。簡單的看下面的圖,將搜索引擎的排名過程分為三個(gè)階段:爬行抓取網(wǎng)頁信息、索引、在終端顯示排名。
一、爬行、抓取、收集數(shù)據(jù)
搜索引擎蜘蛛工作過程:種子頁面出發(fā),不斷的抓取鏈接—發(fā)現(xiàn)鏈接—抓取,同時(shí)將抓取到數(shù)據(jù)存入數(shù)據(jù)庫中。
搜索引擎蜘蛛的遵行基本的爬行策略:廣度優(yōu)先、深度優(yōu)先。
互聯(lián)網(wǎng)是由相互連接的頁面組成,在理論上,蜘蛛是可以抓取到互聯(lián)網(wǎng)上所有的頁面。但是實(shí)際運(yùn)行時(shí)受帶寬資源、時(shí)間等硬件條件的限制,搜索引擎蜘蛛只能盡全力的多發(fā)現(xiàn)頁面。為了提高爬取效率,蜘蛛會優(yōu)先從網(wǎng)站導(dǎo)航、分類目錄這樣的聚合頁面出發(fā)。在進(jìn)入網(wǎng)扎之前,蜘蛛會優(yōu)先讀取網(wǎng)站根目錄下的robots文件,只抓取robots文件允許訪問的頁面。
二、索引
蜘蛛抓取到的頁面并不能直接作為排名結(jié)果放出,需要經(jīng)過去除標(biāo)簽、提取有效內(nèi)容。這是一個(gè)極其復(fù)雜的過程,我們可以簡單的理解為蜘蛛用分詞算法去除頁面中的停止詞、重復(fù)詞,找出頁面中的特征文字;使用特定的編號順序,建立這些關(guān)鍵詞與頁面的索引,形成索引詞庫。一般來說,建立索引有兩種方式:正向索引、倒排索引,配合使用事排序結(jié)果更為精確。
三、終端顯示排名
用戶在搜索引擎內(nèi)輸入需求關(guān)鍵詞時(shí),搜索引擎會關(guān)鍵詞進(jìn)行分詞、矯正錯(cuò)、去噪等操作,最終的結(jié)果觸發(fā)數(shù)據(jù)庫中的關(guān)鍵詞索引,搜索結(jié)果按照既定的排名規(guī)則呈現(xiàn)出來。