石家莊網站建設:蜘蛛站點爬行規(guī)律
來源:gafsjz.com 作者:筆者小丹 時間:2019-07-26 10:58:35 瀏覽:2618次
網站收錄之于網站優(yōu)化而言是基礎,多數情況下我們可以通過網站收錄的多少就可以基本判斷網站的數據情況,這也就是為什么我們會想盡辦法引蜘蛛進行網站爬行來增加網站收錄。說到這里,想必有的朋友看是疑問了,我們一直在說要引導蜘蛛爬行,那么當我們通過外部鏈接或其他途徑將搜索引擎蜘蛛引入站點后,它們是如何對網站進行爬行抓取的呢?
其實,當我們利用優(yōu)化操作的一些手法來引導蜘蛛的時候,并不是所有的站點都是有效果的,也或者說根據搜索引擎對每個站點的信譽值的不同,能夠獲得的蜘蛛數據也是不同的。當我們想辦法來引導蜘蛛的時候,蜘蛛也會根據搜索引擎例如百度,對該站點每個頁面的評分來進行逐個的抓取,對于百度白名單里的站點或是百度權重高的網站的頁面就會有“耐心”的進行爬行,篩選來選擇符合評分規(guī)則的站點進入百度臨時索引庫。同時在抓取這些高權重站點的網頁的時候,如果頁面中有指向其他頁面的鏈接也是就相關內鏈的時候蜘蛛會開展“分身術”對這些布局的鏈接一層一層的進行頁面鏈接的爬行。而羅列的布局路徑,同樣的蜘蛛也會記錄在數據庫中,進行第一次,第二次……的爬行,篩選,選擇合適的內容進行快照展示。
基本了解了蜘蛛的爬行方式,我們來繼續(xù)看看蜘蛛針對頁面抓取的規(guī)則有哪些呢?其實對于搜索引擎蜘蛛而言,網站的評分如百度權重,谷歌pr值等這些參考數據越高,網站頁面的信譽度越高那么對這些網站的爬行抓取頻率就會越頻繁。搜索引擎蜘蛛在一個站點爬行的時候,一般是先進入著陸頁面通常是網站首頁,因為網站首頁的權重是最高的同時不論我們是否有意為之,其實網站大部分的頁面的鏈接指向都是不約而同指向首頁的,這也就奠定了蜘蛛爬行的優(yōu)先級問題。然后,通過網站首頁中布局的鏈接路徑來抓取網站的內頁,當然也并非所有的內容都會被蜘蛛抓取到。對于一般企業(yè)站點我們要求網站目錄深度不超過三層,其意義也是為了便于蜘蛛爬行。因為多數情況下,中小型企業(yè)的站點內容并不多,三層足夠囊括要展示的內容,再者就蜘蛛的常規(guī)計算來說,一般認為超過三層的內容都是不太重要的內容,所以基本上減少爬行甚至直接放棄爬行。
很多時候我們發(fā)現(xiàn)網站針對某個頁面做了很多外鏈導向,但是該頁面依然沒有被收錄,同時我們并不知道我們所做的引導蜘蛛是否進入過,要怎么辦呢?這個就設計到了我們網站優(yōu)化的另一個工具了,就是網絡日志。一般空間服務商可以為大家提供這個文件,我們可以通過這個文件來了解網站某一段時間內容的蜘蛛爬行情況。諸如,有哪些搜索引擎的蜘蛛進入過網站,這些蜘蛛瀏覽了網站中的哪些頁面,是通過哪些渠道進入的,蜘蛛爬行頁面的具體時間,抓取頁面的反饋情況,等等。
(轉載請注明轉自:gafsjz.com,謝謝!珍惜別人的勞動成果,就是在尊重自己!)
最新案例
