石家莊網(wǎng)站建設(shè)方案報(bào)價(jià)

搜索引擎的工作原理之抓取

來源:gafsjz.com 作者:筆者小丹 時(shí)間:2020-05-19 11:21:53 瀏覽:2080次

    搜索引擎的存在是為了發(fā)現(xiàn),抓取,整合互聯(lián)網(wǎng)中的內(nèi)容,在用戶進(jìn)行提出問題進(jìn)行搜索時(shí)候能夠快速的為用戶提出相關(guān)的結(jié)果展示。為了讓我們的網(wǎng)站能夠展示在搜索引擎結(jié)果中,我們的內(nèi)容必須要對搜索引擎友好,可見性。也就是說在SEO優(yōu)化的難題中,首先是要讓搜索引擎發(fā)現(xiàn)我們的網(wǎng)站,否則我們的網(wǎng)站內(nèi)容則永遠(yuǎn)不可能出現(xiàn)的搜索引擎結(jié)果頁中。   
    搜索引擎的主要有三個(gè)功能板塊:

    1、抓取:在網(wǎng)絡(luò)上抓取內(nèi)容,查看網(wǎng)站找到的每個(gè)URL的代碼對于的相應(yīng)內(nèi)容。

    2、索引:存儲和組織在爬網(wǎng)過程中找到的內(nèi)容,頁面進(jìn)入索引后,就會(huì)在運(yùn)行中顯示為相關(guān)查詢的結(jié)果。

    3、排名:提供最能回答用戶查詢的內(nèi)容,這意味著搜索結(jié)果的排序方式從最相關(guān)到最不相關(guān)。

    抓取是一種發(fā)現(xiàn)過程,搜索引擎在其中發(fā)現(xiàn)一組機(jī)器人也就是我們所說的搜索引擎蜘蛛,來尋找新的和更新的內(nèi)容。內(nèi)容可以有所不同,可以是網(wǎng)頁,圖片,視頻,PDF等但無論格式如何,內(nèi)容都是通過鏈接發(fā)現(xiàn)的。

    Googlebot首先獲取一些網(wǎng)頁,然后按照這些網(wǎng)頁上的鏈接查找新的URL。通過沿著鏈接的這種路徑跳動(dòng),蜘蛛可以找到新內(nèi)容并將其添加到名為Caffeine的索引中,以后當(dāng)用戶搜索到該URL上的內(nèi)容為很適合。搜索引擎處理并存儲他們在索引中找到的信息,索引是他們發(fā)現(xiàn)并認(rèn)為足以為用戶服務(wù)的所有內(nèi)容的龐大數(shù)據(jù)庫。當(dāng)有人進(jìn)行搜索時(shí),搜索引擎會(huì)在索引中搜索高度相關(guān)的內(nèi)容,然后對這些內(nèi)容進(jìn)行排序,以解決用戶的查詢,我們搜索結(jié)果的相關(guān)性排序稱為排名。通常,我們可以假設(shè)網(wǎng)站的排名越高,搜索引擎認(rèn)為該網(wǎng)站與查詢的相關(guān)性就越高。

    有可能阻止我們的部分或全部網(wǎng)站訪問搜索引擎爬網(wǎng)程序,或者指示搜索引擎避免將某些頁面存儲在其索引中。盡管我們這樣做有一定的原因,但是如果我們希望用戶找到我們的內(nèi)容,則必須首先確保抓取工具可以訪問該內(nèi)容并將其編入索引。否則,一切的優(yōu)化工作將都是徒勞。我們都認(rèn)為SEO排名是由數(shù)據(jù)來決定的,所以是客觀的,公平的。其實(shí)不然!許多初學(xué)者想知道特定搜索引擎的相對重要性。大多數(shù)人都知道Google擁有最大的市場份額,但是對Bing,Yahoo和其他公司進(jìn)行優(yōu)化對它有多重要呢? 事實(shí)是,盡管存在30多個(gè)主要的網(wǎng)絡(luò)搜索引擎,但SEO社區(qū)實(shí)際上只關(guān)注Google。因?yàn)榻^大多數(shù)人都在Google搜索網(wǎng)站。如果我們將Google Images,Google Maps和YouTube包括在內(nèi),則超過90%的網(wǎng)絡(luò)搜索是在Google上進(jìn)行的,這是Bing和Yahoo的總和的近20倍。

    介紹了搜索引擎的主要功能原理,下面我們來分析搜索原理的第一部分—爬行抓取。

    正如我們剛剛了解到的那樣,確保對我們的網(wǎng)站進(jìn)行爬網(wǎng)和建立索引是在搜索引擎結(jié)果頁中顯示的先決條件。如果我們已經(jīng)有一個(gè)網(wǎng)站,則最好先查看索引中有多少頁面,然后再開始。這將對Google是否正在爬網(wǎng)并找到我們想要的所有頁面,以及我們不需要的所有頁面產(chǎn)生一些深刻的見解。檢查索引頁面的一種方法是高級搜索運(yùn)算符“ site:aaa.com”。轉(zhuǎn)到Google,然后在搜索欄中輸入“ site:aaa.com”這將返回Google在其指定網(wǎng)站的索引中具有的結(jié)果。Google所顯示的結(jié)果數(shù)量并不確切,但是它確實(shí)使我們對網(wǎng)站上哪些頁面建立了索引以及它們當(dāng)前在搜索結(jié)果中的顯示方式有一個(gè)明確的了解。為了獲得更準(zhǔn)確的結(jié)果,請?jiān)贕oogle Search Console中監(jiān)控和使用“索引覆蓋率”報(bào)告。如果我們目前沒有免費(fèi)的Google Search Console帳戶,可以注冊一個(gè)。使用此工具,我們可以提交網(wǎng)站的網(wǎng)站地圖,并監(jiān)視實(shí)際上已將多少已提交的頁面添加到Google的索引中。

    如果我們沒有在搜索結(jié)果中顯示任何位置,則可能有以下幾種原因:

1、我們的網(wǎng)站是全新的,尚未進(jìn)行爬網(wǎng)。

    2、我們的網(wǎng)站未從任何外部網(wǎng)站鏈接到。

    3、我們網(wǎng)站的導(dǎo)航使機(jī)器人很難有效地對其進(jìn)行爬網(wǎng)。

    4、我們的網(wǎng)站包含一些稱為蜘蛛指令的基本代碼,這些基本代碼會(huì)阻止搜索引擎。

    如果我們使用Google Search Console或“ site:aaa.com”高級搜索運(yùn)算符,但發(fā)現(xiàn)索引中缺少某些重要頁面和/或某些不重要的頁面被錯(cuò)誤地編入索引,則可以進(jìn)行一些優(yōu)化 實(shí)施,以更好地指導(dǎo)Googlebot我們要如何抓取網(wǎng)絡(luò)內(nèi)容。告訴搜索引擎如何抓取我們的網(wǎng)站可以使我們更好地控制索引中的內(nèi)容。大多數(shù)人都考慮過確保Google可以找到自己的重要頁面,但是很容易忘記,有些頁面可能是我們不希望Googlebot找到的。這些內(nèi)容可能包括諸如內(nèi)容稀少的舊URL,重復(fù)的URL特殊的促銷代碼頁,登臺或測試頁之類的內(nèi)容。

    要使Googlebot遠(yuǎn)離我們網(wǎng)站的某些頁面和部分,請使用robots.txt。Robots.txt文件位于網(wǎng)站的根目錄中,建議我們應(yīng)該和不應(yīng)該搜索網(wǎng)站的哪些部分,以及它們搜索網(wǎng)站的速度,通過特定的robots.txt指令。那么,Googlebot如何處理robots.txt文件呢?

    1、如果Googlebot找不到網(wǎng)站的robots.txt文件,則會(huì)繼續(xù)抓取該網(wǎng)站。

    2、如果Googlebot找到了網(wǎng)站的robots.txt文件,則通常會(huì)遵守建議并繼續(xù)抓取該網(wǎng)站。

    3、如果Googlebot在嘗試訪問網(wǎng)站的robots.txt文件時(shí)遇到錯(cuò)誤,并且無法確定該網(wǎng)站是否存在,它將不會(huì)抓取該網(wǎng)站。

    抓取是Googlebot離開前將在我們的網(wǎng)站上抓取的URL的平均數(shù)量,因此抓取預(yù)算優(yōu)化可確保Googlebot不會(huì)浪費(fèi)時(shí)間在不重要的頁面上進(jìn)行抓取,而忽略了重要頁面的風(fēng)險(xiǎn)。在擁有成千上萬個(gè)網(wǎng)址的大型網(wǎng)站上,抓取預(yù)算是最重要的,但是阻止抓取工具訪問我們絕對不在意的內(nèi)容絕不是一個(gè)壞主意。只要確保不阻止爬網(wǎng)程序訪問我們添加了其他指令的頁面即可。如果某個(gè)頁面禁止了Googlebot,將無法看到該頁面上的說明。當(dāng)然,并非所有的網(wǎng)絡(luò)機(jī)器人都遵循robots.txt。有惡意的人會(huì)構(gòu)建不遵循此協(xié)議的漫游器。實(shí)際上,一些不良用戶會(huì)使用robots.txt文件來查找我們的私人內(nèi)容所在的位置。盡管將爬網(wǎng)程序阻止在諸如登錄和管理頁面之類的私人頁面中以使其不顯示在索引中似乎合乎邏輯,但將這些URL的位置放在可公開訪問的robots.txt文件中也意味著存在惡意意圖的人可以更輕松地找到它們。最好讓這些頁面NoIndex并在登錄表單后設(shè)置它們,而不是將它們放在robots.txt文件中。

    通過將某些參數(shù)附加到URL,某些站點(diǎn)在多個(gè)不同的URL上提供相同的內(nèi)容。如果我們曾經(jīng)在線購物,則可能已通過過濾器縮小了搜索范圍,每次優(yōu)化時(shí),URL都會(huì)略有變化。Google如何知道要提供給用戶的URL版本? Google在自行找出代表性URL方面做得很好,但是我們可以使用Google Search Console中的URL Parameters功能來確切告訴Google我們希望他們?nèi)绾螌ΥW(wǎng)頁。如果我們使用此功能告訴Googlebot“不使用參數(shù)抓取網(wǎng)址”,那么我們實(shí)際上是在要求從Googlebot隱藏該內(nèi)容,這可能會(huì)導(dǎo)致這些頁面從搜索結(jié)果中刪除。如果這些參數(shù)創(chuàng)建了重復(fù)的頁面,那就是我們想要的,但是如果我們希望這些頁面被索引,那是不理想的。

    蜘蛛可以找到我們所有的重要內(nèi)容嗎?既然我們已經(jīng)知道了確保搜索引擎抓取工具遠(yuǎn)離我們不重要的內(nèi)容的一些策略,那么讓我們了解一下可以幫助Googlebot查找重要頁面的優(yōu)化方法。有時(shí),搜索引擎將能夠通過爬網(wǎng)找到我們網(wǎng)站的某些部分,但是其他頁面或部分可能由于某種原因而被遮蓋。重要的是要確保搜索引擎能夠發(fā)現(xiàn)我們想要索引的所有內(nèi)容而不僅僅是首頁。如果我們要求用戶在訪問某些內(nèi)容之前登錄,填寫表格或回答調(diào)查,搜索引擎將不會(huì)看到那些受保護(hù)的頁面。爬網(wǎng)程序是不會(huì)登錄的。機(jī)器人程序無法使用搜索表單。有些人認(rèn)為,如果他們在自己的網(wǎng)站上放置搜索框,則搜索引擎將能夠找到其訪客搜索的所有內(nèi)容。非文本媒體形式如圖片,視頻,GIF等不應(yīng)用于顯示希望被索引的文本。盡管搜索引擎在識別圖片方面變得越來越好,但并不能保證它們現(xiàn)在仍能夠閱讀和理解圖片。始終最好在網(wǎng)頁的<HTML>標(biāo)記內(nèi)添加文本。就像爬蟲需要通過其他站點(diǎn)的鏈接來發(fā)現(xiàn)我們的站點(diǎn)一樣,它也需要我們自己站點(diǎn)上的鏈接路徑來引導(dǎo)頁面之間的鏈接。如果我們有要搜索引擎查找的頁面,但未從任何其他頁面鏈接到該頁面,則與隱藏頁面一樣好。許多網(wǎng)站都犯了嚴(yán)重的錯(cuò)誤,即以搜索引擎無法訪問的方式來構(gòu)建導(dǎo)航結(jié)構(gòu),從而阻礙了其在搜索結(jié)果中列出的功能。

    常見的導(dǎo)航錯(cuò)誤可能使爬網(wǎng)程序無法看到我們的所有站點(diǎn):移動(dòng)導(dǎo)航顯示的結(jié)果與pc導(dǎo)航不同,菜單項(xiàng)不在HTML中的任何類型的導(dǎo)航,例如啟用JavaScript的導(dǎo)航。Google在抓取和理解Java方面已經(jīng)做得更好,但是仍然不是一個(gè)完美的過程。確保某些東西被Google找到,理解和建立索引的更可靠方法是將其放入HTML中。個(gè)性化或相對于其他類型的訪問者顯示獨(dú)特的導(dǎo)航方式似乎掩蓋了搜索引擎爬蟲,忘記通過導(dǎo)航鏈接到我們網(wǎng)站上的主頁-記住,鏈接是爬蟲遵循的進(jìn)入新頁面的路徑。這就是為什么網(wǎng)站必須具有清晰的導(dǎo)航和有用的URL文件夾結(jié)構(gòu)至關(guān)重要的原因。

    信息體系結(jié)構(gòu)是一種組織和標(biāo)記網(wǎng)站上的內(nèi)容以提高用戶效率和可發(fā)現(xiàn)性的實(shí)踐。最好的信息體系結(jié)構(gòu)是直觀的,這意味著用戶不必費(fèi)心思量即可瀏覽我們的網(wǎng)站或查找內(nèi)容。那么可以使用網(wǎng)地圖,網(wǎng)站地圖就是它的外觀,爬網(wǎng)程序可用來發(fā)現(xiàn)我們的內(nèi)容并將其編入索引的站點(diǎn)上URL列表。確保Google查找優(yōu)先級最高的頁面的最簡單方法之一是創(chuàng)建符合Google標(biāo)準(zhǔn)的文件,然后通過Google Search Console提交文件。盡管提交網(wǎng)站地圖并不能代替良好的站點(diǎn)導(dǎo)航,但可以肯定地幫助爬網(wǎng)程序遵循通往所有重要頁面的路徑。確保僅包含要由搜索引擎索引的URL,并確保為抓取工具提供一致的方向。例如,如果我們已經(jīng)通過robots.txt阻止了該網(wǎng)址,則不要在我們的網(wǎng)站地圖中包含該網(wǎng)址,或者在我們的網(wǎng)站地圖中包含重復(fù)的網(wǎng)址,而不是首選的范本。如果我們的網(wǎng)站沒有其他鏈接到該網(wǎng)站,則仍可以通過在Google Search Console中提交XML網(wǎng)站地圖來對其進(jìn)行索引。不能保證他們將在索引中包含一個(gè)提交的URL,但是去嘗試一下。

    有很多朋友有過這樣的疑問:蜘蛛嘗試訪問我們的URL時(shí)是否出錯(cuò)?

    其實(shí),在搜索我們網(wǎng)站上的URL的過程中,蜘蛛可能會(huì)遇到錯(cuò)誤。我們可以轉(zhuǎn)到Google Search Console的“抓取錯(cuò)誤”報(bào)告,以檢測可能發(fā)生此錯(cuò)誤的網(wǎng)址該報(bào)告將向我們顯示服務(wù)器錯(cuò)誤和未發(fā)現(xiàn)的錯(cuò)誤。服務(wù)器日志文件還可以向我們顯示此信息,以及其他信息如抓取頻率的數(shù)據(jù)庫,但是由于訪問和剖析服務(wù)器日志文件是一種更高級的策略。我們必須先了解服務(wù)器錯(cuò)誤和“未找到”錯(cuò)誤,然后才能對抓取錯(cuò)誤報(bào)告進(jìn)行有意義的任何操作。

    4xx代碼:當(dāng)搜索引擎抓取工具由于客戶端錯(cuò)誤而無法訪問我們的內(nèi)容時(shí)

    4xx錯(cuò)誤是客戶端錯(cuò)誤,這意味著請求的URL語法錯(cuò)誤或無法實(shí)現(xiàn)。最常見的4xx錯(cuò)誤之一是“ 404 –未找到”錯(cuò)誤。這些可能是由于URL錯(cuò)字,已刪除頁面或斷開的重定向而引起的,僅舉幾個(gè)例子。當(dāng)搜索引擎搜索到404時(shí),它們將無法訪問該URL。當(dāng)用戶點(diǎn)擊404時(shí),他們可能會(huì)感到沮喪而離開。

    5xx代碼:當(dāng)搜索引擎抓取工具由于服務(wù)器錯(cuò)誤而無法訪問我們的內(nèi)容時(shí)

    5xx錯(cuò)誤是服務(wù)器錯(cuò)誤,這意味著網(wǎng)頁所在的服務(wù)器無法滿足用戶或搜索引擎訪問該頁面的請求。在Google Search Console的“抓取錯(cuò)誤”報(bào)告中,有一個(gè)專門針對這些錯(cuò)誤的標(biāo)簽。這些通常是由于對URL的請求超時(shí)而導(dǎo)致的,因此Googlebot放棄了該請求。查看Google的文檔,以了解有關(guān)解決服務(wù)器連接問題的更多信息。

    不過,有一種方法可以告知用戶和搜索引擎我們的頁面已301(永久)重定向。

    假設(shè)我們將頁面從aaa.com/b-c/移至aaa.com/d/。搜索引擎和用戶需要一個(gè)橋梁,以從舊URL過渡到新URL。該橋是301重定向。當(dāng)我們實(shí)施301時(shí):當(dāng)我們未實(shí)施301時(shí):鏈接資產(chǎn)將鏈接的資產(chǎn)從頁面的舊位置轉(zhuǎn)移到新URL。如果沒有301,則來自先前URL的權(quán)限不會(huì)傳遞到URL的新版本。索引幫助Google查找和索引頁面的新版本,僅在我們的網(wǎng)站上出現(xiàn)404錯(cuò)誤并不會(huì)損害搜索性能,但是讓排名/被投放的頁面404可能會(huì)導(dǎo)致它們不在索引之列,排名和訪問量隨之而來。用戶體驗(yàn)確保用戶找到他們要查找的頁面。允許訪問者單擊無效鏈接會(huì)將他們帶到錯(cuò)誤頁面,而不是預(yù)期的頁面,這可能會(huì)用戶降低體驗(yàn)。

    301狀態(tài)代碼本身表示該頁面已永久移動(dòng)到新位置,因此請避免將URL重定向到不相關(guān)的頁面,即原來的URL內(nèi)容實(shí)際上不存在的URL。如果頁面正在為查詢排名,而我們將其301鏈接到具有不同內(nèi)容的URL,則該頁面的排名可能會(huì)下降,因?yàn)榕c該特定查詢相關(guān)的內(nèi)容不再存在。301負(fù)責(zé)任地移動(dòng)URL。我們還可以選擇302重定向頁面,但這應(yīng)該保留給臨時(shí)移動(dòng),以及在不太需要傳遞鏈接凈值的情況下。302有點(diǎn)像繞道而行我們暫時(shí)通過某條路徑吸引流量,但不會(huì)永遠(yuǎn)這樣。所以,一定要注意重定向鏈接。如果Googlebot必須進(jìn)行多次重定向,可能很難到達(dá)我們的頁面。Google稱這些為“重定向鏈”,他們建議盡可能限制它們。如果我們將aaa.com/1重定向到aaa.com/2,然后再?zèng)Q定將其重定向到aaa.com/3,則最好消除中間人,只需將aaa.com/1重定向到aaa.com/3。在確定我們的網(wǎng)站針對爬網(wǎng)能力進(jìn)行了優(yōu)化之后,下一個(gè)優(yōu)化操作就是要確保它可以被索引。

  (轉(zhuǎn)載請注明轉(zhuǎn)自:gafsjz.com,謝謝!珍惜別人的勞動(dòng)成果,就是在尊重自己!)


上一篇:搜索引擎的工作原理之索引

下一篇:SEO是什么,為什么那么重要?

返回列表

網(wǎng)站建設(shè)知識

石家莊網(wǎng)站建設(shè) 石家莊網(wǎng)站優(yōu)化 石家莊網(wǎng)站建設(shè)報(bào)價(jià) 石家莊網(wǎng)站推廣
石家莊網(wǎng)站建設(shè)方案 石家莊網(wǎng)站建設(shè)推廣 石家莊網(wǎng)站制作維護(hù)

更多 +聯(lián)系我們

24小時(shí)服務(wù)熱線:400-1180-360

業(yè)務(wù) QQ:  444961110電話: 0311-80740308

渠道合作:  444961110@qq.com

更多 +關(guān)于我們

河北供求互聯(lián)信息技術(shù)有限公司(河北供求網(wǎng))誕生于2003年4月,是康靈集團(tuán)旗下子公司,也是河北省首批從事網(wǎng)站建設(shè)、電子商務(wù)開發(fā),并獲得國家工業(yè)和信息化部資質(zhì)認(rèn)證的企業(yè)。公司自成立以來,以傳播互聯(lián)網(wǎng)文化為已任, 以高科技為起點(diǎn),以網(wǎng)絡(luò)營銷研究與應(yīng)用為核心,致力于為各企事業(yè)單位提供網(wǎng)絡(luò)域名注冊、虛擬主機(jī)租用、網(wǎng)站制作與維護(hù)、網(wǎng)站推廣和宣傳、網(wǎng)站改版與翻譯、移動(dòng)互聯(lián)網(wǎng)營銷平臺開發(fā)與運(yùn)營、企業(yè)郵局、網(wǎng)絡(luò)支付、系統(tǒng)集成、軟件開發(fā)、電子商務(wù)解決方案等優(yōu)質(zhì)的信息技術(shù)服務(wù),與中國科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心、騰訊、百度、阿里巴巴、搜狗、360、電信、聯(lián)通、中國數(shù)據(jù)、萬網(wǎng)、中資源、陽光互聯(lián)、點(diǎn)點(diǎn)客、北龍中網(wǎng)、電信通等達(dá)成戰(zhàn)略合作伙伴關(guān)系。

版權(quán)所有 ? 河北供求互聯(lián)信息技術(shù)有限公司-優(yōu)秀的石家莊網(wǎng)站建設(shè)公司,為您提供石家莊網(wǎng)站建設(shè)、網(wǎng)站推廣等優(yōu)質(zhì)服務(wù).   
服務(wù)熱線:400-1180-360 增值電信業(yè)務(wù)經(jīng)營許可證:冀B2-20105159 冀ICP備09010972號

在線留言
免費(fèi)試用
掃一掃

掃一掃
贈(zèng)送神秘大禮

全國免費(fèi)服務(wù)熱線
400-1180-360

返回頂部