來源:gafsjz.com 時(shí)間:2020-10-22 10:02:50 瀏覽:2862次
熊貓一般是單胎生產(chǎn),但是現(xiàn)在我們?cè)趧?dòng)物園內(nèi)經(jīng)常能看到雙胞胎或者三胞胎的熊貓,暫且不論原有,我們看到這樣的情況會(huì)感覺很新奇,但是如果這樣的情況出現(xiàn)在一個(gè)網(wǎng)站中,那么不論是搜索引擎還是用戶看到了,就不是感覺到新奇了,而是感覺到厭煩。正因?yàn)槿绱怂阉匾驷槍?duì)重復(fù)內(nèi)容也發(fā)布了針對(duì)性的算法規(guī)則。國(guó)內(nèi)的百度網(wǎng)去重算法和有我們SEO老大谷歌的Panda算法。針對(duì)重復(fù)率這邊,筆者個(gè)人感覺谷歌這樣的Panda算法更為細(xì)致明顯,所以本篇文章就以谷歌的Panda算法來進(jìn)行搜索引擎對(duì)重復(fù)文字的判別與處罰問題進(jìn)行討論。
什么是重復(fù)文字呢?字面上的意思就是當(dāng)任何兩個(gè)或更多的網(wǎng)站頁(yè)面共享相同內(nèi)容時(shí),就存在了重復(fù)內(nèi)容,也就是我們常說到的樣板文字。聽著如此簡(jiǎn)單,那為什么這么簡(jiǎn)單的概念會(huì)造成如此大的困難呢?一個(gè)問題是,人們常常誤以為“頁(yè)面”是位于其Web服務(wù)器上的文件或文檔。對(duì)于爬蟲而言,頁(yè)面是它碰巧找到的任何唯一URL,通常通過內(nèi)部或外部鏈接找到。特別是在大型的動(dòng)態(tài)網(wǎng)站上,創(chuàng)建兩個(gè)位于相同內(nèi)容上的URL非常容易而且常常是網(wǎng)編無意而為的。
那么為什么搜索引擎會(huì)對(duì)重復(fù)文字如此重視呢?其實(shí)重復(fù)內(nèi)容是SEO的問題,早在Panda更新之前就已經(jīng)存在,并且隨著算法的改變,其形式已經(jīng)多種多樣。簡(jiǎn)單來舉例列舉一下:
1、補(bǔ)充索引
在Google成立之初,僅索引網(wǎng)絡(luò)是一項(xiàng)巨大的計(jì)算挑戰(zhàn)。為了應(yīng)對(duì)這一挑戰(zhàn),一些被視為重復(fù)項(xiàng)或質(zhì)量很低的頁(yè)面被存儲(chǔ)在稱為“補(bǔ)充”索引的二級(jí)索引中。從SEO角度來看,這些頁(yè)面自動(dòng)成為二等頁(yè)面且失去了任何競(jìng)爭(zhēng)排名能力。那么在2006年末左右,Google將補(bǔ)充結(jié)果重新納入了主要索引,但是這些結(jié)果仍然經(jīng)常被過濾掉。我們知道,只要我們?cè)贕oogle搜索引擎結(jié)果頁(yè)面底部看到以下警告,就可以達(dá)到過濾結(jié)果:在Google中省略了結(jié)果,即使該索引是統(tǒng)一的,結(jié)果仍然被“忽略”,對(duì)SEO產(chǎn)生了明顯的影響。當(dāng)然,在許多情況下,這些頁(yè)面實(shí)際上是重復(fù)的或搜索價(jià)值很小,并且對(duì)SEO的實(shí)際影響可以忽略不計(jì),但并非總是如此。
2、抓取“預(yù)算”
談到Google時(shí),說話總是很困難,因?yàn)槿藗兿M牭揭粋€(gè)絕對(duì)的數(shù)字。Google沒有絕對(duì)的爬網(wǎng)預(yù)算,也沒有固定數(shù)量的Google將在網(wǎng)站上爬網(wǎng)的頁(yè)面。但是,在某些時(shí)候Google可能會(huì)放棄一段時(shí)間的爬網(wǎng),特別是如果我們一直在沿著蜿蜒的路徑發(fā)送蜘蛛。盡管“預(yù)算”不是絕對(duì)的,但是即使對(duì)于給定的網(wǎng)站,我們也可以在Google網(wǎng)站站長(zhǎng)工具“抓取統(tǒng)計(jì)信息”中了解Google對(duì)我們的網(wǎng)站的抓取分配:GWT抓取圖,當(dāng)Google擊中了很多重復(fù)的路徑和頁(yè)面而導(dǎo)致一天放棄時(shí),實(shí)際上,我們想要索引的頁(yè)面可能不會(huì)被抓取。
3、指數(shù)“上限”
同樣的Google不會(huì)為網(wǎng)站索引多少頁(yè)面設(shè)置上限。但是,似乎確實(shí)存在動(dòng)態(tài)限制,并且該限制與站點(diǎn)的權(quán)限有關(guān)。如果用無用的重復(fù)頁(yè)面填充索引,則可以推出更重要,更深的頁(yè)面。
4、處罰辯論
在熊貓問世之前很久,每隔幾個(gè)月就要進(jìn)行一次辯論,討論是否存在重復(fù)的內(nèi)容懲罰。這些辯論雖然提出了正確的論點(diǎn),但它們通常側(cè)重于語(yǔ)義,重復(fù)的內(nèi)容是否引起了Capital-P處罰。盡管我們認(rèn)為處罰和過濾器之間的概念差異很重要,但網(wǎng)站所有者的看法通常是相同的。如果網(wǎng)頁(yè)由于內(nèi)容重復(fù)而沒有排名,那么無論我們叫什么名字,都將遇到問題。自從Panda以來,重復(fù)內(nèi)容的影響在某些情況下變得更加嚴(yán)重。過去,重復(fù)的內(nèi)容只會(huì)損害該內(nèi)容本身。如果有重復(fù)項(xiàng),則可能會(huì)補(bǔ)充或過濾掉。通常,沒關(guān)系。在極端情況下,大量重復(fù)項(xiàng)可能會(huì)使索引膨脹,或?qū)е屡谰W(wǎng)問題并開始影響其他頁(yè)面。熊貓將重復(fù)內(nèi)容視為更廣泛的質(zhì)量方程式的一部分。現(xiàn)在,重復(fù)內(nèi)容問題可能會(huì)影響我們的整個(gè)網(wǎng)站。如果我們受到Panda的打擊,則非重復(fù)頁(yè)面可能會(huì)失去排名能力,完全停止排名甚至落入索引。重復(fù)的內(nèi)容不再是一個(gè)獨(dú)立存在的問題。
我們?cè)谏钊胙芯恐貜?fù)內(nèi)容以及用于處理重復(fù)內(nèi)容的工具之前,筆者想介紹3個(gè)廣泛的重復(fù)類別。
1、完全重復(fù),真正的副本是指與另一頁(yè)面100%相同內(nèi)容上的任何頁(yè)面,這些頁(yè)面的唯一區(qū)別在于URL。
2、幾乎重復(fù),幾乎重復(fù)的內(nèi)容與另一個(gè)頁(yè)面或多個(gè)頁(yè)面之間的差異非常小,可能是文本塊,圖片甚至內(nèi)容的順序。
3、跨網(wǎng)域重復(fù),當(dāng)兩個(gè)網(wǎng)站共享相同的內(nèi)容時(shí),就會(huì)發(fā)生跨域重復(fù)。
這些重復(fù)可以是完全或接近重復(fù),與某些人的看法相反,即使對(duì)于合法的聯(lián)合內(nèi)容,跨域重復(fù)也可能是一個(gè)問題。這看起來似乎是亂序的,但是在深入研究特定例子之前,我們想討論用于處理重復(fù)項(xiàng)的工具。這樣,我們可以推薦適當(dāng)?shù)墓ぞ邅硇迯?fù)每個(gè)示例,而不會(huì)引起任何混淆。
1、404。處理重復(fù)內(nèi)容的最簡(jiǎn)單方法是將其刪除并返回404錯(cuò)誤。如果內(nèi)容確實(shí)對(duì)訪問者或搜索沒有任何價(jià)值,并且沒有明顯的入站鏈接或訪問量,則完全刪除是一種完全有效的選擇。
2、301重定向。刪除頁(yè)面的另一種方法是通過301重定向。與404不同,301告訴訪問者頁(yè)面已永久移動(dòng)到另一個(gè)位置,用戶訪客無縫地到達(dá)新頁(yè)面。從SEO角度來看,大多數(shù)入站鏈接權(quán)限也將傳遞到新頁(yè)面。如果重復(fù)的內(nèi)容具有清晰的規(guī)范URL,并且重復(fù)的內(nèi)容具有流量或入站鏈接,則301重定向可能是一個(gè)不錯(cuò)的選擇。
3、Robots.txt。另一種選擇是使重復(fù)內(nèi)容可供用戶使用,但將其阻止給搜索爬網(wǎng)程序。執(zhí)行此操作的最古老且可能仍然最簡(jiǎn)單的方法是使用robots.txt文件,通常位于我們的根目錄中,如:
User-agent:*
Disallow:/dupe-page.htm
Disallow:/dupe-folder/
robots.txt的優(yōu)點(diǎn)之一是封鎖整個(gè)文件夾甚至URL參數(shù)相對(duì)容易。缺點(diǎn)是這是一種極端的解決方案,有時(shí)甚至是不可靠的解決方案。盡管robots.txt可有效阻止未抓取的內(nèi)容,但對(duì)于刪除索引中已有的內(nèi)容卻不是很好。主流搜索引擎似乎也對(duì)它的過度使用不滿意,因此通常不建議使用robots.txt來復(fù)制內(nèi)容。
4、元機(jī)器人。我們還可以使用稱為“元機(jī)器人”標(biāo)記的標(biāo)頭級(jí)指令在頁(yè)面級(jí)別控制搜索機(jī)器人的行為。標(biāo)簽以最簡(jiǎn)單的形式看起來像這樣:
<head>
<meta name="robots" content="noindex,nofollow"/>
</head>
該指令告訴搜索機(jī)器人不要為此特定頁(yè)面編制索引或跟隨其上的鏈接,同時(shí)我們還發(fā)現(xiàn)它比Robots.txt更具SEO友好性,并且由于可以使用代碼動(dòng)態(tài)創(chuàng)建標(biāo)簽,因此通常更靈活。Meta Robots的另一個(gè)常見變體是內(nèi)容值“NOINDEX,F(xiàn)OLLOW”,它使機(jī)器人可以在不將頁(yè)面添加到搜索索引的情況下爬行頁(yè)面上的路徑。對(duì)于內(nèi)部搜索結(jié)果之類的頁(yè)面,這可能很有用,我們可能希望阻止某些變化,但仍遵循產(chǎn)品頁(yè)面的路徑。其實(shí)無需在頁(yè)面上添加帶有“INDEX,F(xiàn)OLLOW”的Meta Robots標(biāo)簽。默認(rèn)情況下,所有頁(yè)面都被索引并遵循索引。
5、Rel=Canonical。搜索引擎聯(lián)合起來創(chuàng)建了Rel=Canonical指令,有時(shí)也稱為“Rel-canonical”或“Canonical Tag”。這使網(wǎng)站管理員可以為任何頁(yè)面指定規(guī)范版本。標(biāo)簽位于頁(yè)面標(biāo)題中,如:
<head>
<link rel="canonlcal" />
</head>
當(dāng)搜索引擎到達(dá)帶有規(guī)范標(biāo)簽的頁(yè)面時(shí),它們會(huì)將頁(yè)面歸為規(guī)范URL,而不管它們用來訪問該頁(yè)面的URL是什么。因此,搜索引擎通常不會(huì)為附加的非規(guī)范URL編制索引,而是入站鏈接果汁也通過規(guī)范標(biāo)記傳遞。不過值得我們注意的是對(duì)于任何給定的網(wǎng)站模板,我們需要清楚地了解什么是正確的規(guī)范頁(yè)面。將整個(gè)站點(diǎn)規(guī)范化為一頁(yè)或錯(cuò)誤的頁(yè)面可能會(huì)造成災(zāi)難性的后果。當(dāng)搜索引擎到達(dá)帶有規(guī)范標(biāo)簽的頁(yè)面時(shí),它們會(huì)將頁(yè)面歸為規(guī)范URL,而不管它們用來訪問該頁(yè)面的URL是什么。
6、Rel=Prev & Rel=Next。Google為我們提供了一種新工具,可用于解決特定形式的近重復(fù)內(nèi)容,分頁(yè)搜索結(jié)果。我們可以通過使用一對(duì)類似于Rel-Canonical的標(biāo)簽來告訴Google分頁(yè)內(nèi)容如何連接。它們分別稱為Rel-Prev和Rel-Next,舉例來說:
<head>
<link rel="prev" />
<link rel="next" />
</head>
搜索引擎已登陸搜索結(jié)果的第3頁(yè),因此我們需要兩個(gè)標(biāo)簽:(1)指向第2頁(yè)的Rel-Prev和(2)指向第4頁(yè)的Rel-Next。但我們幾乎總是必須動(dòng)態(tài)生成這些標(biāo)簽,因?yàn)槲覀兊乃阉鹘Y(jié)果可能是由一個(gè)模板驅(qū)動(dòng)的,結(jié)果表明這些標(biāo)簽確實(shí)有效。
7、內(nèi)部鏈接。處理重復(fù)內(nèi)容的最佳工具就是不要一開始就創(chuàng)建它。當(dāng)然,這并非總是可能的,但是如果我們發(fā)現(xiàn)必須修補(bǔ)許多問題,則可能需要重新檢查內(nèi)部鏈接結(jié)構(gòu)和網(wǎng)站架構(gòu)。當(dāng)我們確實(shí)解決了重復(fù)問題時(shí),讓其他網(wǎng)站提示反映出這一變化也很重要。我們經(jīng)常看到有人在頁(yè)面的一個(gè)版本中設(shè)置301或規(guī)范,然后繼續(xù)內(nèi)部鏈接到非規(guī)范版本,并用非規(guī)范URL填充其XML網(wǎng)站地圖。內(nèi)部鏈接是很強(qiáng)的信號(hào),發(fā)送混合信號(hào)只會(huì)給我們帶來麻煩。
下一篇:不建鏈接增加流量的方法
24小時(shí)服務(wù)熱線:400-1180-360
業(yè)務(wù) QQ: 444961110電話: 0311-80740308
渠道合作: 444961110@qq.com
河北供求互聯(lián)信息技術(shù)有限公司(河北供求網(wǎng))誕生于2003年4月,是康靈集團(tuán)旗下子公司,也是河北省首批從事網(wǎng)站建設(shè)、電子商務(wù)開發(fā),并獲得國(guó)家工業(yè)和信息化部資質(zhì)認(rèn)證的企業(yè)。公司自成立以來,以傳播互聯(lián)網(wǎng)文化為已任, 以高科技為起點(diǎn),以網(wǎng)絡(luò)營(yíng)銷研究與應(yīng)用為核心,致力于為各企事業(yè)單位提供網(wǎng)絡(luò)域名注冊(cè)、虛擬主機(jī)租用、網(wǎng)站制作與維護(hù)、網(wǎng)站推廣和宣傳、網(wǎng)站改版與翻譯、移動(dòng)互聯(lián)網(wǎng)營(yíng)銷平臺(tái)開發(fā)與運(yùn)營(yíng)、企業(yè)郵局、網(wǎng)絡(luò)支付、系統(tǒng)集成、軟件開發(fā)、電子商務(wù)解決方案等優(yōu)質(zhì)的信息技術(shù)服務(wù),與中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心、騰訊、百度、阿里巴巴、搜狗、360、電信、聯(lián)通、中國(guó)數(shù)據(jù)、萬網(wǎng)、中資源、陽(yáng)光互聯(lián)、點(diǎn)點(diǎn)客、北龍中網(wǎng)、電信通等達(dá)成戰(zhàn)略合作伙伴關(guān)系。
版權(quán)所有 ? 河北供求互聯(lián)信息技術(shù)有限公司-優(yōu)秀的石家莊網(wǎng)站建設(shè)公司,為您提供石家莊網(wǎng)站建設(shè)、網(wǎng)站推廣等優(yōu)質(zhì)服務(wù).
服務(wù)熱線:400-1180-360 增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:冀B2-20105159 冀ICP備09010972號(hào)
掃一掃
贈(zèng)送神秘大禮
全國(guó)免費(fèi)服務(wù)熱線
400-1180-360