怎樣減損失效URL的爬動和引得無完美解決方案

　　缺乏朝氣的雲晨看守了望同學(題外話：缺乏朝氣是好管閑事哈。我20多歲時人煙說我像40歲，我40多歲時好多人說我像30多，男子20到50歲可以做到基本一個模樣)貼了個帖子：透過京東商城看國內前線B2C網站SEO通病。提議先看那一個帖子再歸來看本帖，不然不由得易清楚下邊在說啥子。

　　簡單說，帖子指出一個嚴重並且事實的SEO問題：眾多網站，特別是B2C，產品條件過淋系統(如挑選產品的品牌、價錢、尺寸、性能、參變量等)會萌生數量多失效URL，之所以稱為失效只是從SEO角度看的，這些個URL並不可以萌生SEO效用，反而有負面效用，所以這些個URL不收錄為好，端由涵蓋：

　　1.數量多過淋條件頁面內部實質意義重復或極為大致相似(數量多復制內部實質意義將使網站整健康水平量減退)

　　2.數量多過淋條件頁面沒有對應產品，頁面無內部實質意義(如挑選100元以下42寸LED電視什麼的的)

　　3.絕大多過淋條件頁面沒有名次有經驗(名次有經驗比分類頁面低得多)卻耗費一定權重

　　4.這些個過淋條件頁面也不是產品頁面收錄的不可缺少通道(產品頁面應當有其他內鏈幫忙爬動和收錄)

　　5.爬動數量多過淋條件頁面莫大耗費蛛蛛爬動時間，導致有用頁面收錄機緣減退(過淋條件頁面組合起來是巨量的)

　　那末怎樣盡力使這些個URL不被爬動和引得、收錄呢?不久前的一篇帖子怎麼樣掩飾內部實質意義也有可能變成SEO問題商議的是大致相似問題，這種過淋頁面就是想掩飾的內部實質意義品類之一。然而令人惋惜，我到現在為止想不出完美的解決辦法。雲晨看守了望提出兩個辦法，我感到都沒有辦法完美解決。

　　一是將沒想到收錄的URL維持為動態URL，甚至於故意越動態越好，以阻擋被爬動和收錄。不過，搜索引擎網站如今都能爬動、收錄動態URL，並且技術上越來越不是問題。固然參變量多到一定程度的確有弊於收錄，但4、5個參變量一般還可以收錄。我們沒有辦法明確承認需求若乾參變量能力阻擋收錄，所以不可以當作一個靠得住的辦法。並且這些個URL收繳內鏈，又沒有啥子名次有經驗，仍然會耗費一定權重。

　　第二個辦法，robots嚴禁收錄。一樣，URL收繳了內鏈也就收繳了權重，robots文件嚴禁爬動這些個URL，所以收繳的權重不可以傳交出去(搜索引擎網站不爬動就不曉得有啥子導出鏈接)，頁面變成權重只進不出的坍縮星。

　　連向這些個URL的鏈接合適nofollow也不完美，和robots嚴禁大致相似，nofollow在Google的效果是這些個URL沒有收繳權重，權重卻也沒有被分配到其他鏈接上，所以權重一樣耗費了。百度據稱支持nofollow，但權重怎麼處置未知。

　　將這些個URL鏈接放在Flash、JS裡也沒有用，搜索引擎網站已經可以爬動Flash、JS裡的鏈接，並且估計往後越來越特長爬。眾多SEO疏忽了的一點兒是，JS中的鏈接不止能被爬，也能傳交權重，和正常連署同樣。

　　也可以將過淋條件鏈接做成AJAX方式，用戶點擊後不會過訪一個新的URL，仍然在原來URL上，URL後面加了#，不會被當成不一樣URL。和JS問題同樣，搜索引擎網站正在積極試驗爬動、抓取AJAX裡的內部seo實質意義，這個辦法也不擔保。

　　還一個辦法是在頁面head局部加noindex+follow標簽，意即本頁面不要引得，但跟蹤頁面上的鏈接。這麼可以解決復制內部實質意義問題，也解決了權重坍縮星問題(權重是可以隨著導出鏈接傳到其他頁面的)，不可以解決的是耗費蛛蛛爬動時間問題，這些個頁面仍然要被蛛蛛爬動抓取的(而後能力看見頁面html裡的noindex+follow標簽)，對某些網站來說，過淋頁面數目很大，爬動了這些個頁面，蛛蛛就沒足夠時間爬有用頁面了。

　　再一個可以思索問題的辦法是掩飾頁面(cloaking)，也就是用手續檢驗測定過訪者，是搜索引擎網站蛛蛛的話回返的頁面拿掉這些個過淋條件鏈接，是用戶的話纔回返正常的有過淋條件的頁面。這是一個比較理想的解決辦法，惟一的問題是，有可能被當作作弊。搜索引擎網站常跟SEO講的判斷是否作弊的無上原則是：假如沒有搜索引擎網站，你會不會這樣做?還是說，某種辦法是否只是為了搜索引擎網站而認為合適而使用?顯然，用cloaking掩飾沒想到被爬動的URL是為搜索引擎網站做的，不是為用戶做的。固然這種事情狀況下的cloaking目標是美妙的，沒有惡意的，但風險是存在的，膽大的可嘗試使用。

　　還一個辦法是運用canonical標簽，最大問題是百度是否支持未知，並且canonical標簽是對搜索引擎網站的提議，不是指令，也就是說這個標簽搜索引擎網站有可能不篤守，等於沒用。額外，canonical標簽的本意是指決定范化網址，過淋條件頁面是否適合使用有點存疑，畢竟，這些個頁面上的內部實質意義常常是不一樣的。

　　到現在為止比較好的辦法之一是iframe+robots嚴禁。將過淋局部代有次序的擺放進iframe，等於調配使用其他文件內部實質意義，對搜索引擎網站來說，這局部內部實質意義不歸屬現時頁面，也即掩飾了內部實質意義。但不歸屬現時頁面不等不存在，搜索引擎網站是可以發覺iframe中的內部實質意義和鏈接的，仍然有可能爬動這些個URL，所以加robots嚴禁爬動。iframe中的內部實質意義仍然會有一點權重流失，但由於iframe裡的鏈接不是從現時頁面分流權重，而只是從調配使用的那一個文件分流，所以權重流失是比較少的。除開排字、瀏覽器兼容性什麼的的頭痛問題，iframe辦法的一個潛伏問題是被覺得作弊的風險。如今搜索引擎網站普通不覺得iframe是作弊，眾多廣告就是放在iframe中，但掩飾一堆鏈接和掩飾廣告有點微妙的差別。回到搜索引擎網站判斷作弊的總原則上，很難說這不是專門為搜索引擎網站做的。想的起來Matt Cutts說過，Google往後有可能變更處置iframe的形式，它們仍然期望在同一個頁面上看見平常的用戶能看見的全部內部實質意義。

　　總之，對這個事實、嚴重的問題，我到現在為止沒有自個兒感到完美的解答。當然，不可以完美解決不是就不可以活了，不一樣網站SEO重點不一樣，具體問題具體剖析，認為合適而使用上面所說的辦法中的一種或幾種應當可以解決主要問題。

　　而最最最大的問題還不是上面所說的這些個，而是有時你想讓這些個過淋頁面被爬動和收錄，這纔是杯具的著手。往後再商議。

　　筆者：Zac@SEO每日一貼

　　版權全部。過載時務必以鏈接方式注明筆者和原始來源及本聲明。

原文：/seo-tips/duplicate-urls-content/

The Blog

SEO諮詢: (852) 27208908