搜索引擎網站與spam的戰爭

亂世用重典,搜索引擎網站在與spam的長期戰爭中總是處於不順利地位(這很容易了解,搜索引擎網站企業真正考慮搜索結果相關性和排序的只有幾個人,而互聯網上整天琢磨怎麼對付搜索引擎網站的有幾萬幾十萬webmaster),所以對spam的懲罰很嚴厲,事實上,全部的搜索引擎網站對它們認定的spam行為,一般只有一種懲罰:長久屏蔽。現在流行的太極鏈、鳳凰鏈這些超鏈群,就存在被當做spam的有可能性。國內的搜索引擎網站注冊還沒有形成市場,但在國外是很發達的產業,每年以200百分之百的速度增長,它們叫SEO,即search engine optimization 從某種角度來說,幾乎是spam在推動著搜索引擎網站的進步,許久許久曾經的一天,搜索引擎網站們為了搜索結果能更正確,為了能把最相關的搜索結果排在面前,發清楚meta tag。原先,meta tag是美好用的,那時候,誠實的webmaster們如實的填寫網站提要,如實的列出跟他的網站最相關的關鍵字,搜索引擎網站們抓取、引得、檢索這些誠實的meta tag,並作為搜索結果排序的關緊根據,而後,是一段相安無事的甜蜜時光。



  歲月迅疾流逝,甜蜜時光擋不住資本的力氣。『一朝有適當的利潤,資本就大膽起來……有50百分之百的利潤,他就鋌而走險;有100百分之百的利潤,他就敢踐踏一切人間法律;有300百分之百的利潤,他就敢犯不論什麼犯罪行為,甚至於冒絞首的危險。』 越來越多的網站開始尋求收益尋求pageview,它們開始欺騙搜索引擎網站,它們在meta tag中塞進成堆的關鍵字,塞進跟自個兒的網站內容無關的不過流行的關鍵字。群眾的力氣是很大的,搜索引擎網站的相關性被毀傷了。。。



  搜索引擎網站們對作弊者開始第1輪反擊,不過無力的,它們的作法是:在排序時更多的依賴網頁正文seo而不是meta tag。



  作弊者以進為退,開始第二輪攻擊,他們在正文中數量多運用與網頁環境相同顏色的關鍵字,在image tags中塞進關鍵字,在網頁代碼參加『看不見的注釋』。



  搜索引擎網站開始第二輪反擊,它們找到達管用的辦法來過濾這些看不見的書契,獲得了小小的勝利。



  善良是善良者的墓志銘銘,齷齪是齷齪者的通行證』,作弊者眼見常規武器無效,開始利用搜索引擎網站的真誠。搜索引擎網站的spider是互聯網上的謙謙君子,它們訪問不論什麼網站都會自報身分,況且查閱網站的訪問規定,絕對依照各網站的規矩來辦事。於是,作弊者專心制造了兩個網站,一個專供網友訪問,一個專供搜索引擎網站訪問,每當發現訪問請求來自搜索引擎網站時,就回返專供搜索引擎網站看的能令搜索引擎網站滿意的網頁,而正常訪問者只能看見另一個迥然不一樣的網站。這種辦法叫做cloaking。這第三輪攻擊,作弊者大勝。



  1998年三月一號,分別在AltaVista、Excite、HotBot、Infoseek、Lycos搜索當時的熱門詞匯『Monica Lewinsky』,各搜索引擎網站首頁居然分別有50百分之百、30百分之百、30百分之百、10百分之百、50百分之百的搜索結果是spam。由此可見當時作弊者們凶猛放肆至何等程度!



  搜索引擎網站們,因為它們道德上的弱點,因為有點手眼不願用,所以無法絕對辨別cloaking網站,也就無法絕對對付作弊者。搜索引擎網站能做的只是嚴厲的懲罰被發現的spam,以警告作弊者,發展到今日的結果是,全部的搜索引擎網站對它們認定的spam行為,只有一種懲罰:長久屏蔽。



  不過,嚴厲的懲罰從來只是無能者開脫責任的借口,而不可以真正的改善狀況。『一朝有適當的利潤,資本就大膽起來……有50百分之百的利潤,他就鋌而走險;有100百分之百的利潤,他就敢踐踏一切人間法律;有300百分之百的利潤,他就敢犯不論什麼犯罪行為,甚至於冒絞首的危險。』 作弊者從來就不憚懲罰,當互聯網狂潮來臨,尋求pageview的作弊者們更是肆無忌憚。



  無可無奈何的搜索引擎網站,只有去尋找新的相關性排序根據,只有去尋找作弊者不可以扼制的排序根據,只有去網站之外尋找排序的根據,搜索引擎網站,實在別無選擇。



  於是,開始出現了超鏈剖析,出現了Pagerank。一個網頁,說它自個兒是啥子,它就是啥子嗎?物以類聚,假如它說的是實在,那末指向這個網頁的鏈接應該來自具備同類內容的網頁,所以指向這個網頁的鏈接可以被用來驗證這個網頁的相關性。



  誰,最沒可能出於貪婪而作弊?誰,最有可能如實供給網頁內容?是政府網站,和教育網站。所以,在超鏈剖析中,gov和edu網站一般被賦予較高的名次,來自gov和edu的超鏈也有更高的價值。



  不過PageRank也帶來了一點不請自來的錯誤排序因素:新站還不如舊站,小站還不如大站,專業站還不如通俗站。一個新網站,一個小網站,一個專業網站,它的內容再好,因為沒可能迅疾獲得數量多的超鏈,所以無法獲得合宜的名次,縱然它的內容是無與倫比的。而一個歷史年代久遠的老網站、大網站、通俗網站,縱然它已久不更新,還是內容遠還不如某些小網站,卻可以獲得頎長的名次。



  當超鏈剖析剛出來時,SEO界一片悲觀論調,認為這是無法作弊的,SEO業完蛋了(有如近期各搜索引擎網站紛紛收費,SEO業更覺得自個兒前面的景物慘淡,其實雖然搜索引擎網站名次市場的大頭要給搜索引擎網站們,但SEO還是有錢賺的,畢竟,只有勞動值得學習的有下崗的有可能,從來沒聽說騙子會失業的),不過,莫高一次道高一丈,很快SEO們發現了對付超鏈剖析的辦法:你不是喜歡鏈接麼,好,我就做數量多的網站,准備數量多的鏈接,哪個客戶出錢,我全部的網頁都給它一個鏈接。這種SEO辦法被稱為link firm。這種辦法剛出現時還算管用,不過很快就不可以了,因為一個網站是否有數量多來自內容無乾網頁的鏈接,還是一個不是搜索引擎網站的網站給出數量多無乾的鏈接還不難判斷。而每當發現一個link firm,那一些運用了該link firm的網站就所有死翹翹。我在wmw的論壇上看過一個家伙的帖子,說他的網站被封了,但他覺得自個兒很乾淨,沒有做spam,所以主動去問Google封他網站的端由,原來僅僅是因為他用了一個link firm,真是憐惜。



  一種搜索結果的排序算法,假如更多的是基於概念、主題、基於網頁內容的質量,而不是網絡上相互鏈來鏈去的超鏈的關緊性,那末搜索結果的相關性在本質上會更好。



  只是,讓計算機學會了解和評價網頁內容嗎?好似還是很遙遠的事物;花數量多的人的勞力一個個網頁評估麼?這肯定是虧本的商業行為,只有靠志願者。ODP庶幾近之,但也只能點擊,用關鍵字搜索時還是無法跟超鏈剖析的結果相形。



  • 有關:

  • 搜索引擎網站技術及發展方向

  • 搜索引擎網站跟蹤

  • 搜索引擎網站運用技法

  • 搜索引擎網站的技術進展發展方向

  • 網絡搜索引擎網站與智能攝理技術

  • 簡談搜索引擎網站辦公流程

  • 啥子是搜索引擎網站

  • 漢字搜索引擎網站的十大誤區

  • 關於SEO寫文章中五個最常問的問題