51.com的robots.txt有錯嗎?

什麼是robots.txt文件?

搜索引擎通過一種程序robot(又稱spider),自動訪問互聯網上的網頁並獲取網頁信息。
您可以在您的網站中創建一個純文本文件robots.txt,在這個文件中聲明該網站中不想被robot訪問的部分,這樣,該網站的部分或全部內容就可以不被搜索引擎收錄瞭,或者指定搜索引擎隻收錄指定的內容。

因為剛寫瞭51是因為二級玉米泛濫和站點垃圾造成被封,去站長站看見眼鏡蛇寫的是因為51的robots.txt的原因。

我仔細看瞭51的robots.txt而最後要駁反眼鏡蛇的判斷和定論!

每個站點都必須要有robots.txt嗎?

不一定,看情況

那麼robots.txt是針對任何搜索引擎嗎?

不一定,搜索引擎的概念是什麼先搞明白!至少他有蜘蛛,並且遵循robots.txt語法。像百度,google,yahoo都遵循
官方的robots.txt

robots.txt放在哪裡?

根目錄下,就是通過 /robots.txt等瀏覽訪問到的!

robots.txt怎麼寫?

請查詢:搜索消失原因是公司想借機炒作?

(聯系到五一國慶左右百度大規模檢查並封殺作弊網站,開始讓業界以為51.com是百度懲罰的網站之一,
通過某朋友提示到51.com的robots.txt文件,讓大傢明白瞭百度網站隻收錄一頁的原因,
並不是搜索引擎人為所至,而是51.com自身原因。 )

鬱悶一:五一成國慶瞭!

鬱悶二:robots.txt寫法遵循規則,搜索引擎也給予遵循!那麼就是眼鏡蛇以上文章的判定錯誤!不是51的robots.txt錯誤!

分析反駁:

因為51的主頁都在home下或者這個二級玉米下,那麼就這個來說!

1:/robots.txt 18行

Disallow: /home/ (假設隻針對百度,因為google 沒把51怎麼著,而之後分析則套用google的一些現象對比百度,除非他們不是一樣性質的遵循robots.txt的搜索引擎!)

百度給出的定義:

Disallow:/help/則允許robot訪問/help.html,而不能訪問/help/index.html

/search/robots.html

那麼就是說在/home/index.htm/index.html/index.shtml不能被收錄,因為home目錄下無主頁!

/home/index.htm 404錯誤
/home/index.html 404錯誤
/home/index.shtml 404錯誤
/home/index.php 404錯誤
/home/ 404錯誤

確定HOME下無默認首頁文件,一般都是404頁,這樣多搜索引擎會很不友好的,那麼當然仔細點的站點都會杜絕被搜索引擎視為死連接。
51的錯法就是Disallow:/help/則允許robot訪問/help.html,而不能訪問/help/index.html

判定:Disallow: /home/ 對於百度正確!

因為有:User-agent: * (針對所有搜索)

查看:site:51.com/home ,site:51.com/home/ ,site:/home , site:/home/
在google都有收錄,而不是屏蔽瞭home下任何,而隻是home下的默認首頁!

目前看不見百度的現象,根據User-agent: * (針對所有搜索)說明百度當時也是這樣!(80%一樣)

再查:site:home.51.com

第一結果為

51 博客網歡迎您home.51.com/ – 類似網頁

似乎home.51.com/下有首頁,似乎home目下也有首頁!

我們點過去則跳轉到/,因為目前搜索引擎都可以識別和收錄url轉發而非跳轉!

隨便查下home.51.com/的站點訪問使用情況!

比如:第二結果

獻給我最愛的00

home.51.com/home.php?user=nicolelove – 5k – 補充材料 – 網頁快照 – 類似網頁

而你使用 也訪問的是此home.51.com/home.php?user=nicolelove

也可以 :/home/Index.php?user=nicolelove (home下的任何其他文件可以收錄和訪問)

也可以:/home/Index.php?user=nicolelove 訪問而到/home/Index.php?user=nicolelove

也可以:/home.php?user=aiyoweiyaaaa到/home.php?user=aiyoweiyaaaa

嚴格按照URL說這個可以說是多URL或者路徑重疊,或者混亂,隻是一些沒告訴那些站長,隻告訴站長
就是你的主頁url

補充:

<*** LANGUAGE=Java***>
<!–
var t = addAccessRec();
if (isLoginF == ‘y’ isLoginHide != ‘y’) {
if (isAddAccess == ‘y’ t[0] == true) {
var URL = addAccessCount.php?user=nicolelovevisituser=time=1178309340;
addAccess(URL);// 增加訪客記錄
}
}
if (isAddCount == ‘y’ t[1] == true) {
var URL = addClickCount.php?user=nicolelovetime=1178309340;
addAccess(URL);// 增加點擊數
}
function addAccess(URL)
{
var oXMLHttp = new InitAjax();
oXMLHttp.open(GET,URL,true); //異步
oXMLHttp.setRequestHeader(‘charset’,’GBK’);
oXMLHttp.Send(null);
}
LoadXMLHTTP(/home/addMyVisitors.php?who=nicolelove);
//–>
</***>

看下最後第三段代碼!

搜索引擎在更多時是不允許這樣的現象的。二級玉米和獨立玉米都可以認為不同域下的站點和網頁!

比如: 這個是不存在申請的url站站點,那麼你輸入回車後就會提示:該用戶不存在

提示URL為:/home.php?user=piaoge999

點確定立即返回到/這樣的做法稍微比404錯誤返回友好瞭一些,可是假如我今天申請瞭,明天51刪除我瞭,
卻在之前百度收錄瞭我的/home.php?user=piaoge999或者呢?
那是不是現在該可以返回到/瞭呢?這個做法給搜索引擎造成多少麻煩?造成多少垃圾收錄?
降低瞭多少百度的技術可靠性的諷刺?

在/dispbbs_17_313_1.htmSEO優化之不要輕易使用泛解析 特別拿51來分析瞭的!

隻是沒這個寫的詳細,而這個文章飄哥則做瞭70%的分析列舉說明。要說明的是51被封是聯系到瞭濫用泛解析!

而反駁眼鏡蛇的是針對他說51的robots.txt的問題造成被封!而51的robots.txt寫法符合和遵循!

飄哥到今天還沒使用過robots.txt,隻是之前幫一個朋友從google拒絕收錄而找歷史記錄發現他的玉米曾經存在robots.txt
內容寫法是禁止收錄此站。告訴之則給google寫信給予瞭收錄。因為那玉米停瞭一段時間,google則還是按照當時robots.txt給予封閉!

此文結束,51的robots.txt有錯嗎?51的robots.txt是針對百度的嗎?百度是根據51的robots.txt把他殺瞭的嗎?