Google通過提交表單抓取新頁面

Google雖然已經是抓取頁面最多的搜索引擎,但還是不滿足,因為有很多網頁和信息是很難被發現和抓取的。這也就是為什麼做網站時一定要註意搜索引擎友好。

現在Google開始提供提交表單(form)發現其後的網頁。本想寫個詳細說明,剛好看到幻滅已經寫瞭,就直接引用主要內容如下。

之前我們已經知道Googlebot除瞭能抓取文本、視頻、音頻、Flash等類型的內容外,它還可以通過JS代碼抓取鏈接。並且在未來,Googlebot還有望直接識別圖片及視頻裡的文字。為瞭進一步抓取互聯網的內容,Google宣佈Googlebot已可通過提交表格抓取更多內容。

據Google所述,當前Googlebot正對一小部分高質量網站進行表格提交的試驗。當Googlebot發現這些網站上有HTML表格時(即檢測到時),它就會自動從網站上選擇一些詞語輸入表格的文本框裡,然後再選擇不同的按鈕、勾選項及驗證項,再提交表格。提交表格後一旦 Googlebot認為出現的新內容是合法並且是有趣及獨特的,它就可能會把內容抓取進Google的搜索結果索引數據庫裡。這意味著Googlebot 現在已經懂得通過提交表格而獲得新內容。

同時Google也強調,如果網站的robots.txt文件裡禁止瞭對表格進行瞭隱藏,不希望表格提交後所產生的鏈接被抓取,那Googlebot 是不會抓取的。此外,當前Googlebot隻提交GET類型的表格。比如當表格需要輸入用戶個人信息比如密碼、用戶名、聯系人等,Googlebot是 會自動略過這些表格的。

這種表格抓取當前隻是一個小范圍的試驗,Google表示不會對網站造成影響。既不會對網站的PR值造成影響,也不會對網站的正常抓取、排名等造成影響。

Matt Cutts也寫瞭個帖子舉例說明這麼做的好處。有很多網站首頁隻是以表單方式列出公司下屬的各地區分站,沒有以鏈接形式列出各分站。這種網站以前是不能被深度收錄的,因為Google不提交表單,就發現不瞭隱藏在表單後面的URL。

這當然給一些網站的收錄創造瞭機會,是否也會對某些公司網站帶來一定的安全風險?網站某部分不想被收錄的話,趕緊用robots.txt文件禁止吧。