Google通過提交表單抓取新頁面

Google雖然已經是抓取頁面最多的搜索引擎，但還是不滿足，因為有很多網頁和信息是很難被發現和抓取的。這也就是為什麼做網站時一定要註意搜索引擎友好。

現在Google開始提供提交表單（form）發現其後的網頁。本想寫個詳細說明，剛好看到幻滅已經寫瞭，就直接引用主要內容如下。

之前我們已經知道Googlebot除瞭能抓取文本、視頻、音頻、Flash等類型的內容外，它還可以通過JS代碼抓取鏈接。並且在未來，Googlebot還有望直接識別圖片及視頻裡的文字。為瞭進一步抓取互聯網的內容，Google宣佈Googlebot已可通過提交表格抓取更多內容。

據Google所述，當前Googlebot正對一小部分高質量網站進行表格提交的試驗。當Googlebot發現這些網站上有HTML表格時（即檢測到時），它就會自動從網站上選擇一些詞語輸入表格的文本框裡，然後再選擇不同的按鈕、勾選項及驗證項，再提交表格。提交表格後一旦 Googlebot認為出現的新內容是合法並且是有趣及獨特的，它就可能會把內容抓取進Google的搜索結果索引數據庫裡。這意味著Googlebot 現在已經懂得通過提交表格而獲得新內容。

同時Google也強調，如果網站的robots.txt文件裡禁止瞭對表格進行瞭隱藏，不希望表格提交後所產生的鏈接被抓取，那Googlebot 是不會抓取的。此外，當前Googlebot隻提交GET類型的表格。比如當表格需要輸入用戶個人信息比如密碼、用戶名、聯系人等，Googlebot是會自動略過這些表格的。

這種表格抓取當前隻是一個小范圍的試驗，Google表示不會對網站造成影響。既不會對網站的PR值造成影響，也不會對網站的正常抓取、排名等造成影響。

Matt Cutts也寫瞭個帖子舉例說明這麼做的好處。有很多網站首頁隻是以表單方式列出公司下屬的各地區分站，沒有以鏈接形式列出各分站。這種網站以前是不能被深度收錄的，因為Google不提交表單，就發現不瞭隱藏在表單後面的URL。

這當然給一些網站的收錄創造瞭機會，是否也會對某些公司網站帶來一定的安全風險？網站某部分不想被收錄的話，趕緊用robots.txt文件禁止吧。

The Blog

SEO諮詢: (852) 27208908