谷歌搜索引擎對Flash 文件的索引問題探討

核心提示:索引團隊的軟件工程師 Ron Adler 和 Janis Stipins ,將就我們最近在 Flash 文件索引編制上取得的改進與大傢進行更深入的探討和交流。

問:目前哪些 Flash 文件能更好地被谷歌索引到呢?

我們改善瞭對所有類型 SWF 文件中的文字內容的索引能力,其中包括像按鈕或菜單這樣的 Flash 小工具,獨立自成一體的 Flash 網站,以及所有介於兩者之間的 Flash 形式。

問:這些 Flash 文件中的哪些內容能被谷歌更好地索引呢?

用戶在與您的 Flash 文件互動過程中所看到的一切文本內容都將得到更好地索引。如果您的網站包含 Flash ,其中的文字內容會被 Google 用來生成您網站的摘要。同時,出現在 Flash 文件中的文字可以用來匹配用戶在 Google 搜索框中輸入的搜索查詢。

除瞭索引 Flash 文件中的文本內容,我們現在也能夠識別在 Flash 文件中的出現的 URL ,並且把這些鏈接納入搜索引擎機器人爬行的目標隊列中,就像對待那些非 Flash 網頁中出現的 URL 一樣。例如,如果您的 Flash 應用程序中包含指向您網站內部頁面的鏈接,Google 現在能夠更好地發現並抓取您的網站。

問:那麼 Flash 文件中包含的非文本內容呢,比如圖片?

目前,我們隻能識別和索引 Flash 文件中的文本內容。如果您的 Flash 文件裡隻有圖片,我們將不能識別和索引出現在這些圖片中的任何文字。類似地,如果一個 Flash 按鈕沒有任何附屬的文字的話,我們將無法對這類指向特定鏈接的 Flash 按鈕生成任何錨文本。

還應註意到的是,我們無法索引 FLV 文件,比如在 YouTube 上播放的視頻,因為這些文件沒有包含任何文字元素。

問:Google 是怎樣識別 Flash 文件裡的內容呢?

我們開發出瞭一種算法,這種算法可以使 Google 機器人能夠模仿人類通過點擊按鈕、輸入內容等方式來瞭解 Flash 文件。我們的算法能夠記住沿途它遇到的所有文字內容,其後這些內容都能被索引到。我們無法告訴您更多的保密細節,但是我們可以告訴您,通過使用 Adobe 的新型可檢索性 SWF 數據庫,這種算法的有效性得到瞭進一步提高。

問:我怎樣做才能使 Google 索引到我的 Flash 文件中出現的文本呢?

基本上,您不需要做任何事情。我們已經取得的技術改進,使這項功能的實現,無需網頁設計者或網站管理員做任何特別的操作。如果您的網站上有 Flash 內容,我們會在現有技術能力的基礎上,盡最大能力對它們自動進行索引(詳見接下來的問題)。

也就是說,您應該瞭解 Google 現在已經可以識別那些展現在您網站訪問者面前的文字信息。如果你希望 Google 忽略一些次要內容,如版權或加載等信息,您可以考慮把那些文本替換為圖片,這樣它們就不會被我們抓取到瞭。

問:在索引 Flash 文件上,Google 遇到的主要技術難題是什麼?

目前的問題主要體現在三個方面,這也正是我們在努力解決的:

1、Googlebot 不能執行某些類型的 JavaScript 程序。因此,如果您的網頁通過 JavaScript 加載 Flash 文件的話,Google 可能無法識別該 Flash 文件,在這種情況下,它將不會被索引到。

2、目前,我們還無法把那些通過您的 Flash 文件加載的外來內容和您的 Flash 文件整合起來。也就是說,如果您的 Flash 文件加載瞭一個 HTML文件,或一個 XML 文件,或另一個 SWF 文件等等,Google 將分別索引這些資源,但是它們將不會被認為是您 Flash 文件內容的一部分。

3、雖然我們能夠索引在網絡上出現的幾乎所有語種的 Flash ,但在識別用雙向語言書寫的 Flash 內容還有一定困難。在這個問題解決之前,我們將無法識別和索引 Flash 文件中的希伯來文或阿拉伯文的內容。

但是,在這些問題上我們也已經取得瞭相當的進展,所以,敬請期待我們進一步的改進!