了。但如果分詞時把文章裡的“清華大學”分成“清華/大學”,那麼搜尋“清華大學”又出不了結果了,谷歌對這個問題研究了很久。
做好搜尋(3)
有一天,谷歌中國工程研究院副院長劉駿跑來興奮地說:“開復,你的語音搜尋論文可以用在分詞上。如果我們把中文的字當做語音,然後用語音識別的方法和統計語言模式來識別出所有可能的分詞方法,那麼匹配正確時,‘清華’和‘清華大學’就可能同時出來。還有,我們有這麼大的網路語料庫,可以訓練出一個非常巨大而精確的語言模型。”後來,他帶領團隊真的實現了這方面的突破。
在2006年下半年到2007年上半年,我們的工程師一一檢查嘗試各種領域的各種搜尋詞,並統計出所有不合理的搜尋結果,然後再向美國的工程師學習如何在系統裡進行修正。可以說,今天谷歌中文搜尋的每一點進步都是在工程師付出的辛勤努力下得來的。
那時,每天都有很多有關提高搜尋質量的會議在清華科技園大廈召開,谷歌內部的監測系統每天都在對各家搜尋引擎作出比較,我們評估搜尋相關度、網頁索引大小、即時更新能力和對垃圾網站的識別性。為了衡量我們的進度,在我辦公室外面就有一個大牌子,上面可以看到我們當天的四個指標表現如何,以及和競爭對手的差距又如何。
這是一項極其辛苦而回報率又相當低的工作。有時一個由五名工程師組成的團隊努力半年,也只不過把某一個指標提升0�1%而已。但我總是苦口婆心地鼓勵大家:這樣的工作是積少成多的。五個人半年做出的成果有限,但一百個人做兩年就會有巨大的變化。
為了增加中文搜尋產品的親和力,谷歌中國成立了一支使用者體驗團隊,成員中不乏心理學博士和碩士。我們將一間辦公室隔開,讓一些普通網民像平時那樣使用計算機。在隔壁的實驗室裡,我們透過安裝在計算機上的特殊攝像頭將使用者使用網際網路的習慣記錄下來。這種記錄非常精密,比如使用者每一秒眼睛停留在哪裡,滑鼠停留在哪裡等等。透過這樣的實時監測,我們能夠真切感受和精確瞭解中國網際網路使用者的使用習慣!
在研究使用者體驗的過程中,我們也發現了中美使用者很多不一樣的地方。比如,美國網際網路使用者搜尋的目標都比較直接,他們以找到自己想要的資訊為目標,一般只點選搜尋結果的前三個,之後就離開頁面。但中國使用者的目光更多是四處瀏覽,他們願意嘗試更多的搜尋結果,停留的時間也更長。中國使用者把搜尋當成一種探索,去點選網頁上各種有趣的東西。
還有一個很有意思的現象,就是中國使用者有時候在搜尋框裡並不完全鍵入所有的關鍵字,而是在鍵入之後直接拉到搜尋頁面的最下方去點選相關搜尋。比如,一位使用者想搜尋“秦皇島地圖”,但他只輸入了“秦皇島”三個字,搜尋結果頁面出來後,他直接在最下方的相關搜尋中點選秦皇島地圖。他說:“已經習慣使用相關搜尋這個功能了。”
谷歌中國的工程師認為,造成這種差別的理由有以下幾個:第一,中國使用者使用搜尋引擎進行探索的機率很高;第二,一些搜尋引擎將前幾個搜尋結果出售為廣告,使用者因此習慣了不信任排名較前的結果;第三,中文的輸入相對來說較慢,因此,中國的使用者寧願用滑鼠多點選幾次來完成搜尋,而不是長時間敲打鍵盤。
使用者的體驗給了谷歌工程師們很多靈感,比如,為了滿足中國使用者的搜尋習慣,谷歌在使用者鍵入搜尋內容的時候,就給予一系列的搜尋提示,這樣就省去了使用者向下拉頁面的麻煩。而我們也按照中國使用者的習慣,改變了搜尋摘要的長短、排版的版式、字型的大小,甚至字型的亮度。同時,我們還考慮了中國使用者普遍使用的顯示器規格,進而重新設定版面的安排。
做好搜尋(4)
每天,我都和工程師們用巨大的投影螢幕,檢測每一畫素的排版、顏色、字型等等。我們對各種指標進行現場比較,然後研究決定如何改進我們的中文介面和使用者體驗。
但是,所有的改進都必須有資料的支援。比如,我們曾經針對網際網路使用者做過一項調查,問題如下:“如果使用搜尋引擎,你是喜歡第一頁搜尋結果有10項,還是有20項?”結果90%的網際網路使用者都選擇有20項結果,因為他們想象第一頁結果多可以省時間。但事實卻並非如此,在真實的網路環境測試中,我們卻發現大部分使用者喜歡第一頁有10項搜尋結果!這是因為,第一頁呈現20個搜尋結果要比呈現10個搜尋結果慢0�15秒。在搜尋