取得成功,而所有其他的一切都失敗,那我們依然是成功的。但如果我們做好了影片、社群、地球,但放棄了搜尋,那我們依然是失敗的。”當時,我發現幾位“產品多元派”,都在這句話的“當頭棒喝”之下想通了。
做好搜尋(2)
達成共識後,我彙集了大家的意見,飛到總部和CEO艾瑞克·施密特彙報。在開始我那份20多頁的PPT的演講前,我是這麼說的:“Our China strategy is simply to focus on web search; attend to every detail and win over users,before working on any other products。(我們的中國戰略就是專注於網頁搜尋,不放過任何一個細節,以此贏得使用者。之後,我們才考慮其他產品。)”
艾瑞克非常贊同這個觀點,他說:“搜尋業務是谷歌成功的奧秘,如果搜尋做不好,那麼其他的業務想做好就是紙上談兵。何況,網頁搜尋業務也是做好網頁廣告業務的基礎。”
在總部認可並決定谷歌中國先做好搜尋的基礎上,我們開始了提高中文搜尋的歷程。在做中文搜尋之前,我對工程師們說:“那些最酷最吸引眼球的業務,我們肯定都會去做。但不是現在去做,而是將來。在我們作出決定之前,大家可以各抒己見。而現在,一旦公司作了決定,我們希望大家都能夠全力以赴,專注搜尋業務!”
從那時開始,只要有任何員工想做搜尋以外的產品,我都儼然成為一個Mr。No(“說不”先生)!我總是說:“做好搜尋後再說!”
統一思想後,我們就開始在搜尋頁面的每一個細節上鑽研,在每一個可能的選擇上進行測試。當然,我們選擇提高頁面搜尋質量,讓谷歌“讀懂中文”,也意味著谷歌中國要忍受產品很少的“批評”。面對媒體的批評,面對外在的質疑,我們只有像一個堅持己見卻暫時沒有票房的電影導演那樣堅持自己的理想,我們就像一個沉默的劍客一樣在聒噪的環境中專注修煉內功。
頂住壓力,不要盲從,向來是成功者必須具備的重要素質之一。
修復中文搜尋並不是一件簡單的事情。其中可能有一萬個細節需要工程師們一一進行認證。而這種修正不可能“跟著感覺走”,而是需要先研究中國使用者的搜尋習慣,然後再根據這些習慣提供使用者喜歡的搜尋。
在谷歌中文搜尋2000年上線的時候,出現了一個嚴重的技術問題,谷歌中文總是把握不好“分詞”的問題。有一天我看到一篇清華的分析,說在搜尋引擎裡面,谷歌的精確度還是不錯的,甚至領先其他中文搜尋網站,但是分詞做得不夠好,原因就在於投入不夠。因為當時谷歌只有五位工作在美國的華人工程師,他們無法集中精力做好這件事情。
當系統無法準確分詞時,就會鬧出很多笑話。比如,使用者輸入“電腦”兩個字,正常的情況是,頁面左側應出現“電腦”的搜尋結果,右側應該出現電腦產品廣告,但因為分詞的錯誤,可能會把“電腦”分成“電”和“腦”兩個字,出現的結果和廣告居然是關於“電話”和“腦白金”的,真令人啼笑皆非。
在搜尋引擎領域,分詞是中文特有的一個挑戰,我們需要做的不是做一個符合語言學的分詞,而是一個符合使用者使用習慣的分詞。比如說,除了要把常用詞正確分開外,還應該分清最新的網上用詞,比如“打醬油”、“芙蓉姐姐”等等。
而即使分詞正確也仍可能造成匹配的問題。比如說,如果有一篇文章裡面提到“清華大學”,但搜尋“清華”,這篇文章就出不來了。但如果分詞時把文章裡的“清華大學”分成“清華/大學”,那麼搜尋“清華大學”又出不了結果了,谷歌對這個問題研究了很久。
做好搜尋(3)
有一天,谷歌中國工程研究院副院長劉駿跑來興奮地說:“開復,你的語音搜尋論文可以用在分詞上。如果我們把中文的字當做語音,然後用語音識別的方法和統計語言模式來識別出所有可能的分詞方法,那麼匹配正確時,‘清華’和‘清華大學’就可能同時出來。還有,我們有這麼大的網路語料庫,可以訓練出一個非常巨大而精確的語言模型。”後來,他帶領團隊真的實現了這方面的突破。
在2006年下半年到2007年上半年,我們的工程師一一檢查嘗試各種領域的各種搜尋詞,並統計出所有不合理的搜尋結果,然後再向美國的工程師學習如何在系統裡進行