���桓市模�錘刺崞鵠礎!胺湊�閌竊撼ぃ�闥底鼉妥靄傘!貝蠹宜怠S械閬翊鱟宓鈉盟�冢�玫畝際搶淥��
他跟我說你能做也得做,不能做也得做。我說我肯定做,而且肯定能做出來。不過,要允許下聯有多個候選,還要允許人機互動。另外,我需要時間。我當時可說是窮困潦倒,自然語言組不足10人,有兩名骨幹即將轉到微軟別的部門去。還有幾個專案同時在做技術轉移,包括搜尋引擎的拼寫檢查。大家還要趕寫很多文章。我就從清華大學中文系招了一位同學,他的名字是馬豔軍,聽上去像一個女孩的名字,人也是彬彬有禮的。
我設計了一個簡單的模型,把對聯的生成過程看作是一個翻譯的過程。給定一個上聯,根據字的對應和詞的對應,生成很多選字和候選詞,得到一個從左到右相互關聯的詞圖,然後根據一個動態規劃演算法,求一個最好的下聯出來。一個好的下聯其評價標準也很簡單,第一就是它跟上聯的對應程度,一般用詞和詞的對應機率來代表,第二就是生成對聯的語言模型,就是衡量它像不像一個對聯。馬豔軍在我的指導下,在兩個多月的時間裡,根據這個思路,就做了一個簡單的對聯生成系統出來。我於是向沈向洋報告進展,這也是沈向洋第一次稽核這個專案。
微軟對聯背後的故事 周明(2)
在他辦公室裡,我給他看了這個簡單的系統輸出的幾個結果。他看過之後,很驚訝地說,看來我們有戲呀,繼續努力吧!馬豔軍三個月之後,導師要求他回去,我只好去找語音組幫忙提供新的學生。我曾經在語音組幹過半年的經理,有點人緣。周健來很慷慨地介紹了吳法洲同學,他是清華軟體學院的研究生,曾經幫助健來做了手機上的輸入法。吳法洲同學來了之後不久,我又請我的實習生蔣龍同學加入。後來沈向洋讓他在北航的預定將來要讀他的博士的兩位實驗學院的大四同學加入這個研究小組。女孩子叫陶李天,男孩子叫蘇昊。我當時又請了北京大學中文系的兩位同學整理從網路上挖掘的對聯資料以及生成的對聯詞典。
後來是每隔三個月,沈向洋就會安排一次評審。每一次都鼓勵說,大有進步。每一次都強調“要多挖資料呀,沒有資料不行啊”。為了加強資料探勘,他特別請王堅派人幫助加強資料探勘。王堅就派了陳偉柱來,我就請偉柱幫助從網路上挖掘更多的對聯資料。偉柱果真了不起,在兩個月的時間裡,很快挖掘了大批的對聯資料。有了更多的資料,系統的效能得到了大幅度的提升。然後大家就討論能不能把橫批做出來。蔣龍同學很聰明,在一次開會的時候提出了一個方案——透過語義距離計算來和已有的上聯、下聯的句子最佳匹配的橫批。蘇昊根據這個方案實現了橫批模組。我們於是就盼望著下一次給沈向洋做彙報的時候給他一個驚喜。當時的院長助理李世鵬安排了時間。在五樓的一個會議室裡面,我給沈向洋和李世鵬演示了最新的對聯絡統。沈向洋出了一個上聯:“李敖對聯強”,電腦沉思了一毫秒,對出來“魯迅絕句多”。沈向洋說:“不錯,那麼橫批呢”。這時候我很忐忑,鬼才知道會對出來個爺爺還是奶奶。瞬間結果出來了,系統對出來的橫批是“語妙天下”。沈向洋一拍桌子,說“絕了!”。
那個時候,沈向洋滿腦子都是要找李敖比一比。我一直不敢。他說不要怕,輸了就輸了,反正是電腦,也沒有什麼丟臉的。如果要是贏了,我們就賺大了。我說要是限定時間,比如1秒鐘之內,我們準贏。要是不限定時間,比如任意由李敖想,那我們準輸。當時,沈向洋甚至設想了比賽過程:請幾個評委出題,讓計算機和李敖比一比;搞一個圖靈測試,把電腦的結果和人的結果,讓使用者評價。如果使用者評價電腦結果好的次數比較多,則電腦就算贏了。那一年,沈向洋和洪小文、金俊等人到臺灣訪問的時候,特意跟李敖一起吃飯,席間提起此事。李敖說,“我才不比,贏了沒有什麼了不起,要是輸了我一世的英名就完了。”李敖的聰明可見一斑。這件事也就只好掛起。
西湖邊上“秀”對聯
我們的對聯非常榮幸地在三次二十一世紀計算大會上由我進行了演示。第一次2005年在杭州,第二次2006年在清華大學,第三次2007年在南京。據我所知,在所有的二十一世紀計算大會上,微軟對聯絡統是唯一一個三次演示的系統。確實令人驕傲。微軟對聯還被認為是基於資料和基於實施(deployment driven research)的研究戰略的經典。我這裡再給大家講一講在演示時發生的故事。
第一次是