R“量身定做”一篇有關經驗比較的論文。
當時研究院正在參加TREC 比賽。這個比賽中有一個任務叫做Topic Distillation,其目的是找到與所查詢主題最相關的子網站入口,也就是說即便有的時候子頁面比父頁面更加相關,我們還是希望返回父頁面。為了解決這個問題,我們提出把網頁裡的關鍵詞按照網站結構向父頁面進行傳播。經過實驗驗證,這個方法非常有效。於是我就想,是不是還有其他類似的做法呢?除了關鍵詞以外,我們是否可以把網頁的相關性得分(relevance score)進行傳播?除了沿著網站結構以外,我們是否還可以沿著超級連結結構進行傳播?有了這個想法以後,我們對以往的相關文獻進行了調研,發現確實有人做過把相關性得分沿著超級連結進行傳播的嘗試。這就啟發我對以上提及的各種傳播方式進行系統的對比研究。於是我把所有相關的方法進行列舉、分類,並對其進行了大量的實驗比較,並最終得到了很多有意思的結果。我按照自己總結的SIGIR的“正規化文字”,把這些比較結果寫成了一篇論文,提交給了SIGIR 2005。最終這篇文章被錄用了。雖然有些幸運的成分,但是不管怎麼樣,透過“模仿”,我的SIGIR之旅正式啟航了。
第二年:“掌握擴大戰果的本領”
發表第一篇文章固然重要,但是如何排除幸運的因素,真正具有持續發表SIGIR論文的實力更加重要。這方面,微軟亞洲研究院的國際化平臺給了我很大的幫助。每年,研究院都會吸引大量國外的知名學者來進行訪問交流,我正是藉助這樣的機會認識了楊益銘教授。
楊益銘教授是美國卡耐基梅隆大學的教授,是文字分類領域的專家。我有幸在她訪問研究院期間和她合作了的一篇論文。當我把初稿寫出來讓她修改的時候,她來來回回和我討論了5遍“引言”怎麼寫。其實她完全可以直接幫我把這一章改好,所花的力氣要少很多。但是楊老師耐心地給我提意見,讓我自己一點一點修改。這個過程使我意識到有了好的技術,還要清晰準確地表達出來,恰到好處地突出自己的貢獻。這對我日後的論文寫作以及給學生改論文都有很大的幫助。至今仍然十分羨慕楊老師的境界:“寫論文其實是一件很享受的事情,寫起來象清泉流水一樣,禁不住要把那麼好的研究成果和別人分享”。 電子書 分享網站
找到屬於自己的關鍵詞 劉鐵巖(2)
和楊老師合作在SIGKDD Explorations 上發表了一篇關於大規模文字分類的論文之後,我又開始了獨立準備下一年度SIGIR論文的階段。不過,這次明顯感覺與以往不同了:不再是為了量身定做一篇論文而找題目做,而是圍繞著自己正在做的研究題目寫論文。
這次我準備的兩篇文章一篇講的是基於隨機補的網路圖排序,另外一篇則是關於文件檢索的新演算法。它們都不是有關經驗比較的論文,也沒有像第一年那樣按照SIGIR的“正規化文字”來寫,但是這兩篇文章也都被SIGIR 2006錄用了。
經過這個過程,我感覺自己真的入門了:至少知道什麼樣的工作是SIGIR這個領域真正認可的工作,也知道如何寫出具有自己風格的論文來。
第三年:“找到屬於自己的關鍵詞”
入行兩年發表了3篇SIGIR論文,其實並不是一件容易的事情,因為這個會議競爭非常激烈,每年全球範圍內只收錄幾十篇文章,而且無疑來自美國的論文佔了絕大多數。也因此,我慢慢被一些外面的學者認可,也接觸到了更多的同行朋友。
一次開會的時候,和幾個同行聚在一次聊天,各自介紹自己的研究方向。到我表達的時候,發現只能用“資訊檢索”這樣的大詞來形容,因為自己做過的3篇SIGIR論文相關性並不大,很難找到更貼切的描述。一個朋友說:你要有自己的關鍵詞,比如美國伊利諾斯大學香檳分校的翟老師的關鍵詞就是語言模型,卡內基梅隆的楊老師的關鍵詞就是文字分類,你的關鍵詞是什麼?
這個問題給了我很大的觸動。仔細想想,確實知名學者多半都有他們自己的成名之作,有很集中的研究方向。而我目前的狀態似乎還是有點為了發論文而發論文,沒有真正地去規劃屬於自己的研究方向。如果繼續這樣下去,可能接下來的幾年裡我還會發表更多的SIGIR論文,但是當再次被別人問及同樣的問題時,我仍然無法避免這種尷尬。所以,我決定要集中火力,做有影響力的,可以作為自己