終飧魷釒俊S謔俏頤薔土⒓純�劑朔止ず獻鰨�創罱ㄒ桓齠說蕉耍╡nd…to…end)的系統原型。其中,我和一個實習生翁銳浩主要負責哼唱搜尋演算法的改進,其他幾位同事,包括STC的歐佳凡和WLMC的王曉兵,負責搭建搜尋平臺。
重拾哼唱搜尋
曉兵和佳凡的工作卓有成效,他們同###的高陽公司合作,很快就搭建了一個系統平臺,並申請了一個臨時聲訊服務號碼(當時是125905988)。透過這個平臺,我們就可以有效地採集真實資料。使用者可以透過手機直接撥打服務號碼,系統會記錄下每一條哼唱記錄。我記得當時我們有一部手機專門用來做資料採集。我們邀請了很多同事和實習生,把手機交給他們,讓他們留下自己“美妙”的哼哼聲。對於哼唱環境、哼唱方式、哼唱歌曲,我們都沒有加以限制,以期得到符合使用者習慣的最真實的資料。透過這個系統,我們得到了大量的資料。
有了真實的資料,我們就著手演算法的改進了。演算法的改進主要在兩方面:一是哼唱的旋律提取,我們考慮了不同的背景噪聲和訊號畸變,提出了更精確的方法來檢測和分割每一個音符;二是匹配模型的改進,我們使用了隱馬爾科夫模型 來作旋律匹配,明確考慮了哼唱和資料庫音樂之間的音符對齊問題,將它更有效地整合到了改進的旋律模型、節奏模型和匹配時的容錯模型中。我們還提出了一個更加系統化的匹配過程。
經過幾個月的努力,我們終於開發出了一個更高效能的演算法。測試顯示,第一位歌曲的正確率 (top 1 accuracy) 達到了82%,在前五位中找到的比率更是接近90%。我們也搭建了一個線上服務原型:你可以使用你的手機,撥打一個服務號碼,根據提示音哼唱一段旋律,你就能得到你要找的手機鈴聲。這也是業界第一個哼唱搜尋手機鈴聲的系統。為了能在中國市場運作,我們還將此技術轉讓給了位於上海的美斯恩有限公司。
我們還把這個技術展示在微軟一年一度的技術節上(TechFest)上; 得到了非常不錯的反響。比爾·蓋茨也過來看了我們的演示。我也第一次獲得了與比爾·蓋茨面對面的機會。後來有在微軟總部雷德蒙工作的同事對我說:“你的演示很成功啊,很多同事回來後還在討論呢。”
結束語
哼唱搜尋,只是我所經歷的眾多專案中的一個。之所以講講它的故事,不僅是因為它是我第一個獨立專案,而且它也讓我懂得,做一個專案,不只是僅僅做一個實驗室演算法,而是要系統地綜合地考慮其應用場景甚至商業模型,考慮真實使用環境並使用大數量多樣化的真實資料。做到這一點,才有可能使你的技術應用於現實生活中,才有機會讓使用者感受到科技改變生活。
我想,無論工業界的研究員,還是高等院校裡的學生,都可以從這個角度去重新審視一下手中的問題和解決方案。
作者介紹:
蘆烈,2000年加入微軟亞洲研究院,現為語音組研究員。主要研究方向是機器學習,音訊、音樂的內容分析和檢索。他在國際一流期刊和會議上發表過50多篇論文,擁有近20項專利;曾多次在國際會議上擔任技術委員會成員。他於2000年獲上海交通大學電路與系統專業碩士學位,現兼於荷蘭代爾夫特理工大學攻讀博士學位。他寥有所好,溺於技術而疏於藝術。好音樂而做音樂分析,卻常因沒有音樂細胞而心有慼慼。 希望有朝一日自己的研究成果可被廣泛應用。
研究院“&”的故事 陳剛(1)
創新工程組(Innovation Engineering Group,簡稱IEG)是研究院中一個非常特殊的非研究性質的組,它負責很多研究組的研究原型和技術轉移工作。許多研究院技術背後都有這個組的貢獻。由於IEG支援的研究組很多,開玩笑說,就 “研究方向”的數量而言,她可以穩坐研究院第一。
出乎一般人意料的是,這個主要由軟體開發工程師而非研究員組成的開發組竟然是研究院成立的第一個組,現在也是10歲了。令人驕傲的是,2003年,從它分化出一支並壯大成立了微軟亞洲工程院(ATC)。2005年,搜尋技術中心(STC) 的成立也是從這個組開始的。再後來,開發組合並使用者體驗 (User Experience) 後形成了現在的創新工程組(IEG)。我們組現有二十多人,有老有少,有中國人也有外國人,而且終於有了女性開發工程師,作為一個微軟內部的軟體開發