關燈 巨大 直達底部
親,雙擊螢幕即可自動滾動
第144部分

“現在國內進行這方面研究的,主要是幾個大學,其中京華大學的研究比較前沿,國內其他大學在這方面的研究,也大都在配合京華大學的研究,做一些基礎詞庫整理工作,媽的實驗室也有人在做這方面的研究,主要承擔的是h到p的詞彙整理建庫工作,目前完成度已經到百分之八十了。”楊靜宸說道。

聽了楊靜宸的介紹,肖遠說道:“基礎詞庫大概什麼時候能夠建好?”

“這個很難估計。”楊靜宸說道,說完看到肖遠眉頭皺了起來,又說道,“你要真的想在搜尋引擎中使用自然語言處理演算法,媽倒是能給你一些建議。”

肖遠用詢問的目光看著老媽,等著她繼續。

“人們要利用你說的搜尋引擎在網上檢索資訊的話,我想他們用的最多的,肯定不會是完整的句子,而是一些關鍵詞,或者一些短句,僅僅分析關鍵詞和短句的話,難度就洠в心敲創罅耍��夷鬩矝'必要一下子就把產品做的那麼完美,人們以前從來洠в薪喲ス�庋�牟�罰��裕�恍枰�恍┘虻サ鬧悄苄裕�妥鬩遠雜沒Р��愎壞奈��α恕!毖罹插匪檔饋�

肖遠點了點頭,說道:“這個我自然是知道的,不過咱們國內的研究狀況讓我有些失望罷了,第一版肯定不能一下子往裡面放太多的東西,只需要做出一個基本的東西,然後根據使用者的反饋和新技術的成熟,再擴充,讓它越來越完善,這好像是軟體工程上有名的xp程式設計。”

“你知道xp程式設計?”

楊靜宸卻是因為肖遠提到xp程式設計感到很驚訝,大概是想不到肖遠還會去看軟體工程方面的書吧,更何況xp開發方法還是近幾年才有人提出來的一種很新的方法。

“瞭解一些。”肖遠卻是洠в邢氳階約核嬋詰囊瘓浠埃�寄莧美下韙械驕�齲�謔薔桶鴉邦}又拉回了正睿��檔潰�奧瑁�業褂懈魷敕ā!�

“什麼想法?”楊靜宸問道。

“我想讓玄涅搜尋和你的人工智慧實驗室進行深度合作,一方面,你們能夠從玄涅得到一定的資金支援,而且你們還可以利用玄涅搜尋所採集的海量網路資訊資源,另一方面,玄涅也能夠第一時間將你們的研究成果應用到自己的產品中,提升公司的技術含量,我認為這是一件雙贏的事情。”肖遠說道。

“學校科研和企業合作,儘快轉化成生產力,是咱們國家一直提倡的,人工智慧實驗室這些年,也一直在尋求與企業合作,聯合研發,所以,如果玄涅想要合作的話,實驗室當然歡迎了。”楊靜宸說道。

“那好,等時機成熟後,我讓唐新宇和你們談,具體過程我就不參與了。”肖遠說道。

……

和老媽又聊了一會兒,肖遠再次回到了自己的房裡,把企劃書看完,思索片刻,他拿出紙筆,開始構思玄涅搜尋引擎的技術架構了。

第303章 玄涅重組

雖然後世以百度、谷歌為代表的搜尋引擎最終呈獻給使用者的,只是一個只有一個搜尋條和一個搜尋按鈕的簡單頁面,但是隱藏在頁面後臺的卻是一個由成千上萬臺伺服器,天文數字級的海量資料,以及一個複雜的搜尋引擎軟體組成的龐大系統,而這個系統的核心,就是搜尋引擎。

搜尋引擎雖然很複雜,但是其系統總體架構卻並不複雜,主要由網路資料採集模組,資料分析排序模組,資料庫,使用者查詢請求分析模組等組成,起工作流程也很簡單:網路資料採集模組是一個很重要的模組,其主要功能是從網路上抓取網頁資訊傳送回搜尋引擎伺服器,這個模組有一個很形象的名字,叫做網路蜘蛛,也有人把它叫做網路機器人,之所以叫網路蜘蛛,是因為蜘蛛會踩著它吐的蛛絲在網上漫步,而網路蜘蛛雖然自己不吐絲,但是網際網路上的超連結卻將無數的網頁連線成一個巨大的網,網路蜘蛛則會在這個網上不停地到處爬行,採集網頁資訊,之所以叫網路機器人,卻是因為這種爬行搜尋的過程,是完全自動化進行的緣故。

網路蜘蛛將蒐集到的網頁資訊,傳送回搜尋引擎伺服器,由網路資料分析模組對之進行分析,按照一定的演算法,給每個網頁賦予一定的權重,將網頁進行排序。

判斷一個搜尋引擎的優劣,很大程度上,取決於這個排序演算法,一個優秀的全文搜尋引擎,能夠透過最佳化排序,讓使用者第一時間得到自己想要的資訊,而不用繼續往下翻頁,所以,這個排序演算法將會是整個搜尋引擎最核心的技術。

對此,肖遠自然也是十分熟悉的,實際上,他並洠в寫蛩憒油分廖滄約憾懶⑷ネ瓿傷閹饕�嫻