近日,百度“松果計劃”啟動了一個全新的合作項目,該項目將再次與中國科學院計算技術研究所聯手,共同研究 “面向全網數據的知識圖譜構建方法研究” 的技術課題。2015年百度互聯網數據研發部就已與中科院計算所共同合作合作了名為“建立全自動知識數據生產系統模型的雛形”的松果項目,該項目支持精準問答下的人物職位問答、娛樂人物關系問答以及圖譜中間頁人物關系圖譜的生成。此次與中科院的再度合作將在此基礎上進行深入研究進一步擴大與提高知識圖譜的應用范圍與能力。

高效提取知識數據 機遇與挑戰并存
目前的技術條件下,能夠滿足互聯網產品的知識類數據的提取較多地依賴人工操作,耗費大量的時間、人力和財力,同時數據的挖掘源局限于少量top級網站,因而此次松果計劃新項目的核心是找到高效地提取全網知識數據的方法。
另一方面,新項目也將面臨諸多的挑戰。互聯網下擁有龐大的網絡數據,包括千億級別的中文網頁,面對如此龐大的數據量,其計算量將是一項艱巨的挑戰任務。此外保持每天更新的知識能及時錄入知識庫也將是該項目面臨的難題。挑戰的同時也伴隨更大的機遇。在全網范圍內挖掘數據,可以提升實體的覆蓋率,而這些收集到的大規模互聯網數據可以提供更豐富的信息,除了文本信息之外,還將提供網頁布局的信息,以幫助知識提取模型有更好的表現,同時互聯網數據包含大量冗余信息,有效利用這些特性將幫助提升知識提取模型的準確性。
本次研究輸出的知識數據未來將直接運用于百度的產品中,諸如百度搜索、度秘等。項目對這些產品將有三方面的提升,首先會擴大搜索信息覆蓋量,支持精準問答下的直接回答,為用戶直接提供搜索結果,使得搜索效率大大提升;其次,支持模糊類搜索query,使搜索過程中的交互體驗更加自然順暢,例如將提升用戶和度秘之間的交流體驗;最后,使搜索結果的摘要展現形式將更加豐富多樣。
百度松果計劃 校企合作生態下的共贏模式
百度始終堅持持續創新的態度,致力于連接人與服務,中科院計算所在數據挖掘領域有深厚積累和豐碩的研究成果,同時中科院在該領域有諸多資深專家與優秀學生,極具技術優勢和學術積累。中科院計算所將派出優秀同學作為實習生進入百度,直接參與百度的實際項目,百度技術大牛也將對其進行一對一的指導。
以百度“松果計劃”為代表的校企合作模式,實現了企業與高校間資源共享、優勢互補,將技術優勢和理論依據相結合,不僅為高校相關領域的專家學子提供了了解互聯網行業實際問題的機會,還能在合作解決問題的同時產生更多的學術成果,促進相關技術領域的發展,為人們提供更便捷的服務。正如“松果計劃”項目名稱的由來——松樹長青,松果成熟后內有松子,寓意著百度持續致力于與高校合作產生更多飽含學術價值的科研成果。
特別提醒:本網內容轉載自其他媒體,目的在于傳遞更多信息,并不代表本網贊同其觀點。其原創性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾,并請自行核實相關內容。本站不承擔此類作品侵權行為的直接責任及連帶責任。如若本網有任何內容侵犯您的權益,請及時聯系我們,本站將會在24小時內處理完畢。