隨著人工智能的快速崛起與落地,數據成為困擾人工智能進一步發展的主要障礙。針對這一困境,百度近期宣布向國內外高校免費開放AI數據集。作為百度AI公開數據集計劃的重要組成部分,這一舉措將降低機器學習、深度學習的門檻,對高校師生的AI研究有著直接顯著的幫助,并將進一步吸引、挖掘與培養高校中的AI人才。

百度開放海量優質數據 解決當下高校研發難題
如今,人工智能模型和算法獲取的渠道雖多,但數據數量的缺失和質量的瑕疵成為橫亙在科研機構和個人面前的巨大障礙。對此,許多高校師生表示,目前國內特別是高校能接觸到的數據非常有限,國外的數據集又難以獲取。數據的缺失與數據采集、標注的高成本,大大阻礙了學生進行算法優化與發表學術論文的進程,成為了高校師生開展AI前沿技術研究和探索的一大障礙。
在2017百度世界大會AI技術與平臺論壇上,百度3D視覺首席科學家楊睿剛宣布推出目前全球規模最大的開放數據集——百度AI公開數據集計劃“BROAD”(Baidu Research Open-Access Dataset),面向公眾開放包括室外場景理解數據集、視頻精彩片段數據集、閱讀理解數據集在內的三大數據集,AI數據集的開放也恰好解決了科研及學習中的數據來源困境。而重點面向海內外高??蒲袑W子推廣使用百度AI數據集這一舉措,更將顯著降低機器學習、深度學習的門檻,進一步吸引、挖掘校園中潛在的AI開發者。

百度開放的三大AI數據集之一——室外場景理解數據集來源于百度自動駕駛事業部,其中包括世界上第一個帶像素級語義標簽的室外3D視頻。視頻精彩片段數據集囊括1500個長視頻以及18000個精彩小視頻,能夠提供視頻幀的圖片特征序列。而首次亮相的百度閱讀理解數據集DuReader,則是迄今為止規模最大的中文開放領域閱讀理解數據集。
覆蓋海內外百所高校 為千萬師生提供強大學習驅動力
目前,百度通過對海內外重點高校AI強相關院系的定向宣傳、普及活動,已吸引海內外近160所高校關注和下載使用,其中既涵蓋了清華大學、北京大學、浙江大學、中國科學技術大學等國內重點院校,也覆蓋了斯坦福大學、加州大學洛杉磯分校、麻省理工學院等海外知名學府,獲得了海內外高校師生的積極響應。
這些開源的數據集,將在AI時代發揮長遠的價值。數據開源化可以有效地幫助實驗室研究者提升算法優化的驗證效率,讓難以獲取數據集這一問題不再成為科研人員的困擾,對其進行算法優化有直接顯著的幫助。另一方面,對于日常教學而言,開源的數據集可以作為學生日常算法訓練的評判依據,方便學生們獲取測試數據。此外,其對學生在高校從事科研工作也同樣具有重要意義,不僅使學生能夠接觸、使用開源的數據集進行開發,提前得到算法模型優化的訓練,更能為今后成為高質量的算法工程師打下基礎。
未來,百度還將持續著力向廣大高校開源不同方向和研究領域的數據集,為高校AI技術提供強大的學習驅動力,鼓勵高校探索人工智能學科領域當中最有價值的技術問題,并在百度完善的AI人才培養機制下,進一步吸引、發掘和培養中國人工智能領域的精英技術儲備人才,讓未來充滿無限可能。
特別提醒:本網內容轉載自其他媒體,目的在于傳遞更多信息,并不代表本網贊同其觀點。其原創性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾,并請自行核實相關內容。本站不承擔此類作品侵權行為的直接責任及連帶責任。如若本網有任何內容侵犯您的權益,請及時聯系我們,本站將會在24小時內處理完畢。