連續(xù)兩天,半夜爆出大消息。先是華為新機(jī)深夜上線,讓芯片國產(chǎn)替代的步伐更進(jìn)一步;次日晚,百度文心一言官宣向公眾全面開放——兩大勁爆消息直接點燃科技圈。
8月31日凌晨,百度官方公眾賬號即發(fā)布推文,稱“文心一言向全社會開放”,用戶可以在應(yīng)用商店下載“文心一言APP”或登陸“文心一言官網(wǎng)”體驗。包括百度文心一言在內(nèi),一共有8個企業(yè)/機(jī)構(gòu)的大模型位列第一批名單,可以正式上線面向公眾提供服務(wù),值得注意的是,被看作文心一言競爭者的阿里通義千問、360智腦、訊飛星火等,不在首批獲批名單中。
隨后“文心一言APP”在各大應(yīng)用商店沖上熱榜,在蘋果App Store上更是直接登頂免費榜榜首,成為當(dāng)日熱門應(yīng)用,這無疑讓百度再一次占得了先機(jī)。
此前,在獲得備案審批之前,各家只能小范圍內(nèi)測,用戶需要“排隊”申請內(nèi)測資格,由此大大限制了大模型在用戶層面的推廣,如今大模型備案獲批和全面開放,大模型的步伐有望邁入下一階段。
秉持著技術(shù)自主的理念,將資金大規(guī)模傾斜到自主技術(shù)研發(fā)的百度和華為,可以說是殊途同歸,而軟硬件領(lǐng)域的“雙子星”聯(lián)袂,共同推動技術(shù)投入走向“開花結(jié)果”。
技術(shù)堅守,換來厚積薄發(fā)
Technology stick, in exchange for accumulation
大模型在國內(nèi)掀起新一代技術(shù)浪潮,迅速席卷了整個互聯(lián)網(wǎng),而百度在大模型賽道上的步伐一直領(lǐng)先。2019年第一個發(fā)布了文心大模型,2023年,大廠中最早推出大語言模型“文心一言”,如今又率先獲批、得到認(rèn)可,正式向全社會開放。
百度之所以快速踩在了大模型的全球性技術(shù)風(fēng)口上,是建立在百度雄厚的技術(shù)基底之上。
早從2010年開始,百度就已經(jīng)著手布局AI相關(guān)技術(shù)的研發(fā),近十年來,累計研發(fā)投入超過1400億元。其中2022年研發(fā)費用高達(dá)214.16億元,占百度核心收入比例達(dá)到22.4%。與全球其他大廠相比,這些投入也是數(shù)一數(shù)二。
在高研發(fā)成本的持續(xù)投入下,這些年從最初探索深度學(xué)習(xí)等基礎(chǔ)技術(shù),到推動AI在互聯(lián)網(wǎng)等場景試點落地,再到如今扎根千行百業(yè)、大力推進(jìn)AI工業(yè)化大生產(chǎn)等,百度既完成了在芯片、框架、模型和應(yīng)用四層構(gòu)架對應(yīng)的自研技術(shù)積累,具備了做AI基礎(chǔ)設(shè)施供給者的前提條件,又成功引領(lǐng)了AI技術(shù)成果在產(chǎn)業(yè)層面的實踐,降低了人工智能的開發(fā)和應(yīng)用門檻。
這也使得百度無論在技術(shù)專利、技術(shù)產(chǎn)品還是技術(shù)應(yīng)用上,都占據(jù)了領(lǐng)先地位。以專利來看,根據(jù)由國家工業(yè)信息安全發(fā)展研究中心、工信部電子知識產(chǎn)權(quán)中心發(fā)布的《中國人工智能專利技術(shù)分析報告(2022)》顯示,百度AI專利申請量1.68萬件,連續(xù)五年保持中國第一;專利授權(quán)量上,百度仍以5705件專利授權(quán)量位列第一。
文心一言大模型,正是百度多年技術(shù)積累和產(chǎn)業(yè)實踐的水到渠成,而基于技術(shù)和實踐的領(lǐng)先優(yōu)勢,文心一言問世不到半年,在國內(nèi)外多家調(diào)研機(jī)構(gòu)、權(quán)威媒體和高校等發(fā)布的大模型評測報告中,表現(xiàn)優(yōu)異。
如IDC最新發(fā)布的《AI大模型技術(shù)能力評估報告,2023》,報告顯示,百度文心大模型3.5拿下12項指標(biāo)的7個滿分,綜合評分第一,算法模型第一,行業(yè)覆蓋第一。其中算法模型是大模型能力最為核心的要素,百度文心大模型在這一維度獲得了唯一的滿分。
更令外界欣喜的是,從測評來看,百度文心一言大模型能力從5月至今不斷提升,正在逐漸趕上國外大模型。
百度「AI大底座」的全棧能力,助力文心一言進(jìn)化
The full stack capability of Baidu's "AI big base" helps Wenxin to evolve
31日凌晨全面開放后,百度文心一言APP迅速飆升至蘋果商店免費榜榜首,成為首個登頂應(yīng)用商店榜首的中文AI原生應(yīng)用。
用戶的反響,透露出他們對文心一言表現(xiàn)出的強勁進(jìn)化能力的期待。自今年3月發(fā)布至今,文心一言快速成長,熟練掌握的創(chuàng)作體裁超過200個,內(nèi)容豐富度是發(fā)布初期的1.6倍,思維鏈長度是初期的2.1倍,知識點覆蓋達(dá)到初期的8.3倍。在一些公開測評中,文心大模型3.5版支持下的文心一言中文能力突出,甚至有超出GPT-4的表現(xiàn)。
這很大程度上得益于百度飛槳,百度擁有自研的深度學(xué)習(xí)平臺飛槳,它有力支撐了大模型的高效訓(xùn)練和推理。通過飛槳端到端自適應(yīng)混合并行訓(xùn)練技術(shù)以及壓縮、推理、服務(wù)部署的協(xié)同優(yōu)化,文心大模型訓(xùn)練速度達(dá)到原來的3倍,推理速度達(dá)到原來的30多倍。
飛槳和文心一言,一個是框架平臺,一個是大模型,這兩者之間正好處在人工智能技術(shù)體系里面很重要的兩層,它們之間有很強的協(xié)同優(yōu)化潛力,由此飛槳領(lǐng)先的訓(xùn)練技術(shù),能夠優(yōu)化大模型的訓(xùn)練效率。
百度不單單在框架層和模型層擁有關(guān)鍵技術(shù)。進(jìn)入人工智能時代,IT技術(shù)的技術(shù)棧發(fā)生了根本性變化,從過去三層轉(zhuǎn)變?yōu)椤靶酒?框架-模型-應(yīng)用”四層,百度則是全球為數(shù)不多、進(jìn)行全棧布局的人工智能公司。從高端芯片昆侖芯,到飛槳深度學(xué)習(xí)框架,再到文心預(yù)訓(xùn)練大模型,及搜索、智能云、自動駕駛、小度等應(yīng)用,各層都有領(lǐng)先業(yè)界的關(guān)鍵自研技術(shù)。
如框架層上,百度從2016年就開源了飛槳深度學(xué)習(xí)框架,目前這一框架已經(jīng)集成了深度學(xué)習(xí)核心訓(xùn)練和推理框架、基礎(chǔ)模型庫、端到端開發(fā)套件等工具組件,在中國市場份額中排行第一。
全棧布局的優(yōu)勢在于,可以在技術(shù)棧的四層架構(gòu)中,實現(xiàn)端到端優(yōu)化,大幅提升效率,飛槳和文心一言的優(yōu)化,就是最典型的例子。另外,芯片、框架、大模型和終端應(yīng)用場景,也可以形成一個高效的反饋閉環(huán),幫助大模型不斷去調(diào)優(yōu)迭代,越做越好。
比如文心一言與搜索、信息流等應(yīng)用層的協(xié)同。百度的搜索服務(wù),每天響應(yīng)幾十億次真實的用戶使用需求,每天進(jìn)行1萬億次深度語義推理與匹配,能夠提供最真實、最及時的反饋,從而倒逼大模型、深度學(xué)習(xí)框架和芯片的優(yōu)化。相對地,文心一言應(yīng)用于搜索,也將帶來搜索的變革。
除了全棧自研的「AI大底座」,百度智能云推出的兩大AI工程平臺—「AI中臺」和「百度百舸·AI異構(gòu)計算平臺」,也分別在開發(fā)和資源層面進(jìn)行提效,加速訓(xùn)練過程。這給文心一言的成長提供了最堅實的技術(shù)支撐,也成為其追趕國外大模型的底氣。
核心能力升級,百度加速大模型落地時代到來
Core capabilities upgrade, Baidu accelerate the arrival of the era of large model landing
5月底舉行的2023萬象·百度移動生態(tài)大會上,百度搜索宣布“AI伙伴”開始內(nèi)測。這款全能的“Al伙伴”能夠聽懂用戶的任何問題,并用語音進(jìn)行互動,還能幫助用戶標(biāo)記答案中的重點,提供權(quán)威的來源。在演示中,“Al伙伴”完整地提供了一篇人工智能大會主持詞。
百度旗下各類用戶側(cè)產(chǎn)品正在利用大模型進(jìn)行重構(gòu),而基于大模型基座和云平臺進(jìn)行開發(fā)生態(tài)的建設(shè)也在同步推進(jìn)。前不久,百度承辦的2023 WAVE SUMMIT上,推出了“超級助理”和“Comate X智能編程助手”。
理解、生成、邏輯和記憶,構(gòu)成了一個人工智能或者通用人工智能系統(tǒng)最基本的能力,從文心一言在C端及B端應(yīng)用上的表現(xiàn)來看,這四大核心能力正在快速提升,而背后展示出的則是百度在知識增強、檢索增強、對話增強方面的關(guān)鍵技術(shù)能力和差異化優(yōu)勢。
龐大的知識圖譜和搜索基礎(chǔ)上對真實數(shù)據(jù)和用戶需求的理解,是百度多年來構(gòu)建技術(shù)護(hù)城河和打造內(nèi)容生態(tài)的基礎(chǔ),因而作為百度自主研制的知識增強大語言模型,文心一言在知識增強和檢索增強方面天然具有優(yōu)勢。
據(jù)悉,百度文心大模型擁有世界上最大規(guī)模知識圖譜,包含50億實體、5500億級事實,每天調(diào)用量超過400億次。
在對話增強方面,百度深耕對話技術(shù)多年,前不久,王海峰帶領(lǐng)團(tuán)隊完成的「知識與深度學(xué)習(xí)融合的通用對話技術(shù)及應(yīng)用」成果,榮獲了「2022年度吳文俊人工智能科技進(jìn)步獎特等獎」,這是該獎項設(shè)立以來頒發(fā)的首個特等獎。對話技術(shù)所涉及的記憶機(jī)制、上下文理解和對話規(guī)劃能力,能夠幫助文心一言實現(xiàn)更好的對話連貫性、合理性和邏輯性。
百度已經(jīng)構(gòu)建了面向中文、服務(wù)應(yīng)用、富含知識的多樣化訓(xùn)練數(shù)據(jù),并建立起人類反饋、獎勵模型和策略優(yōu)化之間的飛輪機(jī)制,隨著真實用戶的反饋越來越多,文心一言的效果會越來越好,能力也越來越強。
而今,文心一言率先面向用戶全面開放,也就說未來能獲得更海量的真實世界中的人工反饋,這將進(jìn)一步改進(jìn)基礎(chǔ)模型,助力文心一言加速迭代、提升能力。而且,對用戶層面的放開,會刺激大模型競爭焦點轉(zhuǎn)向應(yīng)用層,激起應(yīng)用開發(fā)的創(chuàng)造活力,基于文心一言的領(lǐng)先,百度未來或?qū)⒙氏葞須⑹旨墤?yīng)用,真正引領(lǐng)大模型進(jìn)入落地時代。
這亦是用戶想從這場技術(shù)性浪潮看到的,彎道超車,占領(lǐng)新一代技術(shù)變革的制高點。
來源:鞭牛士
文章轉(zhuǎn)載于其他網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系我們及時刪除!