多模態(tài)技術(shù)正在改變垂直AI應(yīng)用??
不久前,Bessemer提出了一個很有價值的觀點(diǎn):
垂直AI軟件將成為未來。
說起B(yǎng)essemer,熟悉SaaS行業(yè)的人可能并不陌生。它是美國SaaS領(lǐng)域最專業(yè)的投資機(jī)構(gòu)之一,在過去10年投資了200多家SaaS企業(yè)。
為了更好講清楚垂直AI軟件的價值,Bessemer發(fā)布了垂直AI路線圖,總共四個部分。本文是Bessemer的垂直AI路線圖的第二篇文章。在這篇文章中,Bessemer會分享其對以下問題的思考:
多模態(tài)的垂直AI應(yīng)用的落地究竟有哪些影響?現(xiàn)在基于多模態(tài)技術(shù)的垂直AI應(yīng)用又有著哪些不錯的落地案例?
01 多模態(tài)技術(shù)正在改變垂直AI應(yīng)用??
在過去12個月中,全球出現(xiàn)了許多新模型,它們在理解語境、減少幻覺以及整體推理能力方面進(jìn)步很大。尤其在語音識別、圖像處理和語音生成等方面,AI的能力正在逐漸接近人類。這為AI解鎖了很多新的應(yīng)用場景。
▍語音功能
在對話語音領(lǐng)域,模型發(fā)展取得了快速進(jìn)展:語音轉(zhuǎn)文本模型 (自動語音識別) 和文本轉(zhuǎn)語音模型 (生 成語音) 。
目前,市場有數(shù)十家公司提供基于這些模型的語音服務(wù),這推動了大量新的語音AI應(yīng)用程序的出現(xiàn)。
這些應(yīng)用程序大都依賴于所謂的“級聯(lián)架構(gòu)”,即先將語音轉(zhuǎn)錄為文本,然后將該文本輸入到LLM中以生成響應(yīng),最后將文本輸出反饋到生成語音模型中以產(chǎn)生音頻響應(yīng)。直到最近,這一直是構(gòu)建對話語音應(yīng)用程序的最佳方式。然而,這種方法有一些缺點(diǎn),比如它會有一定的延遲,同時失去用戶對話中表達(dá)的情感。
而現(xiàn)在,新一代語音原生模型已經(jīng)發(fā)布了,包括OpenAI的Realtime API (它支持通過GPT-4o進(jìn)行語音對語音交互) ,以及Kyutai的Moshi等多個開源項目。
與之前的模型相比,語音原生模型的延遲明顯降低 (<500毫秒) 。它們還可以捕捉更多來自用戶的語境 (即語氣、情緒、情感等) ,并生成反映該語境的響應(yīng),使交流感覺更自然,并更有可能滿足用戶的需求。
在未來幾年內(nèi),隨著越來越多的對話式語音應(yīng)用基于這些全新改進(jìn)的模型構(gòu)建,我們預(yù)計對話式語音應(yīng)用的速度和質(zhì)量將大幅提升。
▍語音應(yīng)用案例
現(xiàn)在語音轉(zhuǎn)錄的應(yīng)用已經(jīng)非常成熟了,端到端對話語音代理也取得了顯著的早期進(jìn)展,我們認(rèn)為這是語音AI解決方案的未來方向。接下來,我們就來看看4個AI語音的應(yīng)用案例。
1)轉(zhuǎn)錄功能讓用戶有更多時間完成工作流程中的后續(xù)步驟 :
Bessemer投資組合公司Abridge率先推出了一款一流的醫(yī)療轉(zhuǎn)錄應(yīng)用程序,該應(yīng)用程序可以根據(jù)臨床對話生成醫(yī)療記錄,并確定適當(dāng)?shù)暮罄m(xù)行動,包括購買處方藥、專家預(yù)約等,醫(yī)生可以把更多注意力轉(zhuǎn)移到患者護(hù)理上。
另一個很好的例子是Rillavoice,這家公司將人工智能引入了家庭服務(wù)垂直領(lǐng)域。Rillavoice的轉(zhuǎn)錄應(yīng)用程序記錄銷售人員和客戶之間的對話,用于培訓(xùn)目的,這樣銷售經(jīng)理仍然可以提供有價值的指導(dǎo)反饋,而無需進(jìn)行非常耗時的面對面“陪同”。
2)用AI來承接銷售線索:
到目前為止,我們看到的端到端語音代理最引人注目的用例之一是入站銷售。在很多特定的垂直場景 (如家庭服務(wù)企業(yè)或汽車經(jīng)銷商) 里,語音代理可以在下班后或其他銷售代表忙碌時接聽客戶電話,從而確保企業(yè)不會錯過有價值的潛在客戶。這些功能比之前的語音機(jī)器人更智能和高效,無需銷售的代表的參與。
3)AI客服提升客戶體驗 :
AI客服一直是應(yīng)用比較多的場景。但許多用戶發(fā)現(xiàn),早期的交互式語音應(yīng)答(IVR)技術(shù)體驗并不好。事實證明,現(xiàn)代語音代理更有效。
因為傳統(tǒng)的IVR產(chǎn)品只能理解客戶對特定措辭的回應(yīng)意圖,但現(xiàn)代語音代理不同,無論客戶如何提問或提出請求,現(xiàn)代語音代理都能提供正確的答案。這樣讓客服人員更有時間對應(yīng)付復(fù)雜的客戶問題。
4)自動撥打外撥電話以增加漏斗頂端:
現(xiàn)在已經(jīng)出現(xiàn)了多種解決方案來自動撥打銷售和招聘團(tuán)隊的外撥電話。通常,語音代理使用客戶陳述的標(biāo)準(zhǔn)來識別最有潛力的銷售線索或候選人,對線索進(jìn)行首次呼叫,然后將他們引導(dǎo)到與銷售人員或招聘人員的下一次會議。
讓人工智能接管外撥工作流程可以顯著增加可以聯(lián)系的線索數(shù)量,從而增加公司的漏斗頂端。隨著時間的流逝,銷售人員和招聘人員有更好的機(jī)會獲得最有潛力的線索。
唯一需要注意的事,有必要出臺相應(yīng)的法規(guī),規(guī)定AI只能向潛在客戶撥打電話,以避免AI銷售的濫用。
在所有語音用例中,我們預(yù)計低延遲和理解用戶的情緒和情感將成為一件很重要的事情。此外,由于應(yīng)用場景的差異,AI語音解決方案在其他維度上也略有不同,例如實時協(xié)調(diào)跨多個底層模型的對話以優(yōu)化成本和性能;支持全渠道通信、多種語言和實時翻譯。
在視覺方面,我們已經(jīng)看到了GPT-4 with vision (GPT-4V) 等模型的發(fā)展,這些模型可以解釋圖像并回答有關(guān)圖像的問題,以及處理原始圖像和視頻的多模態(tài)模型。比如,谷歌的多模態(tài)模型Gemini 1.5 Pro已經(jīng)可以理解圖像和視頻中的輸入。
我們預(yù)計,這些和類似的模型將繼續(xù)提高性能并降低成本——這對應(yīng)用程序構(gòu)建者來說是個好消息。
▍視覺和視頻的用例
垂直應(yīng)用中視覺的應(yīng)用案例通常分為以下四類:數(shù)據(jù)提取、視覺檢查、設(shè)計和視頻分析。雖然數(shù)據(jù)提取是迄今為止視覺模型最成熟的用例,但我們在其他領(lǐng)域也看到了新的應(yīng)用進(jìn)展:
1)從圖片、PDF或其他非結(jié)構(gòu)化文檔的圖像中提取數(shù)據(jù):
分析和處理當(dāng)前的非結(jié)構(gòu)化數(shù)據(jù),AI可以減輕人類繁瑣的數(shù)據(jù)輸入任務(wù)程。例如,Raft針對貨運(yùn)代理行業(yè)的平臺結(jié)合使用計算機(jī)視覺和LLM從PDF發(fā)票中提取關(guān)鍵信息,填充其客戶的企業(yè)資源規(guī)劃平臺 (ERP) ,并自動執(zhí)行發(fā)票核對和準(zhǔn)備海關(guān)申報單等下游任務(wù)。
2)提升目前人工檢查的效率 :
許多公司已經(jīng)使用AI來幫助簡化人工檢查流程并更快地提供結(jié)果。比如,人工智能建筑平臺xBuild為住宅建筑和修復(fù)項目生成工作范圍包,然后與保險公司合作獲得報銷批準(zhǔn)。xBuild使用受損屋頂?shù)恼掌头课菟{(lán)圖來生成報告,概述根據(jù)當(dāng)?shù)亟ㄖ?guī)范將屋頂恢復(fù)到正常狀態(tài)所需的修復(fù)范圍。其他應(yīng)用程序已使用人工智能和計算機(jī)視覺來自動化施工圖中的質(zhì)量保證審查過程,幫助盡早發(fā)現(xiàn)錯誤,以防止后期施工過程中出現(xiàn)代價高昂的項目變更。
3)生成2D和3D設(shè)計 :
為建筑、工程和施工 (AEC) 行業(yè)服務(wù)的AI平臺數(shù)量急劇增加。一些公司正在使用AI進(jìn)行可行性評估,將擬建場地 (建筑物、停車場等) 的視覺描述與相關(guān)供應(yīng)成本相結(jié)合,根據(jù)后者的成本限制調(diào)整前者,反之亦然。
Snaptrude等其他解決方案可以創(chuàng)建建筑物的詳細(xì)3D設(shè)計圖像,接管通常由結(jié)構(gòu)工程師完成的重復(fù)性工作,讓他們有時間專注于更高級別的設(shè)計工作。詳細(xì)產(chǎn)品和基礎(chǔ)設(shè)施設(shè)計的自動化不僅可以節(jié)省客戶寶貴的工程時間,還可以加強(qiáng)銷售提案并提高項目成功率。
4)視頻分析 :
生成和理解視頻的模型是視覺模型中最不成熟的,但它們正在迅速進(jìn)步。
在對象跟蹤、分類甚至視頻內(nèi)容的自然語言搜索方面,視頻理解模型已經(jīng)變得相當(dāng)強(qiáng)大。這些模型甚至有些已經(jīng)完成商業(yè)化落地,比如用AI監(jiān)控視頻源以發(fā)現(xiàn)制造或工業(yè)環(huán)境中出現(xiàn)的安全違規(guī)行為。
但考慮到視頻模型的進(jìn)步的速度,未來幾年我們將看到更多令人印象深刻的AI應(yīng)用,并擴(kuò)展到更多的用例。尤其在機(jī)器人領(lǐng)域,視頻理解是機(jī)器人感知的關(guān)鍵組成部分。
在所有視覺用例中,創(chuàng)始人都應(yīng)避免將復(fù)雜性誤認(rèn)為價值。雖然AI解決方案總被認(rèn)為應(yīng)該應(yīng)用在自動化特別復(fù)雜的工作流程中,但歸根到底,用戶價值還是看現(xiàn)有場景的工作流程適不適合自動化。
如果設(shè)計自動化解決方案需要與難以替代的核心系統(tǒng) (如Revit) 進(jìn)行繁瑣的集成,并且初始投資回報率較低,那么無論解決方案多么強(qiáng)大,都很難推動銷售和采用。早期公司應(yīng)該從技術(shù)復(fù)雜程度較低、范圍較窄的產(chǎn)品開始,然后再從那里延伸。當(dāng)然,最佳路徑會因行業(yè)和用例而異,但要牢記權(quán)衡利弊。
02 人工智能代理的前景
雖然早期的人工智能代理多少有些炒作的意味,但現(xiàn)在人工智能代理開始有一些真正的落地進(jìn)展。隨著OpenAI o1模型的推出,代理能夠處理更多復(fù)雜的推理任務(wù)。
如今,代理在涉及重復(fù)任務(wù)和通信的文本、語音和視覺工作流中發(fā)揮著重要作用。但在未來一年,我們預(yù)計基于較新的推理模型構(gòu)建的應(yīng)用程序?qū)霈F(xiàn),并發(fā)揮AI代理的真正潛力:自主處理復(fù)雜的工作流。
1)銷售和營銷 :
許多公司都推出了AI代理,可以為銷售團(tuán)隊尋找和聯(lián)系潛在客戶。這些代理的優(yōu)點(diǎn)在于,它們能夠進(jìn)行大量研究數(shù)據(jù),來識別高質(zhì)量的潛在客戶 (通過對目標(biāo)公司、其員工和相關(guān)行業(yè)新聞進(jìn)行詳細(xì)的網(wǎng)絡(luò)搜索) ,然后使用這些研究結(jié)果來撰寫相關(guān)且高度個性化的電子郵件。由于代理可以有效地執(zhí)行工作中的研究和推廣部分,同時保持相對較高的質(zhì)量,因此它會讓銷售人員將自己時間更多投入到跟蹤熱門銷售線索。
2)談判 :
AI代理在自動完成多方談判方面展示了不錯的前景。
Pactum等公司已經(jīng)開發(fā)出能夠就供應(yīng)鏈案例協(xié)商法律和商業(yè)條款的人工智能代理。Pactum的代理可以與供應(yīng)商進(jìn)行談判以優(yōu)化交易條款。我們也看到其他垂直AI公司在銷售和促銷領(lǐng)域采取了類似的方法。在這里,代理根據(jù)既定標(biāo)準(zhǔn)與買家和供應(yīng)商進(jìn)行談判,例如批量購買的折扣或快速付款計劃。
3)調(diào)查 :
企業(yè)網(wǎng)絡(luò)安全團(tuán)隊經(jīng)常被大量安全警報壓得喘不過氣來,但現(xiàn)在有AI代理可以協(xié)助完成警報調(diào)查的初始階段。
這包括:從多個不同的系統(tǒng)收集有關(guān)事件的信息,研究可能涉及的惡意行為,總結(jié)事件并評估其嚴(yán)重程度。雖然大多數(shù)團(tuán)隊傾向于使用代理來處理風(fēng)險較低的工作流程,但很明顯,隨著時間的推移,更復(fù)雜的代理可以處理越來越多需要信息收集和綜合的工作流程。
我們相信,與不需要這些解決方案的解決方案相比,處理需要跨多種模式進(jìn)行更復(fù)雜推理的任務(wù)和工作流程的代理將更有價值。
特別是,我們看到,通過巧妙的架構(gòu)決策以及將正確的模型、反饋回路等拼接在一起以提供一致的結(jié)果,可以提高代理工作流程的性能。代理性能并不完全取決于問題中數(shù)據(jù)和計算的規(guī)模,因此對于早期創(chuàng)業(yè)公司來說,這是一個更具吸引力的機(jī)會。在所有情況下,鑒于底層模型的快速發(fā)展,在構(gòu)建技術(shù)護(hù)城河和確保靈活性之間取得適當(dāng)?shù)钠胶鈱⑹顷P(guān)鍵。
總的來說,越來越多垂直AI的創(chuàng)始人開始研究利用AI多模態(tài)能力,來解決更廣泛的實際任務(wù)。與文本一樣,語音和視覺的底層模型將日益商品化,使公司在強(qiáng)大的基礎(chǔ)模型之上構(gòu)建應(yīng)用程序更具可持續(xù)性。我們相信,這波垂直AI應(yīng)用不僅會改變它們所服務(wù)的行業(yè)和垂直格局,也將從徹底改變我們工作和與世界互動的方式。
本文來源:36氪
文章轉(zhuǎn)載于其他網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系我們及時刪除!