书生屁股被CAO成SAO货男男,女人大屁股黑黑的毛

　　多模態(tài)技術(shù)正在改變垂直AI應(yīng)用??

　　不久前，Bessemer提出了一個很有價值的觀點(diǎn)：

　　垂直AI軟件將成為未來。

　　說起B(yǎng)essemer,熟悉SaaS行業(yè)的人可能并不陌生。它是美國SaaS領(lǐng)域最專業(yè)的投資機(jī)構(gòu)之一，在過去10年投資了200多家SaaS企業(yè)。

　　為了更好講清楚垂直AI軟件的價值，Bessemer發(fā)布了垂直AI路線圖，總共四個部分。本文是Bessemer的垂直AI路線圖的第二篇文章。在這篇文章中，Bessemer會分享其對以下問題的思考：

　　多模態(tài)的垂直AI應(yīng)用的落地究竟有哪些影響？現(xiàn)在基于多模態(tài)技術(shù)的垂直AI應(yīng)用又有著哪些不錯的落地案例？

　　01 多模態(tài)技術(shù)正在改變垂直AI應(yīng)用??

　　在過去12個月中，全球出現(xiàn)了許多新模型，它們在理解語境、減少幻覺以及整體推理能力方面進(jìn)步很大。尤其在語音識別、圖像處理和語音生成等方面，AI的能力正在逐漸接近人類。這為AI解鎖了很多新的應(yīng)用場景。

　　▍語音功能

　　在對話語音領(lǐng)域，模型發(fā)展取得了快速進(jìn)展：語音轉(zhuǎn)文本模型（自動語音識別）和文本轉(zhuǎn)語音模型（生成語音）。

　　目前，市場有數(shù)十家公司提供基于這些模型的語音服務(wù)，這推動了大量新的語音AI應(yīng)用程序的出現(xiàn)。

　　這些應(yīng)用程序大都依賴于所謂的“級聯(lián)架構(gòu)”，即先將語音轉(zhuǎn)錄為文本，然后將該文本輸入到LLM中以生成響應(yīng)，最后將文本輸出反饋到生成語音模型中以產(chǎn)生音頻響應(yīng)。直到最近，這一直是構(gòu)建對話語音應(yīng)用程序的最佳方式。然而，這種方法有一些缺點(diǎn)，比如它會有一定的延遲，同時失去用戶對話中表達(dá)的情感。

　　而現(xiàn)在，新一代語音原生模型已經(jīng)發(fā)布了，包括OpenAI的Realtime API （它支持通過GPT-4o進(jìn)行語音對語音交互），以及Kyutai的Moshi等多個開源項目。

　　與之前的模型相比，語音原生模型的延遲明顯降低（<500毫秒）。它們還可以捕捉更多來自用戶的語境（即語氣、情緒、情感等），并生成反映該語境的響應(yīng)，使交流感覺更自然，并更有可能滿足用戶的需求。

　　在未來幾年內(nèi)，隨著越來越多的對話式語音應(yīng)用基于這些全新改進(jìn)的模型構(gòu)建，我們預(yù)計對話式語音應(yīng)用的速度和質(zhì)量將大幅提升。

　　▍語音應(yīng)用案例

　　現(xiàn)在語音轉(zhuǎn)錄的應(yīng)用已經(jīng)非常成熟了，端到端對話語音代理也取得了顯著的早期進(jìn)展，我們認(rèn)為這是語音AI解決方案的未來方向。接下來，我們就來看看4個AI語音的應(yīng)用案例。

　　1）轉(zhuǎn)錄功能讓用戶有更多時間完成工作流程中的后續(xù)步驟：

　　Bessemer投資組合公司Abridge率先推出了一款一流的醫(yī)療轉(zhuǎn)錄應(yīng)用程序，該應(yīng)用程序可以根據(jù)臨床對話生成醫(yī)療記錄，并確定適當(dāng)?shù)暮罄m(xù)行動，包括購買處方藥、專家預(yù)約等，醫(yī)生可以把更多注意力轉(zhuǎn)移到患者護(hù)理上。

　　另一個很好的例子是Rillavoice,這家公司將人工智能引入了家庭服務(wù)垂直領(lǐng)域。Rillavoice的轉(zhuǎn)錄應(yīng)用程序記錄銷售人員和客戶之間的對話，用于培訓(xùn)目的，這樣銷售經(jīng)理仍然可以提供有價值的指導(dǎo)反饋，而無需進(jìn)行非常耗時的面對面“陪同”。

　　2）用AI來承接銷售線索：

　　到目前為止，我們看到的端到端語音代理最引人注目的用例之一是入站銷售。在很多特定的垂直場景（如家庭服務(wù)企業(yè)或汽車經(jīng)銷商）里，語音代理可以在下班后或其他銷售代表忙碌時接聽客戶電話，從而確保企業(yè)不會錯過有價值的潛在客戶。這些功能比之前的語音機(jī)器人更智能和高效，無需銷售的代表的參與。

　　3）AI客服提升客戶體驗：

　　AI客服一直是應(yīng)用比較多的場景。但許多用戶發(fā)現(xiàn)，早期的交互式語音應(yīng)答(IVR)技術(shù)體驗并不好。事實證明，現(xiàn)代語音代理更有效。

　　因為傳統(tǒng)的IVR產(chǎn)品只能理解客戶對特定措辭的回應(yīng)意圖，但現(xiàn)代語音代理不同，無論客戶如何提問或提出請求，現(xiàn)代語音代理都能提供正確的答案。這樣讓客服人員更有時間對應(yīng)付復(fù)雜的客戶問題。

　　4）自動撥打外撥電話以增加漏斗頂端：

　　現(xiàn)在已經(jīng)出現(xiàn)了多種解決方案來自動撥打銷售和招聘團(tuán)隊的外撥電話。通常，語音代理使用客戶陳述的標(biāo)準(zhǔn)來識別最有潛力的銷售線索或候選人，對線索進(jìn)行首次呼叫，然后將他們引導(dǎo)到與銷售人員或招聘人員的下一次會議。

　　讓人工智能接管外撥工作流程可以顯著增加可以聯(lián)系的線索數(shù)量，從而增加公司的漏斗頂端。隨著時間的流逝，銷售人員和招聘人員有更好的機(jī)會獲得最有潛力的線索。

　　唯一需要注意的事，有必要出臺相應(yīng)的法規(guī)，規(guī)定AI只能向潛在客戶撥打電話，以避免AI銷售的濫用。

　　在所有語音用例中，我們預(yù)計低延遲和理解用戶的情緒和情感將成為一件很重要的事情。此外，由于應(yīng)用場景的差異，AI語音解決方案在其他維度上也略有不同，例如實時協(xié)調(diào)跨多個底層模型的對話以優(yōu)化成本和性能；支持全渠道通信、多種語言和實時翻譯。

　　在視覺方面，我們已經(jīng)看到了GPT-4 with vision (GPT-4V) 等模型的發(fā)展，這些模型可以解釋圖像并回答有關(guān)圖像的問題，以及處理原始圖像和視頻的多模態(tài)模型。比如，谷歌的多模態(tài)模型Gemini 1.5 Pro已經(jīng)可以理解圖像和視頻中的輸入。

　　我們預(yù)計，這些和類似的模型將繼續(xù)提高性能并降低成本——這對應(yīng)用程序構(gòu)建者來說是個好消息。

　　▍視覺和視頻的用例

　　垂直應(yīng)用中視覺的應(yīng)用案例通常分為以下四類：數(shù)據(jù)提取、視覺檢查、設(shè)計和視頻分析。雖然數(shù)據(jù)提取是迄今為止視覺模型最成熟的用例，但我們在其他領(lǐng)域也看到了新的應(yīng)用進(jìn)展：

　　1）從圖片、PDF或其他非結(jié)構(gòu)化文檔的圖像中提取數(shù)據(jù)：

　　分析和處理當(dāng)前的非結(jié)構(gòu)化數(shù)據(jù)，AI可以減輕人類繁瑣的數(shù)據(jù)輸入任務(wù)程。例如，Raft針對貨運(yùn)代理行業(yè)的平臺結(jié)合使用計算機(jī)視覺和LLM從PDF發(fā)票中提取關(guān)鍵信息，填充其客戶的企業(yè)資源規(guī)劃平臺 (ERP) ，并自動執(zhí)行發(fā)票核對和準(zhǔn)備海關(guān)申報單等下游任務(wù)。

　　2）提升目前人工檢查的效率：

　　許多公司已經(jīng)使用AI來幫助簡化人工檢查流程并更快地提供結(jié)果。比如，人工智能建筑平臺xBuild為住宅建筑和修復(fù)項目生成工作范圍包，然后與保險公司合作獲得報銷批準(zhǔn)。xBuild使用受損屋頂?shù)恼掌头课菟{(lán)圖來生成報告，概述根據(jù)當(dāng)?shù)亟ㄖ?guī)范將屋頂恢復(fù)到正常狀態(tài)所需的修復(fù)范圍。其他應(yīng)用程序已使用人工智能和計算機(jī)視覺來自動化施工圖中的質(zhì)量保證審查過程，幫助盡早發(fā)現(xiàn)錯誤，以防止后期施工過程中出現(xiàn)代價高昂的項目變更。

　　3）生成2D和3D設(shè)計：

　　為建筑、工程和施工 (AEC) 行業(yè)服務(wù)的AI平臺數(shù)量急劇增加。一些公司正在使用AI進(jìn)行可行性評估，將擬建場地（建筑物、停車場等）的視覺描述與相關(guān)供應(yīng)成本相結(jié)合，根據(jù)后者的成本限制調(diào)整前者，反之亦然。

　　Snaptrude等其他解決方案可以創(chuàng)建建筑物的詳細(xì)3D設(shè)計圖像，接管通常由結(jié)構(gòu)工程師完成的重復(fù)性工作，讓他們有時間專注于更高級別的設(shè)計工作。詳細(xì)產(chǎn)品和基礎(chǔ)設(shè)施設(shè)計的自動化不僅可以節(jié)省客戶寶貴的工程時間，還可以加強(qiáng)銷售提案并提高項目成功率。

　　4）視頻分析：

　　生成和理解視頻的模型是視覺模型中最不成熟的，但它們正在迅速進(jìn)步。

　　在對象跟蹤、分類甚至視頻內(nèi)容的自然語言搜索方面，視頻理解模型已經(jīng)變得相當(dāng)強(qiáng)大。這些模型甚至有些已經(jīng)完成商業(yè)化落地，比如用AI監(jiān)控視頻源以發(fā)現(xiàn)制造或工業(yè)環(huán)境中出現(xiàn)的安全違規(guī)行為。

　　但考慮到視頻模型的進(jìn)步的速度，未來幾年我們將看到更多令人印象深刻的AI應(yīng)用，并擴(kuò)展到更多的用例。尤其在機(jī)器人領(lǐng)域，視頻理解是機(jī)器人感知的關(guān)鍵組成部分。

　　在所有視覺用例中，創(chuàng)始人都應(yīng)避免將復(fù)雜性誤認(rèn)為價值。雖然AI解決方案總被認(rèn)為應(yīng)該應(yīng)用在自動化特別復(fù)雜的工作流程中，但歸根到底，用戶價值還是看現(xiàn)有場景的工作流程適不適合自動化。

　　如果設(shè)計自動化解決方案需要與難以替代的核心系統(tǒng) （如Revit）進(jìn)行繁瑣的集成，并且初始投資回報率較低，那么無論解決方案多么強(qiáng)大，都很難推動銷售和采用。早期公司應(yīng)該從技術(shù)復(fù)雜程度較低、范圍較窄的產(chǎn)品開始，然后再從那里延伸。當(dāng)然，最佳路徑會因行業(yè)和用例而異，但要牢記權(quán)衡利弊。

　　02 人工智能代理的前景

　　雖然早期的人工智能代理多少有些炒作的意味，但現(xiàn)在人工智能代理開始有一些真正的落地進(jìn)展。隨著OpenAI o1模型的推出，代理能夠處理更多復(fù)雜的推理任務(wù)。

　　如今，代理在涉及重復(fù)任務(wù)和通信的文本、語音和視覺工作流中發(fā)揮著重要作用。但在未來一年，我們預(yù)計基于較新的推理模型構(gòu)建的應(yīng)用程序?qū)霈F(xiàn)，并發(fā)揮AI代理的真正潛力：自主處理復(fù)雜的工作流。

　　1）銷售和營銷：

　　許多公司都推出了AI代理，可以為銷售團(tuán)隊尋找和聯(lián)系潛在客戶。這些代理的優(yōu)點(diǎn)在于，它們能夠進(jìn)行大量研究數(shù)據(jù)，來識別高質(zhì)量的潛在客戶（通過對目標(biāo)公司、其員工和相關(guān)行業(yè)新聞進(jìn)行詳細(xì)的網(wǎng)絡(luò)搜索），然后使用這些研究結(jié)果來撰寫相關(guān)且高度個性化的電子郵件。由于代理可以有效地執(zhí)行工作中的研究和推廣部分，同時保持相對較高的質(zhì)量，因此它會讓銷售人員將自己時間更多投入到跟蹤熱門銷售線索。

　　2）談判：

　　AI代理在自動完成多方談判方面展示了不錯的前景。

　　Pactum等公司已經(jīng)開發(fā)出能夠就供應(yīng)鏈案例協(xié)商法律和商業(yè)條款的人工智能代理。Pactum的代理可以與供應(yīng)商進(jìn)行談判以優(yōu)化交易條款。我們也看到其他垂直AI公司在銷售和促銷領(lǐng)域采取了類似的方法。在這里，代理根據(jù)既定標(biāo)準(zhǔn)與買家和供應(yīng)商進(jìn)行談判，例如批量購買的折扣或快速付款計劃。

　　3）調(diào)查：

　　企業(yè)網(wǎng)絡(luò)安全團(tuán)隊經(jīng)常被大量安全警報壓得喘不過氣來，但現(xiàn)在有AI代理可以協(xié)助完成警報調(diào)查的初始階段。

　　這包括：從多個不同的系統(tǒng)收集有關(guān)事件的信息，研究可能涉及的惡意行為，總結(jié)事件并評估其嚴(yán)重程度。雖然大多數(shù)團(tuán)隊傾向于使用代理來處理風(fēng)險較低的工作流程，但很明顯，隨著時間的推移，更復(fù)雜的代理可以處理越來越多需要信息收集和綜合的工作流程。

　　我們相信，與不需要這些解決方案的解決方案相比，處理需要跨多種模式進(jìn)行更復(fù)雜推理的任務(wù)和工作流程的代理將更有價值。

　　特別是，我們看到，通過巧妙的架構(gòu)決策以及將正確的模型、反饋回路等拼接在一起以提供一致的結(jié)果，可以提高代理工作流程的性能。代理性能并不完全取決于問題中數(shù)據(jù)和計算的規(guī)模，因此對于早期創(chuàng)業(yè)公司來說，這是一個更具吸引力的機(jī)會。在所有情況下，鑒于底層模型的快速發(fā)展，在構(gòu)建技術(shù)護(hù)城河和確保靈活性之間取得適當(dāng)?shù)钠胶鈱⑹顷P(guān)鍵。

　　總的來說，越來越多垂直AI的創(chuàng)始人開始研究利用AI多模態(tài)能力，來解決更廣泛的實際任務(wù)。與文本一樣，語音和視覺的底層模型將日益商品化，使公司在強(qiáng)大的基礎(chǔ)模型之上構(gòu)建應(yīng)用程序更具可持續(xù)性。我們相信，這波垂直AI應(yīng)用不僅會改變它們所服務(wù)的行業(yè)和垂直格局，也將從徹底改變我們工作和與世界互動的方式。

本文來源：36氪

文章轉(zhuǎn)載于其他網(wǎng)絡(luò)，如有侵權(quán)請聯(lián)系我們及時刪除！

日韩国产高清一区二区,在线观看成人无码中文AV天堂,少妇无码太爽了不卡视频在线看,国产AV一区二区三区

新聞資訊

多模態(tài)技術(shù)，釋放垂直AI軟件潛力的關(guān)鍵

日韩国产高清一区二区,在线观看成人无码中文AV天堂,少妇无码太爽了不卡视频在线看,国产AV一区二区三区

新聞 資訊

多模態(tài)技術(shù)，釋放垂直AI軟件潛力的關(guān)鍵

新聞資訊