人民網(wǎng)北京5月14日電 (焦磊、實(shí)習(xí)生張泊洋)陪人聊天、幫助分析工作中的問(wèn)題并給出解決方案,甚至和人建立起情感羈絆……在科幻電影《Her》中,聊天機(jī)器人“Samantha”用充滿智慧和幽默的回答展示出高度的智能性和適應(yīng)性。當(dāng)下,這些來(lái)自過(guò)去的科幻想象正加速照入現(xiàn)實(shí)中。
北京時(shí)間5月14日凌晨,美國(guó)科技公司OpenAI在春季發(fā)布會(huì)上發(fā)布了最新GPT-4o多模態(tài)大模型。據(jù)OpenAI公司首席技術(shù)官米拉·穆拉蒂(Mira Murati)介紹,GPT-4o可以接收文本、音頻和圖像的任意組合作為輸入,并實(shí)時(shí)生成文本、音頻和圖像的任意組合進(jìn)行輸出,其中“o”代表“omni全能”。
一直以來(lái),多模態(tài)人機(jī)交互便是AI領(lǐng)域重點(diǎn)研究發(fā)力方向之一。繼文生視頻大模型Sora之后,GPT-4o的發(fā)布迎合了業(yè)內(nèi)對(duì)多模態(tài)大模型的更多期待。
模態(tài)即每一種信息的來(lái)源或形式。人們?cè)谛畔@取、環(huán)境感知、知識(shí)學(xué)習(xí)與表達(dá)等方面都是采用多模態(tài)的輸入、輸出方式。業(yè)內(nèi)分析認(rèn)為,相比單模態(tài),多模態(tài)大模型同時(shí)處理文本、圖片、音頻以及視頻等多類(lèi)信息,與現(xiàn)實(shí)世界融合度高,更符合人類(lèi)接收、處理和表達(dá)信息的方式,與人類(lèi)交互方式更加靈活,表現(xiàn)得更加智能,能夠執(zhí)行更大范圍的任務(wù)。
作為面向未來(lái)人機(jī)交互范式的全新大模型,GPT-4o具有文本、語(yǔ)音、圖像三種模態(tài)的理解力,并可以綜合對(duì)話者語(yǔ)氣和所處環(huán)境空間等因素進(jìn)行回答,展現(xiàn)出了高度智能性。
發(fā)布會(huì)上,GPT-4o展示了多項(xiàng)多模態(tài)交互能力。在進(jìn)行實(shí)時(shí)語(yǔ)音交流時(shí),其響應(yīng)極快,并且可以識(shí)別用戶的語(yǔ)音情緒,語(yǔ)音有情感,還能用不同語(yǔ)言和多人同時(shí)交互。在語(yǔ)音的同時(shí)可以與視頻實(shí)時(shí)交互,演示了一邊聊天一邊解答手寫(xiě)數(shù)學(xué)問(wèn)題,以及實(shí)時(shí)交流閱讀代碼,指導(dǎo)編程、視頻聊天等能力。
米拉·穆拉蒂表示,“這是我們第一次在易用性方面真正向前邁出了一大步。”
此前,大模型在各個(gè)領(lǐng)域的應(yīng)用主要集中在文生文、文生圖之上,今年初Sora的發(fā)布則推動(dòng)文生視頻領(lǐng)域進(jìn)一步發(fā)展。業(yè)內(nèi)分析表示,此次GPT-4o的發(fā)布,將促使多模態(tài)綜合交互成為生成式AI的重點(diǎn)發(fā)展方向,進(jìn)而提升人機(jī)交互效率,逐漸向AGI方向邁進(jìn)。
國(guó)盛證券研報(bào)分析,GPT-4o是邁向更自然的人機(jī)交互的重大進(jìn)步,新功能帶來(lái)了嶄新的多模態(tài)交互能力,通過(guò)新的端到端模型實(shí)現(xiàn)了體驗(yàn)上的新突破,有望在各類(lèi)終端實(shí)現(xiàn)用戶體驗(yàn)的最大化。
多模態(tài)大模型包含的圖文、音頻、視頻內(nèi)容數(shù)據(jù)量巨大,進(jìn)而引發(fā)人們對(duì)算力供應(yīng)的關(guān)注。業(yè)內(nèi)分析認(rèn)為,未來(lái)AI的發(fā)展對(duì)算力的需求將會(huì)是幾何式增長(zhǎng),算力限制可能是影響生成式AI應(yīng)用開(kāi)放使用的重要因素,而算力的可獲取性以及成本將是挑戰(zhàn)之一。此外,多模態(tài)大模型還將帶來(lái)更嚴(yán)峻的安全挑戰(zhàn)。
米拉·穆拉蒂表示,在安全性問(wèn)題上,GPT-4o通過(guò)過(guò)濾訓(xùn)練數(shù)據(jù)和通過(guò)訓(xùn)練后細(xì)化模型行為等技術(shù),在跨模態(tài)設(shè)計(jì)中內(nèi)置了安全性。OpenAI還創(chuàng)建了新的安全系統(tǒng),為語(yǔ)音輸出提供防護(hù)。
據(jù)介紹,用戶可有數(shù)量限制地免費(fèi)使用GPT-4o模型來(lái)進(jìn)行數(shù)據(jù)分析、圖像分析、互聯(lián)網(wǎng)搜索、訪問(wèn)應(yīng)用商店等操作。
OpenAI CEO山姆?奧特曼在發(fā)布會(huì)后表示,“我們將創(chuàng)造人工智能,然后其他人將使用它來(lái)創(chuàng)造各種令人驚奇的事物,我們所有人都會(huì)從中受益。”此外,他還表示OpenAI其他業(yè)務(wù)收入將幫助公司向數(shù)十億人提供免費(fèi)的人工智能服務(wù)。