1、什么是多模態(tài)
簡(jiǎn)單來(lái)說(shuō),多模態(tài)指的是數(shù)據(jù)或者信息的多種表現(xiàn)形式。
比如,我想把"我有一個(gè)蘋(píng)果"這個(gè)信息傳遞給你,我可以用文字寫(xiě)出來(lái),也可以用語(yǔ)言說(shuō)出來(lái),也可以用圖片畫(huà)出來(lái),甚至我還可以拍成視頻告訴你。
這就是典型的一種信息,多種存在形式上的多模態(tài)。
我們可以這么理解,文本是一種模態(tài),圖像也是一種模態(tài),甚至兩種不同的語(yǔ)言,比如中文和英文,也各是一種不同的模態(tài)。
之所以相同的信息有那么多模態(tài),是因?yàn)槿祟?lèi)有多種感官來(lái)處理信息:比如聽(tīng)覺(jué)、嗅覺(jué)、視覺(jué)、觸覺(jué)、味覺(jué)等,它們都可以獲取并且處理不同形式的信息。
AI 如果真的想要模擬人類(lèi),實(shí)現(xiàn)通用人工智能(AGI),最重要的就是要實(shí)現(xiàn)對(duì)多模態(tài)的支持。
也就說(shuō),對(duì)于一個(gè)人工智能模型而言,它需要既可以處理文本,也可以處理圖像,又可以處理語(yǔ)音,還可以處理其他任務(wù)等。
2、深度學(xué)習(xí)中的多模態(tài)
在目前的人工智能任務(wù)中,我們所說(shuō)的多模態(tài)更多的指對(duì)于 3V 任務(wù)的支持,也即 Verbal(文本)、Vocal(語(yǔ)音) 和 Visual(視覺(jué))。
深度學(xué)習(xí)中有很多經(jīng)典的任務(wù),都是基于這三種任務(wù)之間互相轉(zhuǎn)換的。
比如圖像生成任務(wù)(Image Generation from Text),根據(jù)文本描述生成圖像。
再比如反過(guò)來(lái)的圖像描述任務(wù)(Image Captioning),根據(jù)圖像來(lái)生成文本,就像是我們小學(xué)學(xué)的看圖作文一樣。
當(dāng)然除了圖像和文本之間的跨模態(tài)深度學(xué)習(xí)之外,還有文本和語(yǔ)音的跨模態(tài),如微信支持的語(yǔ)音轉(zhuǎn)文字功能。
還有語(yǔ)音轉(zhuǎn)圖片,如給一段話(huà),按照話(huà)語(yǔ)中的描述轉(zhuǎn)換為一張圖片。
這種組合可以有很多種,就像是人一樣,不同感官獲取到了不同形式的信息,統(tǒng)一都會(huì)送給大腦來(lái)處理,處理完之后,以另一種形式表現(xiàn)出來(lái)。
人看到了圖像,會(huì)用語(yǔ)言描述出來(lái),AI 也需要具備這樣的能力。
正因?yàn)槿绱,一旦大模型支持了多模態(tài),就可以十分輕松地完成多種數(shù)據(jù)之間的轉(zhuǎn)換,也就使得大模型在表現(xiàn)上離通用人工智能更近了一步。