AI數(shù)字人,即具有數(shù)字化外形的AI數(shù)字人物。AI數(shù)字人宜具備以下三方面特征:一是擁有人的外觀,具有特定的相貌、性別和性格等人物特征;二是擁有人的行為,具有用語(yǔ)言、面部表情和肢體動(dòng)作表達(dá)的能力;三是擁有人的思想,具有識(shí)別外界環(huán)境、并能與人交流互動(dòng)的能力。當(dāng)前,AI數(shù)字人仍處于快速發(fā)展時(shí)期,尚未形成統(tǒng)一的系統(tǒng)框架。我們引用了人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟的框架,將AI數(shù)字人的通用系統(tǒng)分為五個(gè)部分:人物形象,語(yǔ)音生成,動(dòng)畫制作,音視頻,合成顯示器和交互。交互模塊是擴(kuò)展項(xiàng)目,可以智能識(shí)別用戶意圖,決定其后續(xù)語(yǔ)音和動(dòng)作并驅(qū)動(dòng)數(shù)字人的下一輪互動(dòng)。根據(jù)是否有交互模塊分為非互動(dòng)AI數(shù)字人和交互式AI數(shù)字人,后者將基于驅(qū)動(dòng)方式的不同分為真人驅(qū)動(dòng)和計(jì)算驅(qū)動(dòng)。非交互AI數(shù)字人相對(duì)簡(jiǎn)單,運(yùn)行過(guò)程較早。目前有更多的制造商部署它們。但是,未來(lái)的發(fā)展趨勢(shì)總體上仍將著重于交互式AI數(shù)字人。AI數(shù)字人系統(tǒng)能打造24小時(shí)不休的新聞主播,快速傳遞資訊。武漢AI數(shù)字人建模
在內(nèi)容創(chuàng)作領(lǐng)域,AI數(shù)字人發(fā)揮著創(chuàng)新助力的關(guān)鍵作用。對(duì)于視頻制作團(tuán)隊(duì)而言,數(shù)字人可以作為獨(dú)特的角色出現(xiàn)在視頻中,豐富視頻內(nèi)容形式。在動(dòng)畫制作中,數(shù)字人的形象設(shè)計(jì)與動(dòng)作表現(xiàn)能夠通過(guò)計(jì)算機(jī)技術(shù)精細(xì)實(shí)現(xiàn),無(wú)需傳統(tǒng)動(dòng)畫制作中大量的手繪工作,縮短了制作周期。在短視頻創(chuàng)作方面,用戶借助相關(guān)平臺(tái),利用數(shù)字人一鍵生成文案、選取素材,快速制作出吸引人的短視頻。數(shù)字人還能通過(guò)自身的形象與表演,為音樂(lè)創(chuàng)作提供靈感,一些音樂(lè)人以數(shù)字人的故事為藍(lán)本創(chuàng)作歌曲,賦予音樂(lè)新的內(nèi)涵,推動(dòng)內(nèi)容創(chuàng)作行業(yè)不斷創(chuàng)新發(fā)展。上海虛擬AI數(shù)字人拍攝AI數(shù)字人系統(tǒng)助力內(nèi)容創(chuàng)作,豐富視頻角色與形式。
當(dāng)前,AI數(shù)字人正在以更具體的職業(yè)身份進(jìn)入各行各業(yè),并配備越來(lái)越清晰的工作職責(zé)和工作計(jì)劃。將來(lái),在產(chǎn)品供應(yīng)商和開發(fā)人員共同構(gòu)建產(chǎn)業(yè)生態(tài)系統(tǒng)的過(guò)程中,AI數(shù)字人技術(shù)將更好地融入其他語(yǔ)音交互技術(shù)和軟件功能,為消費(fèi)者提供更好的體驗(yàn)。作為多模態(tài)人機(jī)交互領(lǐng)域的重要成果之一,"AI數(shù)字人"依靠前端語(yǔ)音處理,語(yǔ)音喚醒,語(yǔ)音識(shí)別,對(duì)話理解和管理,語(yǔ)音合成,計(jì)算機(jī)視覺(jué)和圖形學(xué)等技術(shù)支持。在對(duì)話理解的基礎(chǔ)上,語(yǔ)音交互通過(guò)對(duì)話管理生成對(duì)應(yīng)的答復(fù)話語(yǔ)和內(nèi)容服務(wù),并結(jié)合語(yǔ)音合成技術(shù)"TTS"來(lái)產(chǎn)生廣播音頻;AI數(shù)字人多模式互動(dòng)需要在此基礎(chǔ)上進(jìn)一步了解播放文本中包含的信息。
AI數(shù)字人:數(shù)字—依托多項(xiàng)技術(shù)存在,相關(guān)技術(shù)成熟成為其發(fā)展重要推動(dòng)力。AI數(shù)字人是典型的多技術(shù)綜合產(chǎn)物。除CG建模+真人驅(qū)動(dòng)的類別外,多模態(tài)技術(shù)與深度學(xué)習(xí)成為其關(guān)鍵點(diǎn)。該部分將在技術(shù)中詳細(xì)展開。多位從業(yè)人員認(rèn)為,AI數(shù)字人近年的發(fā)展來(lái)源于CG(ComputerGraphics,利用計(jì)算機(jī)進(jìn)行視覺(jué)設(shè)計(jì)和生產(chǎn))、語(yǔ)音識(shí)別、圖像識(shí)別、動(dòng)捕等相關(guān)技術(shù)的共同成熟。外表:AI數(shù)字人的面部長(zhǎng)相和整體形象。會(huì)受到AI數(shù)字人類別(如直接借用真人形象、高保真建模、風(fēng)格化)、制作細(xì)節(jié)(對(duì)汗毛、皮膚、頭發(fā)等細(xì)節(jié)的建模)、渲染水平、設(shè)計(jì)審美等影響。AI數(shù)字人系統(tǒng)用于汽車展銷,虛擬展示汽車性能。
AI數(shù)字人形式多變分類,五個(gè)模塊組成通用框架。AI數(shù)字人指存在于非物理世界中,由計(jì)算機(jī)手段創(chuàng)建和使用,并具有多種人類特征(例如外觀特性,人類表演能力,交互功能等)的綜合產(chǎn)物。AI數(shù)字人可以根據(jù)人格象征和圖形維度劃分,也可以按照角色圖形維度進(jìn)行分類。角色形象,語(yǔ)音生成模塊,動(dòng)畫生成模塊,音視頻合成顯示模塊和交互模塊構(gòu)成AI數(shù)字人通用系統(tǒng)框架。AI數(shù)字人在提高傳統(tǒng)產(chǎn)業(yè)工作效率方面具有巨大優(yōu)勢(shì),也呈現(xiàn)出巨大的市場(chǎng)空間。如果能夠?qū)崿F(xiàn)數(shù)字人的大規(guī)模應(yīng)用,那么對(duì)于許多行業(yè)和公司來(lái)說(shuō)將面臨重大變化未來(lái)。聲音克隆技術(shù)助力 AI 數(shù)字人,能依少量樣本生成專屬個(gè)性化聲線。上海虛擬AI數(shù)字人拍攝
AI數(shù)字人系統(tǒng)助力金融機(jī)構(gòu)隨時(shí)提供理財(cái)咨詢。武漢AI數(shù)字人建模
在全球化商業(yè)浪潮下,AI 數(shù)字人直播的多語(yǔ)言能力成為跨境電商、國(guó)際品牌傳播的得力工具。一個(gè)數(shù)字人主播能夠輕松掌握多種語(yǔ)言,在面對(duì)不同地區(qū)的直播場(chǎng)次或多語(yǔ)言觀眾同屏觀看時(shí),流暢切換語(yǔ)言進(jìn)行產(chǎn)品介紹與交流互動(dòng)。例如,一家中國(guó)的智能家居企業(yè),計(jì)劃拓展歐美市場(chǎng),其數(shù)字人主播在面向美國(guó)觀眾直播時(shí),能用美式英語(yǔ)詳細(xì)講解智能燈具的安裝步驟、智能控制 APP 的使用方法,結(jié)合美國(guó)用戶家庭常見(jiàn)的室內(nèi)場(chǎng)景進(jìn)行演示;切換到面向法國(guó)觀眾時(shí),又瞬間轉(zhuǎn)換成優(yōu)雅的法語(yǔ),提及法國(guó)消費(fèi)者注重的設(shè)計(jì)美學(xué)元素在產(chǎn)品中的體現(xiàn),解答觀眾關(guān)于產(chǎn)品兼容性的疑問(wèn)。這種無(wú)縫對(duì)接的多語(yǔ)言服務(wù)打破了語(yǔ)言壁壘,讓全球各地消費(fèi)者都能無(wú)障礙地接收產(chǎn)品信息,極大拓寬了品牌的國(guó)際市場(chǎng)覆蓋范圍,助力企業(yè)實(shí)現(xiàn)全球營(yíng)銷戰(zhàn)略布局,提升品牌國(guó)際影響力。武漢AI數(shù)字人建模