新榜訊 5月28日消息,騰訊混元正式發(fā)布并開源語音數(shù)字人模型HunyuanVideo - Avatar。該模型由騰訊混元視頻大模型(HunyuanVideo)與騰訊音樂天琴實驗室MuseV技術(shù)聯(lián)合研發(fā)而成。它具備強(qiáng)大功能,支持頭肩、半身與全身景別,可適用于多風(fēng)格、多物種與雙人場景,能為視頻創(chuàng)作者提供高一致性、高動態(tài)性的視頻生成能力。用戶只需上傳人物圖像與音頻,HunyuanVideo - Avatar模型便能自動對圖片和音頻進(jìn)行解析,包括識別出人物所處環(huán)境、音頻蘊含的情感等,進(jìn)而讓圖中人物自然地說話或唱歌,生成帶有自然表情、唇形同步且包含全身動作的視頻。(財聯(lián)社)
掃描二維碼
手機(jī)瀏覽
騰訊發(fā)布并開源混元語音數(shù)字人模型
分享文章鏈接
相似推薦

騰訊混元圖像2模型發(fā)布 支持文本、語音、草圖等交互方式
新榜訊 今日,騰訊混元重磅發(fā)布業(yè)內(nèi)首款能夠?qū)崿F(xiàn)毫秒級響應(yīng)的實時生圖大模型 Hunyuan Image2.0(參數(shù)規(guī)模提升達(dá)數(shù)十倍),該模型支持文本、語音、草圖等多元交互方式。

通義大模型開源發(fā)布3D數(shù)字人大模型
新榜訊 4 月 7 日,通義大模型重磅宣布開源發(fā)布超寫實 3D 數(shù)字人大模型(LAM)。

騰訊混元上線并開源圖生視頻模型
新榜訊 3 月 5 日,騰訊混元重磅上線并開源圖生視頻模型,同期推出對口型與動作驅(qū)動等全新玩法,支持生成背景音效以及 2K 視頻。