
在演义阅读器读本章
去阅读
米哈游蔡浩宇的 AI 公司 Anuttacon,首个视频模子慎重曝光!
Anuttacon 技巧团队成员 @Ailing Zeng,在 X 上展示了全新视频脚色扮演生成模子—— LPM 1.0。
主打一个让 AI 脚色东谈主物弘扬得更《出神入化》~

寰球先看底下这位 AI 小哥,天真演绎了一场 16 秒变换 N 种心扉的超绝大戏,你就说这心扉拿抓到不到位吧:
不仅如斯,在 LPM 1.0 模子中,连让 AI 东谈主物「听别东谈主话语」这事儿也同步进化了。(天呐 .jpg)
哪怕不张口、只是适意坐着当一个慎重凝听的东谈主,脚色的姿色、目力和心扉反馈也皆在线,这心扉价值给的:
此外,咱们还可以和 AI 进行「及时互动」。
惟有对着电脑屏幕说一句我方的甲方需求,屏幕里的 AI 脚色就能够凭证教唆当下作念出反映。
哪怕是在永劫期交互下,依旧能保证东谈主物形象牢固一致,be like:
姿色如斯之当然、心扉如斯之到位、交互如斯之及时,网友平直等于一个《坐不住》,直言:
及时、扶持无尽长度的 AI 脚色终于来了!!!(高声 .jpg )

(说简直,我大早上在官网看了这几个 demo 后果后,属实快分不出来 AI 不 AI 了…)
LPM 1.0:主打一个让 AI 脚色变「戏精」
其实对今天的 AI 视频家具来说,能把东谈主物脚色的姿色天真演绎出来,早就不算什么簇新事了。
关联词 LPM 1.0 模子突出就突出在吧——
咱们能通过文本、音频和图像三种多模态面貌,简短生成一个能及时对话、会听会说、还能无间保持东谈主物一致性的动态脚色。
让 AI 脚色在视频里,更会演、更会听、更会说,还能一直像归拢个东谈主~

我也帮友友们淡淡追思了一下 LPM 1.0 模子最中枢的几大「才略亮点」:
超绝心扉演绎才略:能同步生成话语、倾听、微姿色和当然当作,心扉扮演更到位。
及时视频生成才略:通过在线生成器,用户能已毕和 AI 脚色已毕及时交互,相宜作念对话型脚色。
凭证对方话语作念出反映的才略:脚色可以一边听用户话语一边作念出姿色反映,等轮到脚色恢复时,它再凭证合谚语音生成话语视频。
永劫期东谈主物一致性:哪怕和 AI 的互动期间延长之后,AI 脚色依旧尽量守护归拢个东谈主的外不雅和身份特征。
emm …这些才略是不是听上去有点乏味?不艰难,咱们平直让 AI 演员们上才艺!

先来说说寰球很感意思意思也很有益旨真理的——「超绝心扉演绎才略」。
具体来说,模子在口型同步、呼吸节律、心扉抒发维度上的弘扬更靠拢东谈主类的弘扬风物,呈现后果也就更有档次。
比如不才面这个堪比好莱坞大片的视频,两位须眉只是在几秒钟的期间,就天真演绎出了多个心情——
前一秒如故盘桓和盘桓,下一秒就出现抿嘴、咬牙、咨嗟这类更轻微的当作,能让东谈主澄莹感受到情绪现象在变化。
( 老戏骨啊老戏骨,提出送去参预 AI 版《演员的出生》!)
再看底下这位老哥,短短 9 秒期间里,惊险、病笃、大怒几种心扉接连切换,总计经过还挺有压迫感??
此外不知谈寰球发没发现,当东谈主物在说到重音位置时,嘴部开合幅度、面部发力风物也会随着增强。
台词重点和扮演重点是对得上的,交融度可以说口角常可以,be like:
除了对着镜头完成这类单东谈主扮演,LPM 1.0 还有个更有益旨真理的才略——
那等于脚色在「倾听别东谈主话语」时,会同步给出与当下情境相符的的姿色和现象反馈。
让你以为,目下这个 AI …好像简直在赛博寰球和另一个东谈主真实互动。
比如底下这个女东谈主接孩子电话的片断。
当她听到电话那头的声息时,第一期间先是目力变化,轮盘随后眼睛微微睁大,带出少许或然和记挂,紧接着眉头收紧,像是在飞速判断电脑那头孩子是不是遭遇了什么事。
emm …整段反映很像真东谈主接电话时那种「边听边消化信息」的现象:
再看底下这个姿色仍是有点稍微狂躁的须眉。
对方一启齿,他的脸上就同步出现了扶头、困顿、幽微不耐性这些反映,总计东谈主的现象像是在强撑着把这段话听完。
(像极了咱们上班开会听雇主讲话时候的姿色…狠狠共识住了。)
除了上头咱们展示的这些单向视频生成才略外,LPM 1.0 还有一个异常值得一提的才略——
那等于咱们能与 AI 脚色「及时互动」。
举例你话语时,脚色会及时作念出正在听的姿色和当作,让总计互动看起来会更像真东谈主视频通话。
比如底下这个 demo,在视频对话器中,女子只张口说了句「let ’ s sing a song」,屏幕里的 AI 女孩就能作念到坐窝初始大展歌喉~
再比如,只说一句「请你作念个自我先容」,屏幕里的 AI 女孩也能快速作念出关系反映,更接近真实换取该有的节律:
临了咱们来说说 LPM 1.0 永劫期视频生成中才略。
具体来说,LPM 1.0 能够让 AI 脚色在永劫期互动里依旧保持牢固输出,既能无间对话,也能永劫期讲故事,东谈主物形象还结巴易崩。
比如像底下官决策例中 22 分钟、48 分钟的视频也能简短生成,而况脚色形象一致性依旧保持可以~

LPM 1.0 为啥这样会「演」?
能让赛博寰球里的东谈主物脚色姿色心情和交互才略如斯到位,LPM 1.0 背后的技巧架构当然也不浅近。
我先给寰球小小科普一下,其实当今行业内的视频模子,一直很难同期兼顾三件事儿——
那等于弘扬力、及时性、长视频的脚色一致性。
这三项才略可以说是彼此牵制,水火不相容,这也组成了当下 AI 视频最中枢难题之一…
而为了处置这个浩劫点,LPM 1.0 团队先是构建了一套以东谈主为中心的多模态数据集——
在这个经过中加入了扮演和会,身份感知等多种参考信息本色,标的是让 AI 脚色更像真东谈主换取时的现象。

在此基础上,团队又给底层架构平直上了一套有着 170 亿参数的扩散 Transformer。
这套架构更擅所长理视频里空间与期间之间的复杂关联,能借助普遍的自珍主张机制,把东谈主物姿色、口型、当作,以及前后帧之间的连气儿关系通盘建模。
这样一来模子就能知谈到底奈何演才调更当然更像东谈主类~
而至于咱们在刚才看到的能及时交互的模拟器,则是一个因果式流生成器,专门用于已毕低延长、可无间、无尽长度的及时交互。
这样一来咱们就和 AI 角东谈主物进行及时换取了!(窃笑 .jpg)

除了模子自己的才略外,LPM 1.0 团队成员相通值得热心。
这次在 X 上透露 LPM 1.0 模子的 @Ailing Zeng,身份为 Anuttacon 的技巧团队成员,主要负责互动多模态视频生成模子的关系运筹帷幄。
她博士毕业于香港中语大学,在加入 Anuttacon 之前,曾在腾讯混元团队和 IDEA 从事大模子关系运筹帷幄。

此外,该模子的技巧论文由 20+ 位运筹帷幄东谈主员共同参与完成,感意思意思的 uu 可通过下方论文华集了解模子的翔实技巧本色~

Ps: 当今,模子还莫得慎重对外上线,感意思意思的一又友可以蹲蹲。
参考采集:
[ 1 ] https://arxiv.org/html/2604.07823v1
[ 2 ] https://large-performance-model.github.io/#
一键三连「点赞」「转发」「提神心」
接待在驳倒区留住你的思法!
— 完 —
� � 谁会代表 2026 年的 AI?
龙虾爆火,带动一波 Agent 与养殖家具海浪。
但真实好得恒久热心的 AI 公司和家具,省略不啻于此。
如若你正在作念,或见证着这些变化,接待讲述。
让更多东谈主看见你。� � https://wj.qq.com/s2/25829730/09xz/
一键热心 � � 点亮星标
科技前沿进展逐日见轮盘游戏app
PG电子(PocketGames)游戏官网