|

有福吧
2000活跃值=1元

首页 > 新车生活 > 新车生活 > 快手可灵团队提出MIDAS：压缩比64倍、延迟低于500ms，多模态互动数字人框架实现交互生成新突破

快手可灵团队提出MIDAS：压缩比64倍、延迟低于500ms，多模态互动数字人框架实现交互生成新突破

发布时间：2025-09-14 12:04:49

数字人视频生成技术正迅速成为增强人机交互体验的核心手段之一。然而，现有方法在实现低延迟、多模态控制与长时序一致性方面仍存在显著挑战。大多数系统要么计算开销巨大，无法实时响应，要么只能处理单一模态输入，缺乏真正的交互能力。

为了解决这些问题，快手可灵团队（Kling Team）提出了一种名为 MIDAS（Multimodal Interactive Digital-human Synthesis）的新型框架，通过自回归视频生成结合轻量化扩散去噪头，实现了多模态条件下实时、流畅的数字人视频合成。该系统具备三大核心优势：

64× 高压缩比自编码器，将每帧压缩至最多 60 个 token，大幅降低计算负荷；
低于 500ms 端到端生成延迟，支持实时流式交互；
4 步扩散去噪，在效率与视觉质量间取得最佳平衡。

该项研究已被广泛实验验证，在多语言对话、歌唱合成甚至交互式世界建模等任务中表现出色，为数字人实时交互提供了全新解决方案。

【返回列表】

特别声明：以上内容(如有图片或视频亦包括在内)为“有福吧用户上传并发布"，本平台仅提供信息存储服务。

下一篇:在慕尼黑IAA展会现场，我们坐进了一辆“会消失”的车

上一篇:限时价4.29万元睿蓝蓝气球微型车上市续航里程210km

新车生活更多>>

谷歌Gemini赋能！iPhone将迎来超10项智能新功能追觅科技与央视春晚官宣战略合作！追觅洗地机将与全球观众共贺新春国产HDMI2.1协议分析仪交付华为！软硬件完全自主知识产权 17系列挑大梁Air疲软苹果Q4国内出货暴增28% 6.32英寸小钢炮来袭：一加15T入网搭载骁龙8 Elite Gen5，3月见腾讯音乐“守城”，汽水音乐“改道” 消息称阿里旗下芯片公司平头哥拟独立上市，阿里未作回应探访郑州具身智能机器人实验室 AMD也要减少GPU供应！重点转向RX 9070 XT：价格更好调整 Setapp Mobile iOS应用商店将于2月16日关闭为直播间卖食品“划红线、立规矩”（政策问答·回应关切）机器人终于能用明白洗碗机了｜UC伯克利新研究押宝哪吒，国潮又杀出第一股 SK海力士、三星加速HBF商业化进程 “HBM之父”：最快明年用于英伟达产品谷歌Pixel 10a手机渲染图及规格曝光，起售价500欧元 iPhone 18系列与Air2屏幕配置曝光，Pro型号将引入屏下Face ID技术 2025年苏州年人均使用快递量超600件端到端智驾新SOTA|KnowVal：懂法律道德、有价值观的智能驾驶系统荣耀Magic8系列入选“年度科技创新--AI智能体先锋案例” 2026年新机“Turbo大战”？一加、Redmi、iQOO谁能笑到最后摩托罗拉首款大折叠手机Razr Fold渲染图曝光，支持手写笔 2026年实测：iPhone 14 Pro Max凭什么还是\"钉子户神机\"？现在算华为想国内手机销量过六千万，畅享和nova需要占一半才行？背靠上汽好乘凉？智己2025销量解读：技术换销量，盈利换未来老车主破防抢先试驾2026款岚图梦想家沃尔沃冰封40天，硬核挑战“沃标” 全新雷克萨斯LM KUHL版官图发布姿态迷人霸气十足装车了！红旗的全固态电池研发进展明确领先一个身位丰田“自砍一刀”，B级车从16.98万降到9.38万，能打过国产车？新车到店，纯电210km，比亚迪秦L 、秦PLUS DM-i长续航版正式上市

Copyright 2018-2025 有福吧版权所有京ICP备18019986号-1