进入全球第一梯队!京东开源JoyAI-Echo框架 长视频生成“所想即所得”时代到来
6月3日,京东推出JoyAI-Echo长音视频生成框架,直接解决行业头疼已久的“长视频生成三大难题”—— 角色易崩、声音乱变、生成缓慢。更重要的是,它实现了“对话式编辑”功能,不用再为改一个镜头重跑整条视频。
JoyAI-Echo的发布,标志着京东在长视频生成领域进入全球第一梯队。JoyAI-Echo具有重要的实用价值和广泛的应用前景,AI“长视频时代”真的来了!
以前的长视频生成
到底有多难?
现在大家看到的AI短视频,画质和效果已经相当能打。但只要一拉长到分钟级,问题立刻暴露无遗:
同一个角色,上一个镜头和下一个镜头长得不一样
说话人的音色忽高忽低,甚至突然变声
生成速度慢到离谱,等几分钟才能出结果
这些问题直接导致AI长视频一直停留在“玩具”阶段,很难真正投入生产使用。JoyAI-Echo的出现,彻底打破了这个僵局。
JoyAI-Echo
四项实打实的技术创新
🧠 跨模态音视频记忆库:角色再也不“变脸”
这是最关键的突破。框架内置了一个专门的记忆库,能在多镜头生成过程中,持续保存并调用角色的外观特征和说话人音色信息。
实测结果显示,长达5分钟的视频里,角色身份、视觉形象和声音音色都能保持高度一致,再也不会出现“同一个人演着演着变成另一个人”的尴尬情况。
⚡ 记忆驱动后训练:速度直接提升 7.5 倍
团队创新性地提出了记忆驱动后训练流程,结合SFT、跨模态RLHF和 Distribution Matching Distillation(DMD)技术,不仅大幅提升了生成质量,更实现了惊人的推理加速。
其中,仅DMD一项技术就带来了约7.5倍的速度提升,让长视频生成从“等半天”变成“秒出片”。
🎬 Director Agent:像和导演聊天一样做视频
这是最让人惊喜的功能!JoyAI-Echo不再是那种“输入提示词,一次性出结果”的传统工具,而是加入了一个智能“导演助理”——Director Agent。
你用自然语言说需求,它会自动帮你拆分成剧本、角色、场景和镜头;哪里不满意,直接用对话的方式告诉它修改,只重新生成有问题的局部镜头,整条视频不用重来。
整个工作流包含规划、生成、评审和局部修订四个环节,让长视频创作从“静态生成”变成了“动态协作”。
🖼️ 轻量化实时超分:高清输出不卡顿
为了满足专业内容生产的需求,JoyAI-Echo还配套了专门的实时超分模块,支持两档分辨率提升:
736×1280 → 1152×1920
736×1280 → 1472×2560
通过单步超分就能生成高分辨率视频和精细化音频,即使在流式延迟的约束下,也能保持稳定的高清表现。
实测数据说话
各项指标全面领先
为了客观评估 JoyAI-Echo的性能,研究团队基于100个故事、3000个镜头构建了专门的长音视频生成评测集,从多个维度进行了全面测试。
结果显示,JoyAI-Echo在跨镜头一致性、视频质量、文本一致性和语音内容准确率等所有核心指标上都取得了领先表现,其中语音内容准确率更是高达 0.8646,大幅领先行业其它同类模型。在用户偏好调研中,JoyAI-Echo的优势更加明显。用户认为JoyAI-Echo音频质量偏好的比例为81.7%,提示词遵循偏好为80.6%,视觉美学偏好为63.6%,IP一致性偏好为59.4%。
即使在人像类短视频任务中,JoyAI-Echo也在视觉美学和提示词遵循方面获得了更高的用户认可。
这些场景,即将被彻底改变
JoyAI-Echo的推出,为众多行业带来了全新的可能性:
虚拟故事创作和动漫制作
数字人内容生产和直播
品牌营销视频快速迭代
影视前期预演和分镜制作
互动教育课件生成
游戏剧情和过场动画制作
JoyAI-Echo的推出,标志着京东在长视频生成领域实现重大突破,进入全球第一梯队。未来,我们真的可以像聊天一样,持续创作、修改和完善长视频内容,让高一致性、高画质、可交互的视频生成真正走进每一个内容创作者的工作流程。
JoyAI-Echo的代码与权重已全部开源!目前项目页和GitHub代码仓库已经正式上线,供开发者和创作者体验和二次开发。
- 免责声明:本文内容与数据仅供参考,不构成投资建议。据此操作,风险自担。
- 版权声明:凡文章来源为“大众证券报”的稿件,均为大众证券报独家版权所有,未经许可不得转载或镜像;授权转载必须注明来源为“大众证券报”。
- 广告/合作热线:025-86256149
- 举报/服务热线:025-86256144

