商汤Seko视频Agent新突破,三人同屏对口型技术终成现实，一骑绝尘领跑行业

匿名

作者

确实，商汤科技的Seko视频Agent在多人物同屏对口型技术上取得了显著进展，这对于视频制作和特效行业来说是一个重要的突破。多人物同屏对口型技术要求系统不仅能够精确捕捉和同步多个演员的口型，还要能够将其与视频中的其他元素（如背景、动作等）无缝融合，这对算法的复杂度和准确性提出了很高的要求。
商汤科技的Seko视频Agent通过其先进的算法和深度学习技术，能够实现这一复杂任务，为视频制作提供更加高效和精确的解决方案。这一技术的应用将大大提升视频制作的效率和质量，为电影、电视剧、广告等行业带来新的可能性。
当然，技术的进步永无止境，商汤科技的Seko视频Agent还有很大的发展空间。未来，随着技术的不断优化和升级，我们可以期待看到更多创新的应用和更出色的表现。

以往想让画面里的多个角色各自精准对上台词，要么是 “集体嘴动” 的尴尬，要么是沉默者僵立的违和。而商汤 Seko 带着升级的 SekoTalk 技术与画布修改功能来了，彻底打破了这层限制
口型，口型，还是口型！
之前AI视频的对口型技术，最大的瓶颈就是多人场景，你很难让两个或三个人同时出现在一个画面里，并且各自的嘴型都能跟上自己的台词。
现在，Seko 带来了商汤新鲜升级的对口型SekoTalk，
我直接做了一段蒙娜丽莎和带珍珠耳环的少女和大卫雕像坐在一起吐槽的长镜头画面，
三个人物可以互相交谈，口型与配音可以很精准的同步，人物动作也比较自然，还有眼神互动，整体完成度很高。
seko还同时上线了画布修改功能，我也玩了一通完成了一段这样的丝滑走路变装秀，
画面构图不发生变化，同时还能保持人物的高度一致。放在以前，我要一张张图做局部重绘，然后导给其他的工具再完成视频生成，最后再放到剪辑工具里拼起来，才能完成这样一段。
现在放在Seko里，就是一个页面就能搞定的事。
所以我们要如何把这些功能融入到一个完整的影片制作中捏。
之前测评Seko的话，它最突出的能力就是可以一站式完成视频的全流程创作，
用即梦4.0直出AI长视频的邪修攻略！我在seko薅商汤羊毛
在seko里，我可以完成脚本文案的创意，还能直接生成高一致性的分镜图片和视频，完成配乐和旁白配音，甚至还能对口型、增删镜头、剪辑镜头时长等等等等操作，灵活性非常高。
seko升级了这两个能力之后，我们又能做到什么呢？
就比方之前做一个视频，只能做到一个画面中只有一个人物在说话，如果画面中有两个人物的话，不说话的人物要么就是傻愣着，要么就是能做出一些微小的反应，要么就是两个人一起嘴动，简单来说就是没有办法做到多人对话回应，我直接和现在的Seko做个对比，
测下来从人脸、动作、口型同步上看，Seko做的效果又好了不少。
我拿一个短片举栗，有在追更喜人的朋友吗？
我做了一段技能五子棋的双人唱跳视频，上传制作好的卡通版人物主体，并让seko生成一个包含五子棋元素的无厘头唱跳视频创意，
操作步骤基本一样，调整好整个视频的创意脚本后就可以直接进入到分镜的部分进行删减调整，留下自己想要的画面，在分镜这里就可以用到我们刚刚提到的，Seko新上的画布编辑功能，对单张图片进行针对性修改，
比如说这图中里多出来的两个三角形我不喜欢，我就可以使用消除功能在保持原图不变的情况下删掉不想要的元素，
或者也可以给画面中自然的融入新元素，
也可以直接用局部重绘功能针对性修改图中的内容，
如果想保持一致性的情况下对整张图进行修改，还还还可以直接点击分镜然后在直接对话提需求，改个场景、改个天气、改个图片风格，都是可以的。
调整好所有分镜后，就可以开始对口型了，这里可以一个镜头一个镜头来操作，
Seko会自动分析图片中有几个人物，敲重点了，
这时候想用自己的音频的话，需要分离好每个人说话的音频，然后选择对应的角色、上传音频、可以适当填写画面描述之后再添加音频，
也可以直接用Seko内置的音色，调整音色情绪，
添加好音频后会在左侧直接看到音频轨道，我们可以控制人物在第几秒说这段话，音频匹配好后，点击生成视频就可以了。
照葫芦画瓢，把每个分镜的配音都调整好，我们就可以得到一个完整的技能五子棋了！三二一，传统的五子棋，
乍一看这口型对的还挺准，细一看人物一致性保持更好，舞蹈动作也够抽象的，感觉我已经能看到第一（划掉）吐槽役张呈了。
同样的方法我们还可以出做超长镜头的猫咪脱口秀片段，
也可以做一个汽水产品的双人广告，马上给我上架棒棒小卖部（不要再玩内部梗了）
我现在就期待音频能支持站内剪辑、人物动作幅度可控性能再提升一个台阶，这样就无敌了！（可靠小道消息，马上就要上线了！）
其实SEKO的每次升级，除了模型能力的提升外，给我带来最大的意义就俩字：省事！
以前做个多人的、复杂的视频，从头到尾得用好几个工具，
素材一多时间一长各种软件间传来传去就懵了，
现在，Seko把多人对口型给你了，单镜头画布编辑也给了，视频编辑、多种图片模型视频模型自由选择也都掏出来了。
AI界的万能钥匙是吧，
什么都配全后，脑洞，就是我们唯一需要的了。
AI创作的边界又又又又一次被扩大了，
卷点好啊。
撰文：卡尔
本文由人人都是产品经理作者【卡尔的AI沃茨】，微信公众号：【卡尔的AI沃茨】，原创/授权发布于人人都是产品经理，未经许可，禁止转载。
题图来自Unsplash，基于 CC0 协议。

发布于 2025-12-13 04:21

喜欢 0

上一篇：喜人奇妙夜2第一期网友评分揭晓,技能五子棋篇，惊艳斩获7.9高分好评！下一篇：没有了

商汤Seko视频Agent新突破,三人同屏对口型技术终成现实，一骑绝尘领跑行业

相关阅读延伸：终于有个视频Agent能做三人同屏对口型了，这次商汤Seko上大分

推荐阅读