可灵2.6模型推出“音画同出”能力 重构AI视频创作工作流

2025.12.05

香港,2025年12月5日 /美通社/ -- 领先的内容社区及社交平台快手科技(“快手”或“公司”;港币柜台股份代号:01024 / 人民币柜台股份代号:81024)宣布,12月3日,可灵推出视频生成2.6模型,该模型提供了里程碑式的“音画同出”能力,彻底改变了传统AI视频生成模型“先无声画面、后人工配音”的工作流程。它能够在单次生成中,输出包含自然语言、动作音效以及环境氛围音的完整视频,重构了AI视频创作工作流,极大提升创作效率。

重构AI视频创作工作流 中文语音生成效果全球领先 

可灵2.6模型升级了文生音画、图生音画两大功能,输入文本或是输入图片结合提示词文本,均可直接生成带有语音、音效及环境音的视频。语音当前支持生成中文以及英文,生成视频长度最长支持10秒。

该升级重构了传统AI视频创作“先生成无声的视频,再结合其他软件完成后期声音制作”的工作流,创作者使用可灵2.6模型,能够直接生成包含人声、环境与效果音效的视频,极大提升了创作者的工作效率。

通过对物理世界声音与动态画面的深度语义对齐,可灵2.6模型在音画协同、音频质量和语义理解上表现亮眼。

音画协同上,可灵2.6模型生成的视频,在语音节奏、环境音与画面动作上紧密呼应,实现了对画面动态与声音节奏的深度对齐,避免了传统工作流可能产生的“画面一套、声音一套”的割裂体验。

音频质量上,在支持人声、音效、环境声等多类型声音生成的基础上,生成的音频音质更干净、层次更丰富,整体听感更接近真实的混音效果,满足专业级创作对声音细节的高要求。 
语义理解上,该模型对多种场景下的文本描述、口语表达和复杂剧情有较强的语义理解能力,能够更准确地把握创作者意图,从而输出逻辑更严密、更贴合用户需求的音画内容。同时,可灵2.6模型在中文语音生成效果上保持全球领先。

一键“音画同出” 广告营销、自媒体、电商等创作场景迎来效率革命

可灵2.6模型支持的声音类型包括说话、对话、旁白、唱歌、Rap、环境音效、混合音效等多种声音的单独或混合生成,能够广泛地应用于广告营销、自媒体、电商等行业的视频内容创作,极大提升创作效率。

例如在广告营销行业,可灵2.6模型能够一键生成含有旁白介绍、演员对白、商品展示等综合声音效果的广告短片,极大降低广告片拍摄的成本,提升效率。

在自媒体领域,可灵2.6模型的应用则更加广泛。通过多人对白能力,创作者可以创作包含访谈节目、剧情演绎、搞笑短剧等多类型的内容创作,还可以借助模型的音乐表演能力,进行唱歌、说唱表演、乐器演奏等类型的内容创作。运用可灵2.6模型,可大幅度降低自媒体创作者的创作成本与难度。

在电商领域,通过单人独白、旁白解说等能力,可灵2.6模型能够完成商品展示、产品讲解等电商领域的视频内容创作,提升商家的经营效率。

可灵2.6模型的推出,进一步降低了内容创意行业视频创作的成本与难度,未来可灵AI也会持续开发更多实用功能,为创作者提供更优质、便捷的AI视频创作工具。

关于快手

快手作为中国乃至全球领先的内容社区及社交平台,致力于成为全球最痴迷于为客户创造价值的公司。作为一家以人工智能为核心驱动和技术依托的科技公司,快手专注于通过持续的技术创新和产品升级,不断丰富服务和应用场景,为客户创造价值。在快手,用户通过短视频和直播来记录和分享他们的生活,发现所需,发挥所长。通过与内容创作者和企业紧密合作,快手提供的技术、产品和服务可满足用户的多元化的需求,包括娱乐、线上营销服务、电商、本地生活、游戏等。

前瞻性声明

除过往事实的陈述外,本新闻稿载有若干前瞻性陈述。前瞻性陈述一般可透过所使用前瞻性词汇识别,例如"或会"、"可能"、"可"、"可以"、"将"、"将会"、"预期"、"认为"、"继续"、"估计"、"预计"、"预测"、"打算"、"计划"、"寻求"或"时间表"。该等前瞻性陈述受风险、不确定因素及假设的影响,可能包括业务展望、财务表现预测、业务计划预测、发展策略及对我们行业预期趋势的预测。该等前瞻性陈述是根据本集团现有的资料,亦按本新闻稿刊发之时的展望为基准,在本新闻稿内载列。该等前瞻性陈述是根据若干预测、假设及前提作出,当中许多涉及主观因素或不受我们控制。该等前瞻性陈述或会证明为不正确及可能不会在将来实现。该等前瞻性陈述涉及大量风险及不明朗因素。鉴于上述风险及不明朗因素,本新闻稿内所载列的前瞻性陈述不应视为董事会或本公司声明该等计划及目标将会实现,故投资者不应过于依赖该等陈述。除法律要求的情形外,我们并无责任公开发布可能反映本新闻稿日期后发生的事件或情况或可能反映意料之外事件的该等前瞻性陈述的任何修订。

投资者及媒体问询 
快手科技
投资者关系
邮箱:ir@kuaishou.com