AI语言翻译
Seed LiveInterpret 2.0

字节跳动发布端到端同声传译模型

标签:

字节跳动 Seed 团队正式发布端到端同声传译模型 Seed LiveInterpret 2.0。Seed LiveInterpret 2.0 是首个延迟&准确率接近人类水平的产品级中英语音同传系统,在中英同传翻译质量达到业界 SOTA 的同时,实现了极低的语音延迟水平

它基于全双工端到端语音生成理解框架,支持中英互译,可实时处理多人语音输入,像人类同传译员一样以极低的延迟 “边听边说”,一边接收源语言语音输入,一边直接输出目标语言的翻译语音。同时,Seed LiveInterpret 2.0 还支持 0 样本声音复刻,让沟通更加流畅自然。

 同声传译,被视为“翻译界的巅峰技能”。它需要译者在数秒的极短时间内转换语言,边“听”边“说”,要求极高。因此,对翻译技术研究者来说,同传一直是最具挑战的方向。

Seed LiveInterpret 2.0

测试中,可以观察到,Seed LiveInterpret 2.0 面对 40 秒的大段中文表达,能够低延迟地丝滑输出同款音色的英语翻译。Seed LiveInterpret 2.0 还能快速学习音色,无论是西游记里的猪八戒,还是红楼梦中的林妹妹,即便此前未“听”过角色的声音,依然能通过实时交互进行现场演绎。

Seed LiveInterpret 2.0

相比传统机器同传系统,Seed LiveInterpret 2.0 模型具备以下优势:

  • 接近真人同传的翻译准确率

精准的语音理解能力保障了翻译准确度,在多人会议等复杂场景中英双向翻译准确率超 70%,单人演讲翻译准确率超 80%,接近真人专业同传水平。

  • 极低延迟的 “边听边说” 能力

采用全双工语音理解生成框架,翻译延迟可低至 2-3 秒,较传统机器同传系统降低超 60%,实现了真正的 “边听边说” 翻译。

  • 零样本声音复刻,音色真实自然

只需采样实时语音信号,便能提取声音特征,用说话人的音色特质实时 “说出” 外语,提升交流的沉浸感和亲和力。

  • 智能平衡翻译质量、延迟和语音输出节奏

可根据语音清晰度、流畅度、复杂程度,调整输出节奏,并适配不同语言特性。面对超长信息,依然能保证传译语音节奏的自然流畅。

体验路径:登录火山引擎后,选择语音模型“Doubao-同声传译2.0”

相关导航

暂无评论

暂无评论...