
编者按:在全球化浪潮与远程协作常态化的今天,语言障碍仍是沟通中最直接的“堵点”。知名翻译服务商DeepL近日正式进军实时语音翻译领域,推出覆盖会议、移动对话、前线工作群聊等多场景的语音互译套件,并开放API供开发者定制化使用。这不仅是技术层面的重要突破,更可能重塑客服、跨国协作等行业的运作模式。DeepL凭借多年文本翻译积累的数据与算法优势,试图在延迟控制与翻译准确度间找到最佳平衡点,而其“端到端语音翻译”的远期目标,或将彻底改变我们跨越语言边界的方式。然而,赛道中早已涌现出专注口音实时修正、影视内容本地化乃至“原声保留翻译”的竞争者,一场关于声音与意义的科技角逐正在悄然升温——
以文本翻译工具闻名的DeepL公司,今日发布了一套语音对语音翻译解决方案,覆盖会议、移动端与网页对话、以及通过定制应用为一线工作人员提供的群组对话等多种使用场景。该公司同时开放API接口,允许外部开发者和企业基于DeepL的技术构建定制化应用,例如用于呼叫中心等场景。
“在文本翻译领域深耕多年后,涉足语音对我们而言是水到渠成的一步,”DeepL首席执行官雅雷克·库蒂沃夫斯基在接受TechCrunch采访时表示,“我们在文本和文档翻译方面已经走了很远。但我们认为,市场上始终缺少一款出色的实时语音翻译产品。”
库蒂沃夫斯基指出,开发实时翻译产品的核心挑战在于,如何在降低延迟(即从说话人开口到翻译音频播放之间的时间差)与保持翻译准确性之间取得平衡。
DeepL正在为Zoom和Microsoft Teams等平台发布插件,听众可以在他人用母语发言时听到实时翻译,或在屏幕上跟随实时翻译的文字。该项目目前处于早期体验阶段,公司正邀请各机构加入等候名单。该公司还推出了用于移动端和网页对话的产品,支持面对面或远程进行。
DeepL还允许用户在培训或研讨会等场景中参与群组对话,参与者可通过扫描二维码加入。
DeepL表示,其语音对语音技术还能学习并适应定制词汇,例如行业特定术语、公司名称和人名。
库蒂沃夫斯基认为,人工智能正在重塑未来几年客户服务的面貌。他指出,翻译层能够帮助公司在那些合格员工稀缺且招聘成本高昂的语言区域提供支持。
该公司称,其掌控着整个语音对语音的技术栈。然而,当前系统仍先将语音转为文本,进行翻译,然后再转换回语音。DeepL相信,由于其在文本翻译领域耕耘多年,在翻译质量上具有优势。展望未来,公司希望开发一个端到端的语音翻译模型,完全跳过文本转换步骤。
DeepL面临着来自该领域多个资金充裕的初创公司的竞争,它们在相邻细分市场展开业务。例如Sanas公司,去年从Quadrille Capital和Teleperformance融资6500万美元,利用人工智能实时修正说话者的口音——这款工具主要面向呼叫中心坐席。
总部位于迪拜的Camb.AI专注于为媒体娱乐公司和亚马逊云科技提供语音合成与翻译服务,帮助它们大规模进行视频内容的配音和本地化。
由Reddit联合创始人亚历克西斯·奥哈尼安旗下基金Seven Seven Six支持的Palabra,正在开发一款旨在同时保留语义和说话者原声的实时语音翻译引擎,这使其与DeepL目前构建的产品形成了更为直接的竞争关系。