跨时代 Imersiv D1 多路径数字模拟转换器正式上市:168dB 动态范围突破传统 DAC 的动态范围限制

贾逸可测评:地表最强旗舰键盘?!MIDIPLUS XMAX 系列首发

测评:全方面解析 Nugen Audio DialogCheck 对白清晰度检测插件

20dB 衰减 + 自主研发变压器:爱克创两款 DI 盒如何重塑音频信号链?

PMC 打假声明:不要让仿制品限制了您的创作力


语音合成技术再获新突破:Hanabi AI 推出专业 AI 配音与声音克隆平台 OpenAudio S1

Leones 发布于 1 小时前 ·

分享到微信

领先的语音技术初创公司 Hanari AI 发布 OpenAudio S1,这是全球首个具有突破性的 AI 配音和语音生成模型,可提供前所未有的实时的情感和音调控制。它超越了传统的文本转语音解决方案的限制,可创造细致入微、感情真实的语音输出。

OpenAudio S1 由具有 40 亿个参数的端到端架构提供支持,并在各种文本和音频数据集上进行了广泛的训练。这种先进的配置让 S1 模型可以非常准确地捕捉到情感的细微差别和人声的微妙之处。

根据 Hugging Face 的 TTS Arena 第三方基准测试,OpenAudio S1 在关键基准测试中表现非常突出,在关键领域的优于 ElevenLabs、OpenAI 和 Cartesia:
  • 表现力:S1 提供更细致的情感表达和音调变化,能以电影般的深度处理讽刺、喜悦、悲伤和恐惧等微妙之处。
  • 超低延迟:S1 提供低于 100 毫秒的延迟,非常适合即时响应时间至关重要的实时应用程序,如游戏、语音助手和直播内容创建。Cartesia 和 OpenAI 等竞争对手仍然会遇到更高的延迟,导致在实时交互设置中响应不那么自然、更机器人化。
  • 实时精细可控:借助 S1,用户不仅可以使用(生气)或(声音颤抖)等简单提示,还可以使用各种更细致或更具创意的指令,例如“自信但隐藏恐惧”。这允许为各种上下文和角色量身定制非常灵活和富有表现力的语音生成。
  • 最先进的语音克隆:准确复制说话人的节奏和音色。
  • 多语言、多人对话的流利度:S1 可在 11 种语言中完美执行任务,擅长在多语言环境中处理多人对话环境,支持不同语言之间的无缝过渡,而不会失去语气的一致性。

Hanabi AI 创始人兼首席执行官 Shijia Liao 表示:

“声音是传达情感最有力的方式之一,但它也是最微妙、最难复制的,同时也是让机器真正具有人性的关键。但长期以来,它一直局限于文本转语音的思维模式。归根结底,机器生成的语音与人类语音的区别在于情感的真实性。这不仅关乎你说什么,还关乎你怎么说。OpenAudio S1是首个赋予创作者像与真人演员合作一样,具有指导配音能力的 AI 语音模型。”

OpenAudio S1 现已在 fish.audio 上线,所有人可有限免费试用。订阅高级版:15 美元/月或 120 美元/年。

官网:https://fish.audio/https://www.synthtopia.com/content/2025/06/05/tts-arena-site-is-like-hot-or-not-for-voice-synthesis/

暂无评论