
产品介绍
Google 推出的 TTS API,支持内联音频标签、多说话人对话以及 70 多种语言。面向通过 Gemini API 和 Vertex AI 构建语音 agent、配音工具或 AI 内容产品的开发者。
适合谁关注
- 开发者和技术团队
- 设计师、内容创作者和视觉团队
- 教育产品团队和学习工具用户
- 正在评估 AI 工具或智能体落地的团队
可借鉴场景
- 快速理解 Google Gemini 3.1 Flash TTS 的定位、核心能力和 Product Hunt 热度
- 判断“支持自然语言语音指令的文本转语音 API”这类需求是否值得做竞品调研
- 沿着 开发者工具、AI 与智能体 继续发现同类产品和替代方案
- 筛选高票产品,观察海外用户当前愿意投票支持的产品形态
142
投票数
3
评论数
4月16日
发布日期
作者自荐
总结
Google Gemini 3.1 Flash TTS 的价值不只在于把文本转成语音,更在于把语音生成从固定播报提升到可编排、可导演的内容生产层。内联音频标签、多说话人对话和按地区控制口音,明显降低了配音、语音 agent 与互动叙事产品的开发门槛,也让多语言内容生产更接近统一工作流。它的优势是控制粒度细、场景适配广,并能和 Gemini API、Vertex AI 生态联动。需要观察的,则是预览阶段的稳定性、成本,以及复杂配置下的一致性表现。
GitMemo免费开源
把 AI 对话保存到你的 Git 知识库
本地优先,支持 macOS 与 Android。剪贴板、截图、笔记和文件都能集中保存、搜索、同步。
获取安装包

Gemini 3.1 Flash TTS 是 Google 新推出的文本转语音模型,目前已通过 Gemini API、Google AI Studio 和 Vertex AI 提供预览版本。 问题: TTS API 过去一直把语音当作静态输出。 选定一种声音,设置语速后,模型给出的往往只是平铺直叙的朗读。 想获得更丰富的表现力,要么依赖工程层面的变通方案,要么接受机器感较强的播报效果。 解决方案: Gemini 3.1 Flash TTS 引入了音频标签,即直接嵌入文本输入中的自然语言命令,可在句子中途控制语气、节奏、口音和表达方式。 还可以定义场景上下文,为多个说话人设置各自独立的声音档案,并将完整配置导出为 API 代码,方便在不同项目中稳定复用。 亮点: 🎙 内联音频标签支持在句子中途切换语气、节奏和表达方式,无需重新提示 🗣 原生多说话人对话支持在一次 API 调用中为多个角色分配声音并进行调度 🌍 支持 70 多种语言,并可按地区控制口音,无需额外流程就能完成富有表现力的语音本地化 📤 可导出的语音配置让角色设定和播报风格在各个项目中保持一致 🔒 SynthID 水印让每段输出默认都可追溯为 AI 生成内容 适用对象: 构建语音 agent、AI 配音工具、互动叙事应用和多语言内容平台,且需要大规模生成富有表现力、可精细控制语音的开发者与产品团队。