从文字到语音:AI 助手的进化
当你的 AI 助手只会打字回复时,它就像一个沉默的秘书——高效但缺少温度。语音合成(Text-to-Speech, TTS)技术的加入,让 OpenClaw 从”文字工具”进化为”语音伙伴”,在通勤、做家务、开车等无法看屏幕的场景下,依然能为你提供信息和服务。
本文将带你从零配置 OpenClaw 的语音合成功能,探索实际应用场景,并分享音色选择和优化技巧。
一、OpenClaw 语音合成架构
OpenClaw 的语音合成系统支持多种 TTS 引擎,通过统一的接口提供服务:
{
"tts": {
"provider": "elevenlabs",
"defaultVoice": "nova",
"options": {
"stability": 0.7,
"similarity_boost": 0.8
}
}
}
核心组件包括:
- TTS 引擎:支持 ElevenLabs、OpenAI TTS、Azure Cognitive Services 等
- 音色库:上百种预设音色,覆盖男女声、不同语言和风格
- 输出通道:语音消息可发送到 Telegram、Discord 等平台
二、ElevenLabs 接入配置
ElevenLabs 是目前最流行的 AI 语音合成服务,音质接近真人,支持 29 种语言。
2.1 获取 API Key
- 访问 elevenlabs.io 注册账号
- 进入 Profile → API Keys 页面
- 创建新的 API Key 并复制
2.2 配置 OpenClaw
在 config.json 中添加 ElevenLabs 配置:
{
"tts": {
"provider": "elevenlabs",
"apiKey": "your-elevenlabs-api-key",
"defaultVoice": "21m00Tcm4TlvDq8ikWAM",
"model": "eleven_multilingual_v2"
}
}
其中 defaultVoice 是音色 ID,可在 ElevenLabs 的 Voice Library 中浏览选择。eleven_multilingual_v2 是多语言模型,中文效果优秀。
2.3 验证配置
配置完成后,重启 Gateway 并测试:
openclaw gateway restart
在对话中发送:”用语音读一下今天的新闻摘要”,如果收到一条语音消息,说明配置成功。
三、实用语音场景
3.1 每日新闻播报
配合 Cron 定时任务,每天早上自动推送语音新闻:
{
"schedule": "0 8 * * 1-5",
"task": "获取今日科技新闻摘要,生成3分钟语音播报发送到 Telegram",
"channel": "telegram"
}
工作日早上 8 点,你会收到一条语音消息,边刷牙边听新闻,开启高效一天。
3.2 故事与知识分享
OpenClaw 支持长文本语音合成,非常适合讲故事、读文章:
"用语音给我讲一下量子计算的基本原理,控制在5分钟以内"
AI 会先撰写内容,再合成为语音发送。你可以像听播客一样吸收知识。
3.3 通知与提醒
重要的提醒用语音推送,比文字更醒目:
"30分钟后提醒我开会,用语音通知"
当提醒触发时,你会收到一条语音消息:”老板,距离会议开始还有5分钟,请准备好资料”,比冰冷的文字提醒更有人情味。
3.4 多语言学习助手
TTS 的天然优势是能生成标准发音的外语语音:
"用英语读出以下句子,语速放慢:The quick brown fox jumps over the lazy dog"
配合 OpenClaw 的对话能力,可以打造一个互动式语言学习助手,随时练习听力和发音。
四、音色选择指南
选择合适的音色是提升体验的关键。以下是常见场景的推荐:
- 日常助手:Rachel(温和女声)或 Adam(沉稳男声)——自然亲切
- 新闻播报:Marcus(专业男声)——清晰有力
- 故事讲述:Bella(甜美女声)——富有表现力
- 学习助手:Dorothy(耐心女声)——清晰缓慢
建议在 ElevenLabs 的 Voice Library 中试听多个音色,选择最符合你使用场景的。每个人的偏好不同,没有绝对的最优解。
五、性能优化与成本控制
5.1 文本预处理
长文本直接合成效果可能不佳,建议预处理:
- 将超长文本分段合成,每段 500-1000 字
- 去除 Markdown 格式符号(#、**、` 等)
- 将缩写展开为全称(AI → 人工智能)
5.2 缓存策略
对于重复性内容(如每日问候),可以缓存语音文件,避免重复合成消耗额度:
// OpenClaw 内部会自动缓存相同文本+音色的合成结果
// 相同内容第二次请求会直接返回缓存的音频
5.3 成本估算
ElevenLabs 按字符数计费,不同套餐额度不同:
- 免费版:每月 10,000 字符
- Starter($5/月):30,000 字符
- Creator($22/月):100,000 字符
一篇 800 字文章约 1,200 字符,每天 3 篇约 3,600 字符,免费版即可覆盖日常使用。
六、常见问题排查
- 语音消息发送失败:检查平台是否支持语音消息(Telegram 支持,部分平台不支持)
- 中文发音不准:确保使用
eleven_multilingual_v2模型而非英语专用模型 - 语速太快/太慢:在请求中指定语速参数,或在文本中插入停顿标记
- 音色与预期不符:确认 Voice ID 正确,不同音色 ID 可能名字相似但效果差异很大
总结
语音合成为 OpenClaw 打开了全新的交互维度。从每日新闻播报到学习伴侣,从温馨提醒到多语言助手,语音让 AI 助手不再只是屏幕上的文字,而是像真人一样可以”说话”的伙伴。配置简单、成本可控、场景丰富——现在就让你的 OpenClaw 开口说话吧!
