简体中文| English
本仓库以示例代码的形式向开发者展示如何通过阿里云百炼调用通义语音大模型(包括CosyVoice、Paraformer、SenseVoice、Gummy等),从而实现语音识别(语音转文字)、语音生成(文字转语音)等基础功能。以及如何结合阿里云百炼支持的大语言模型(包括通义OMNI、通义千问、百川、月之暗面、零一万物、MiniMax等),从而实现视频聊天对话、语音聊天对话、语音分析理解、语音翻译等高阶AI功能。
开发者可以通过阿里云百炼提供的模型调用 💰 免费额度 💰 试用本仓库中的各个示例,还可以直接将这些示例集成进自己的项目中进一步开发。在开发过程中如有任何疑问,都可以通过我们的钉钉 / 微信群进行沟通交流。
- ✨ 增加 QWEN-OMNI音视频对话 示例。
- ✨ 增加 QWEN-TTS-REALTIME使用server commit模式示例 示例。
- ✨ 增加 QWEN-TTS-REALTIME使用commit模式示例 示例。
更多历史发布信息请见变更记录。
-
您可以通过
git clone
克隆示例工程,或者通过Download Zip
下载完整工程,并在本地解压到文件。 -
在执行示例代码之前,您需要开通阿里云账号及阿里云百炼模型服务、创建阿里云百炼API_KEY并进行必要的环境配置,以及安装阿里云百炼DashScope SDK,有关步骤的向导请参见运行示例代码的前提条件。某些示例还需要导入必要的依赖,您可以在示例代码所在目录下的README.md文件中查看具体的依赖条件。
典型用法 | 使用说明 | 开发示例 |
---|---|---|
麦克风语音识别 | 实时从麦克风录音并进行语音识别 | 麦克风实时语音识别 |
麦克风实时语音翻译 | 实时从麦克风录音并进行语音翻译 | 麦克风实时语音翻译 |
音视频文件语音识别 | 对音视频文件进行语音识别 | 语音识别本地的单个文件 |
语音合成 | 将文字合成为语音并保存到文件 | 语音合成并保存(简单模式) |
QWEN-TTS语音合成 | 将文字合成为语音并保存到文件 | 语音合成并保存(简单模式) |
典型用法 | 使用说明 | 开发示例 |
---|---|---|
实时通话语音识别 | 实时对电话系统通话进行语音识别 | 麦克风实时语音识别 |
实时回复语音合成 | 对客服机器人回复进行语音合成 | 语音合成并播放(流式模式) |
定制音色语音合成 | 使用定制音色进行语音合成 | 复刻你的音色进行语音合成并播放(流式模式) |
通话录音批量语音识别 | 对客服中心通话录音文件进行批量语音识别 | 批量音视频文件语音识别(批量模式) |
典型用法 | 使用说明 | 开发示例 |
---|---|---|
信息播报 | 对各类文字进行语音合成 | 语音合成并播放(流式模式) |
大语言模型实时输出播报 |
对大语言模型产生的实时输出进行语音合成并播报 | 语音合成实时LLM输出并播放(流式模式) |
典型用法 | 使用说明 | 开发示例 |
---|---|---|
实时会议语音识别 | 实时对会议语音进行语音识别 | 麦克风实时语音识别 |
实时会议语音翻译 | 实时对会议语音进行语音翻译 | 麦克风实时语音翻译 |
会议录音批量语音识别 | 对会议录音文件进行批量语音识别 | 批量音视频文件语音识别(批量模式) |
会议录音批量语音翻译 | 对会议录音文件进行批量语音翻译 | 批量音视频文件语音翻译(批量模式) |
典型用法 | 使用说明 | 开发示例 |
---|---|---|
音视频批量语音识别 | 对音视频文件进行批量语音识别 | 批量音视频文件语音识别(批量模式) |
音视频批量富信息语音识别 | 对音视频文件中的文本/情绪/事件进行识别 | 批量音视频文件富信息语音识别(批量模式) |
音视频摘要与问答 |
对音视频文件进行语音识别,并使用大模型进行摘要总结和问答 | 视频转写并进行翻译摘要和问答 |
典型用法 | 使用说明 | 开发示例 |
---|---|---|
一句话实时语音识别和翻译 | 实时从麦克风录音,断句并进行语音识别和翻译 | 麦克风实时一句话语音识别和翻译 |
语音对话聊天 |
通过语音与大语言模型进行对话聊天 | 阿里云文档 |
视频对话聊天 |
通过多模态大模型进行视频聊天 | 阿里云文档 |
如果您使用Java搭建语音服务,请参考高并发示例文档
获得最佳的性能。
- Paraformer实时语音识别。
- Sambert语音合成。
- Cosyvoice大模型语音合成。
🎮 Gallery
Gallery 是为开发者们精心策划的灵感资源库,已包含使用百炼 AI 能力开发的一些有趣应用程序。
我们诚邀更多开发者加入,共同探索和建设这个广阔的技术天地。您的贡献不仅可以丰富我们的资源库,还将为更多开发者提供灵感和帮助,激发更多创新的可能性。无论是分享您的项目和代码,还是提出改进建议,我们都非常期待您的参与。让我们共同努力,打造一个更强大、更具创意的开发者社区!
Paraformer调用常见问题请参考QA文档 CosyVoice调用常见问题请参考QA文档
本项目遵循The MIT License开源协议
- 增加omni示例。
- 增加qwen-tts-realtime示例。
- 增加英文readme文档。
- TTS 相关模型升级为cosyvoice-v2。
- 增加cosyvoice和paraformer的javascript接入示例。
- 增加调用call api识别本地单个文件示例,将识别本地视频文件并转opus格式放入gallery。
- 更换html流式音频播放器,wavtools在移动端和Safari有杂音。
- 调整demo结构,java示例统一为maven项目。
- 增加声音复刻示例。
- 增加调用gummy语音翻译模型示例。
- 增加 Gallery 示例代码目录,及示例项目。
- 增加 视频转写并进行翻译摘要和问答 示例。
- 优化目录结构和场景示例命名,增加更详细的调用说明。
- 增加并行调用语音识别和语音合成的python示例。
- 增加朗读故事并实时展示字幕的 python/java 示例。
- 增加使用网页播放流式音频的AI Assistant示例。
- 各示例根节点目录增加更详细的运行说明。
- 更新文档结构。增加语音质检示例。
- 更新说明文档。
- 补充QA文档。
- 发布初始版本,分别支持从麦克风/文件输入识别,以及语音合成到扬声器和文件的 python/java 示例。