机器人超脑平台
平台简介
成为超脑平台用户
讯飞超脑板
产品规格
开发指南
标准协议
使用手册
环境准备
数据采集
应用算法
应用实例
镜像导出
镜像烧录
错误码
算法配置表
机器人多模态交互开发套件
多模态交互套件产品白皮书
多模态交互套件快速体验
多模态套件平台功能使用手册
多模态交互套件开发手册
常见问题与解答
智能语音背包
智能语音背包产品白皮书
智能语音背包产品规格书
智能语音背包产品快速体验
智能语音背包产品开发手册
联系方式
服务条款
超脑平台服务协议
超脑平台隐私政策
本文档使用 MrDoc 发布
-
+
首页
智能语音背包产品白皮书
## 1. 产品概述 智能语音背包是专为人形机器人设计的一款外挂式人机交互套件。套件由三部分组成,分别是:包含麦克风阵列和摄像头的多模态感知阵列、包含交互主板和扬声器的多模态算力主机、适配宇树G1的安装支架。其中: - 多模态感知阵列:可按需放置在合适位置,保证可以正确的采集到视频和音频数据(交互人在摄像头视野范围内,麦克风阵列正对交互人)。其背面和底部有安装螺丝,背面有旋转支架固定件,可通过多种方式与机器人实现连接。 <div style="display: flex;justify-content: center; align-items: center;"> <!-- 第一张图片 --> <div style="min-width: 200px;"> <img src="/media/202508/2025-08-25_091203_6091530.20228438683697358.png" alt="图片1描述" width="600"> </div> <!-- 第二张图片 --> <div style="min-width: 280px;"> <img src="/media/202508/2025-08-25_091215_0292490.5691680504779616.png" alt="图片2描述" width="1600"> </div> </div> - 多模态算力主机:一般安放在机器人的背部,通过固定支架实现与机器人主体的连接。(部分机器人背部空间不足,安装方式需要咨询技术人员) <figure style="text-align: center;"> <img src="/media/202508/2025-08-25_091232_8342370.6919577321204652.png" alt="" /> <figcaption></figcaption> </figure> - 安装支架:产品默认搭载适配宇树G1的支架,如果是其他机器人,需要先联系讯飞技术人员评估是否具备安装条件,不具备安装条件的情况下可能需要定制支架。 <figure style="text-align: center;"> <img src="/media/202508/2025-08-25_091251_8670710.8735738278158243.png" alt="" /> <figcaption></figcaption> </figure> - 智能语音背包主要是降低人形机器- 人语音交互功能的开发难度,通过即插即用式设备,可以在不改变机器人主体硬件、不做复杂的声学结构设计的基础上快速让机器人开口说话。同时,语音背包可以通过网络方式与机器人主体进行交互通信,实现语音指令与机器人本体的打通。 ## 2. 产品功能 <table border="0" class="docutils" style="width: 100%; border-collapse: collapse;"> <colgroup> <col width="20%" /> <col width="20%" /> <col width="40%" /> <col width="20%" /> </colgroup> <tbody valign="top"> <tr class="row-odd"> <td><b>功能模块</b></td> <td><b>功能点</b></td> <td><b>功能说明</b></td> <td><b>通用指标</b></td> </tr> <!-- 声学前端模块 - 合并4行单元格 --> <tr class="row-even"> <td rowspan="4" style="border: 1px solid #ddd; vertical-align: middle;">声学前端</td> <td>语音唤醒</td> <td>通过语音命令词方式进行唤醒,返回唤醒信号</td> <td>功能实现</td> </tr> <tr class="row-even"> <td>声源定位</td> <td>语音唤醒时同时返回唤醒角度</td> <td>功能实现</td> </tr> <tr class="row-even"> <td>波束形成</td> <td>增强特定方向的语音信号,同时抑制其他方向的噪声和干扰</td> <td>功能实现</td> </tr> <tr class="row-even"> <td>回声消除</td> <td>对系统交互时产生的回声问题进行处理,通过分析输入信号和输出信号,识别出回声部分,并生成一个与回声幅度相同、相位相反的信号来抵消回声,从而提高通信的质量</td> <td>可消除20db</td> </tr> <!-- 多模态降噪模块 - 合并2行单元格 --> <tr class="row-even"> <td rowspan="2" style="border: 1px solid #ddd; vertical-align: middle;">多模态降噪</td> <td>人脸检测</td> <td>检测机器人正前方的人脸</td> <td>人脸检出率不低于99%</td> </tr> <tr class="row-even"> <td>语音降噪</td> <td>支持复杂场景的噪声抑制,提升高噪场景的识别效果</td> <td>0db信噪比下的语音识别字正确率不低于93%,-5db信噪比下的语音识别字正确率不低于85%</td> </tr> <!-- 语音交互模块 - 合并7行单元格 --> <tr class="row-even"> <td rowspan="7" style="border: 1px solid #ddd; vertical-align: middle;">语音交互</td> <td>语音识别</td> <td>实时语音识别,支持识别结果流式输出;支持中英文混合识别、支持多语种识别;支持业务专有词汇识别、提供专有名词的快速优化功能</td> <td>安静环境下的中文普通话识别率97%</td> </tr> <tr class="row-even"> <td>官方技能</td> <td>提供天气、导航、音乐等官方技能</td> <td>功能实现</td> </tr> <tr class="row-even"> <td>自定义技能</td> <td>支持业务自定义技能的定制,提供技能定制平台</td> <td>功能实现</td> </tr> <tr class="row-even"> <td>知识问答</td> <td>具备知识问答能力,支持FAQ语句问答、关键词问答和基于大模型的文档问答;支持对知识库进行自定义管理</td> <td>功能实现</td> </tr> <tr class="row-even"> <td>语音合成</td> <td>支持中文、英文、方言、多语种合成;支持超拟人化合成</td> <td>主观评价接受度(MOS分)不低于4.5</td> </tr> <tr class="row-even"> <td>声音复刻</td> <td>支持用户语音的复刻,通过一句话直接复刻用户的音色</td> <td>功能实现</td> </tr> <tr class="row-even"> <td>交互模式</td> <td>支持一次唤醒一次交互、一次唤醒连续交互两种交互模式</td> <td>功能实现</td> </tr> <!-- 性能模块 - 合并2行单元格 --> <tr class="row-even"> <td rowspan="2" style="border: 1px solid #ddd; vertical-align: middle;">性能</td> <td>端到端响应时间</td> <td>指的是用户说完最后一个字到机器人播出第一个音的耗时,涵盖录音耗时、唤醒与降噪延迟、语音交互链路、网络传输、板卡通信延迟</td> <td>全链路响应时间<2.5s</td> </tr> <tr class="row-even"> <td>唤醒响应时间</td> <td>用户喊完唤醒词到返回唤醒事件的时间</td> <td>500ms</td> </tr> </tbody> </table> ### 2.1 多模态语音增强 - 多模态语音增强融合视觉信息(唇部运动)与听觉信息(原始音频波形),对复杂场景下的语音信号进行协同处理与净化,从背景噪声、混响及多人交谈中“分离”并“增强”目标人声。 - 多模态语音增强引擎支持声学与视觉信号的实时对齐与融合处理,在高噪环境、重叠语音鸡尾酒会场景下,目标语音的信噪比可提升15-25db,支持噪声抑制、去混响、声源分离、回声消除等功能,支持结合人脸跟踪的说话人跟随。 <figure style="text-align: center;"> <img src="/media/202508/2025-08-25_113336_7155320.9236882157845667.png" alt="" /> <figcaption></figcaption> </figure> ### 2.2 语音识别 - 语音识别(Speech To Text)是将语音中包含的文字信息“提取”出来,把语音转换成对应的文字信息,让机器能够“听清”人类的语言,相当于给机器安装上“耳朵”,使其具备“能听”的功能。 - 通用语音识别引擎支持中英文免切换识别,在安静场景、正常语速、中文普通话发音下,语音识别字识别率不低于97%。支持流式识别,支持个性化热词、敏感词过滤等功能。 ### 2.3 大模型语义理解 - 语义理解(Natural Language Understanding)是识别与提取自然语言中的核心意图与关键信息,将文本转化为结构化语义表示的过程,让机器能够“理解”人类的语言,相当于赋予机器“思考”的能力,使其具备“懂意图、析逻辑”的功能。 - 传统语义以文法规则为基础,通过模板句式的方式实现意图理解与关键词抽取。在常见对话场景、规范表达下,意图识别准确率不低于90%,槽位填充准确率不低于95%,支持上下文语义继承。 - 在传统文法规则基础上,升级大模型理解能力。通过与大规模预训练语言模型深度融合,可实现对复杂表达、隐含意图及情感倾向的精准捕捉,进一步提升人机交互的自然性与智能水平。支持开放域、多轮对话等复杂指令和意图的理解与执行。对于自定义业务,支持基于prompt的精确理解与结构化输出、支持基于Rag的文档知识问答等复杂语义交互。 ### 2.4 语音合成 - 语音合成(Text To Speech) 是将文本形式的文字信息转化为流畅、自然、富有表现力的语音信号,把文字转换成对应的语音输出,让机器能够“说出”人类的语言。 - 语音合成支持100+音色以及多语种、多方言和中英混合,可灵活配置音频参数。标准的语音合成自然度(MOS分)可达4.0以上(5分制),超拟人合成可达4.5以上。支持高表现力的情感化播报与风格迁移,可模拟高兴、悲伤、严肃、亲切等多种情绪,模拟人类的副语言现象,如呼吸、叹气、语速变化等,使得语音更富有情感和生命力。支持动态调整语速、音调、音量等韵律参数,支持流式合成与实时播报。
admin
2025年8月25日 11:35
转发文档
收藏文档
上一篇
下一篇
手机扫码
复制链接
手机扫一扫转发分享
复制链接
Markdown文件
分享
链接
类型
密码
更新密码