智能语音背包产品白皮书

## 1. 产品概述
智能语音背包是专为人形机器人设计的一款外挂式人机交互套件。套件由三部分组成，分别是：包含麦克风阵列和摄像头的多模态感知阵列、包含交互主板和扬声器的多模态算力主机、适配宇树G1的安装支架。其中：
- 多模态感知阵列：可按需放置在合适位置，保证可以正确的采集到视频和音频数据（交互人在摄像头视野范围内，麦克风阵列正对交互人）。其背面和底部有安装螺丝，背面有旋转支架固定件，可通过多种方式与机器人实现连接。
<div style="display: flex;justify-content: center; align-items: center;">
        
        <div style="min-width: 200px;">
            <img src="/media/202508/2025-08-25_091203_6091530.20228438683697358.png" alt="图片1描述"  width="600">
        </div>
        
        
        <div style="min-width: 280px;">
            <img src="/media/202508/2025-08-25_091215_0292490.5691680504779616.png" alt="图片2描述" width="1600">
        </div>
    </div>

- 多模态算力主机：一般安放在机器人的背部，通过固定支架实现与机器人主体的连接。（部分机器人背部空间不足，安装方式需要咨询技术人员）
<figure style="text-align: center;">
  <img src="/media/202508/2025-08-25_091232_8342370.6919577321204652.png" alt="" />
  <figcaption></figcaption>
</figure>

- 安装支架：产品默认搭载适配宇树G1的支架，如果是其他机器人，需要先联系讯飞技术人员评估是否具备安装条件，不具备安装条件的情况下可能需要定制支架。
<figure style="text-align: center;">
  <img src="/media/202508/2025-08-25_091251_8670710.8735738278158243.png" alt="" />
  <figcaption></figcaption>
</figure>

- 智能语音背包主要是降低人形机器- 人语音交互功能的开发难度，通过即插即用式设备，可以在不改变机器人主体硬件、不做复杂的声学结构设计的基础上快速让机器人开口说话。同时，语音背包可以通过网络方式与机器人主体进行交互通信，实现语音指令与机器人本体的打通。
## 2. 产品功能

<table border="0" class="docutils" style="width: 100%; border-collapse: collapse;">
<colgroup>
<col width="20%" />
<col width="20%" />
<col width="40%" />
<col width="20%" />
</colgroup>
<tbody valign="top">
<tr class="row-odd">
<td><b>功能模块</b></td>
<td><b>功能点</b></td>
<td><b>功能说明</b></td>
<td><b>通用指标</b></td>
</tr>

<tr class="row-even">
<td rowspan="4" style="border: 1px solid #ddd; vertical-align: middle;">声学前端</td>
<td>语音唤醒</td>
<td>通过语音命令词方式进行唤醒，返回唤醒信号</td>
<td>功能实现</td>
</tr>
<tr class="row-even">
<td>声源定位</td>
<td>语音唤醒时同时返回唤醒角度</td>
<td>功能实现</td>
</tr>
<tr class="row-even">
<td>波束形成</td>
<td>增强特定方向的语音信号，同时抑制其他方向的噪声和干扰</td>
<td>功能实现</td>
</tr>
<tr class="row-even">
<td>回声消除</td>
<td>对系统交互时产生的回声问题进行处理，通过分析输入信号和输出信号，识别出回声部分，并生成一个与回声幅度相同、相位相反的信号来抵消回声，从而提高通信的质量</td>
<td>可消除20db</td>
</tr>

<tr class="row-even">
<td rowspan="2" style="border: 1px solid #ddd; vertical-align: middle;">多模态降噪</td>
<td>人脸检测</td>
<td>检测机器人正前方的人脸</td>
<td>人脸检出率不低于99%</td>
</tr>
<tr class="row-even">
<td>语音降噪</td>
<td>支持复杂场景的噪声抑制，提升高噪场景的识别效果</td>
<td>0db信噪比下的语音识别字正确率不低于93%，-5db信噪比下的语音识别字正确率不低于85%</td>
</tr>

<tr class="row-even">
<td rowspan="7" style="border: 1px solid #ddd; vertical-align: middle;">语音交互</td>
<td>语音识别</td>
<td>实时语音识别，支持识别结果流式输出；支持中英文混合识别、支持多语种识别；支持业务专有词汇识别、提供专有名词的快速优化功能</td>
<td>安静环境下的中文普通话识别率97%</td>
</tr>
<tr class="row-even">
<td>官方技能</td>
<td>提供天气、导航、音乐等官方技能</td>
<td>功能实现</td>
</tr>
<tr class="row-even">
<td>自定义技能</td>
<td>支持业务自定义技能的定制，提供技能定制平台</td>
<td>功能实现</td>
</tr>
<tr class="row-even">
<td>知识问答</td>
<td>具备知识问答能力，支持FAQ语句问答、关键词问答和基于大模型的文档问答；支持对知识库进行自定义管理</td>
<td>功能实现</td>
</tr>
<tr class="row-even">
<td>语音合成</td>
<td>支持中文、英文、方言、多语种合成；支持超拟人化合成</td>
<td>主观评价接受度（MOS分）不低于4.5</td>
</tr>
<tr class="row-even">
<td>声音复刻</td>
<td>支持用户语音的复刻，通过一句话直接复刻用户的音色</td>
<td>功能实现</td>
</tr>
<tr class="row-even">
<td>交互模式</td>
<td>支持一次唤醒一次交互、一次唤醒连续交互两种交互模式</td>
<td>功能实现</td>
</tr>

<tr class="row-even">
<td rowspan="2" style="border: 1px solid #ddd; vertical-align: middle;">性能</td>
<td>端到端响应时间</td>
<td>指的是用户说完最后一个字到机器人播出第一个音的耗时，涵盖录音耗时、唤醒与降噪延迟、语音交互链路、网络传输、板卡通信延迟</td>
<td>全链路响应时间<2.5s</td>
</tr>
<tr class="row-even">
<td>唤醒响应时间</td>
<td>用户喊完唤醒词到返回唤醒事件的时间</td>
<td>500ms</td>
</tr>
</tbody>
</table>

### 2.1 多模态语音增强
- 多模态语音增强融合视觉信息（唇部运动）与听觉信息（原始音频波形），对复杂场景下的语音信号进行协同处理与净化，从背景噪声、混响及多人交谈中“分离”并“增强”目标人声。
- 多模态语音增强引擎支持声学与视觉信号的实时对齐与融合处理，在高噪环境、重叠语音鸡尾酒会场景下，目标语音的信噪比可提升15-25db，支持噪声抑制、去混响、声源分离、回声消除等功能，支持结合人脸跟踪的说话人跟随。
<figure style="text-align: center;">
  <img src="/media/202508/2025-08-25_113336_7155320.9236882157845667.png" alt="" />
  <figcaption></figcaption>
</figure>

### 2.2 语音识别
- 语音识别（Speech To Text）是将语音中包含的文字信息“提取”出来，把语音转换成对应的文字信息，让机器能够“听清”人类的语言，相当于给机器安装上“耳朵”，使其具备“能听”的功能。
- 通用语音识别引擎支持中英文免切换识别，在安静场景、正常语速、中文普通话发音下，语音识别字识别率不低于97%。支持流式识别，支持个性化热词、敏感词过滤等功能。

### 2.3 大模型语义理解
- 语义理解（Natural Language Understanding）是识别与提取自然语言中的核心意图与关键信息，将文本转化为结构化语义表示的过程，让机器能够“理解”人类的语言，相当于赋予机器“思考”的能力，使其具备“懂意图、析逻辑”的功能。
- 传统语义以文法规则为基础，通过模板句式的方式实现意图理解与关键词抽取。在常见对话场景、规范表达下，意图识别准确率不低于90%，槽位填充准确率不低于95%，支持上下文语义继承。
- 在传统文法规则基础上，升级大模型理解能力。通过与大规模预训练语言模型深度融合，可实现对复杂表达、隐含意图及情感倾向的精准捕捉，进一步提升人机交互的自然性与智能水平。支持开放域、多轮对话等复杂指令和意图的理解与执行。对于自定义业务，支持基于prompt的精确理解与结构化输出、支持基于Rag的文档知识问答等复杂语义交互。

### 2.4 语音合成
- 语音合成（Text To Speech） 是将文本形式的文字信息转化为流畅、自然、富有表现力的语音信号，把文字转换成对应的语音输出，让机器能够“说出”人类的语言。
- 语音合成支持100+音色以及多语种、多方言和中英混合，可灵活配置音频参数。标准的语音合成自然度（MOS分）可达4.0以上（5分制），超拟人合成可达4.5以上。支持高表现力的情感化播报与风格迁移，可模拟高兴、悲伤、严肃、亲切等多种情绪，模拟人类的副语言现象，如呼吸、叹气、语速变化等，使得语音更富有情感和生命力。支持动态调整语速、音调、音量等韵律参数，支持流式合成与实时播报。