1.4 AIUI平台能力概述

<div style="max-width: 100%; margin: 20px auto;">
    
    <div style="background-color: #ffffff; border-radius: 8px; box-shadow: 0 2px 8px rgba(0,0,0,0.1); overflow: hidden; font-family: 'Comic Sans MS', cursive, sans-serif;">
        
        
        <div style="background-color: #F4F8FA; padding: 1px 10px; border-bottom: 1px solid #dee2e6; display: flex; justify-content: space-between; align-items: center;">
            <div style="color: #0E42D2; font-weight: bold;font-size: 1.3rem;">概述</div>
            <div>
            </div>
        </div>
        
        <div style="padding: 25px; line-height: 29px; background-image: linear-gradient(transparent 26px, #dee2e6 27px, #dee2e6 27px, transparent 27px); background-size: 100% 28px; min-height: 100px; color: #333;">
            <div>AIUI平台主要提供设备端离线能力、服务端在线能力，并提供多种交互模式，具体可参考：</div>
			<a href="#设备端能力（离线）" style="color: #6f42c1; font-weight: 500;">
			<strong>- 1、设备端能力（离线）>>>点击跳转&emsp;&emsp;&emsp;</strong></a>
			<br><a href="#服务端能力（在线）" style="color: #6f42c1; font-weight: 500;"><strong>
			- 2、服务端能力（在线）>>>点击跳转&emsp;&emsp;&emsp;</strong></a>
			<br><a href="#AIUI交互指导" style="color: #6f42c1; font-weight: 500;"><strong>
			- 3、AIUI交互指导>>>点击跳转&emsp;&emsp;&emsp;</strong></a>
            <div></div>
        </div>
        
        </div>
    </div>
</div>

## 1. 设备端能力（离线）
### 1.1. 前端声学
用降噪、回声消除算法来提高唤醒率、识别率。
- **麦克风阵列**
多麦克风算法，提高远距离识别率。常见阵列如下：

![](/media/202410/2024-10-30_172336_9983250.11618490235264989.png)

- **波束形成**
使拾音具有指向性，抑制波束外声音。2麦波束示例：
![](/media/202305/2023-05-03_145838_5743850.7537485922594406.png)

- **回声消除**
回声消除算法抑制麦克风音频中的喇叭声，提高识别率。

- **混响消除**
声波在室内传播时，被墙壁反射形成反射声，并和直达声叠加，构成混响。去混响算法消减声音中的反射声，提升声音的清晰度。

- **噪音抑制**
降噪算法抑制背景噪声，从而提升唤醒率和识别率。

- **声源定位**
唤醒时，根据声音到不同麦克风的时延来确认声音的方位。

###  1.2. 语音唤醒
用3-6个字的唤醒词，将设备从休眠状态变成识别状态

###  1.3. 离线语音识别
满足无网络环境下的识别需求。支持标点、和实时出字

###  1.4. 自定义命令词
支持开发者自定义命令词，最大300词

###  1.5. 离线语义（语法匹配）
离线语义支持128个槽位、30000个词条，支持用户自由说，可以实现设备的精细控制；配合本地内容资源，还可以满足特定领域语义理解，实现纯离线语音交互，如户外拉杆箱（点歌机）或车载KTV的离线语音点歌。

`注意：离线语义资源消耗：2核1.4G设备，占用CPU15%、内存70M`

###  1.6. 离线合成
支持多种语种的合成，支持音量、语速调节。

<div id="服务端能力（在线）">
</div>
## 2. 服务端能力（在线）

###  2.1. 语音识别
语音识别将声音转换为文本。支持方言。

- **近场识别**  人距离设备 < 1m
- **远场识别**  人距离设备 1~5m

`注：远场识别引擎，让远距离识别率更高。`

- **方言识别**
AIUI 支持23 种方言，可动态切换方言引擎。
`注意：语义理解只支持普通话，方言识别会降低语义理解的效果`

- **持续录音，连续识别**
交互模式支持**单轮交互（Oneshot）**和 **全双工（Continuous）**

**Oneshot**: 一次唤醒，一次交互。如手机 APP 或者语音电视遥控器等单麦克风设备，一般使用单轮交互，需要用户或程序主动触发录音。

**Continuous**：一次唤醒，连续交互。设备需要很好的回声消除效果，且环境安静，`否则自言自语`。

`注意：语音活动检测(Voice Activity Detection,VAD)。用于判断一句话的开始与结束。`

- **拒识，过滤无效语音**
全双工模式，通过语义拒识技术，将无效的噪音和无意义语音进行过滤。

`注意：全双工模式仍有小概率的误触发问题。`

###  2.2. 语义理解
语义理解（NLP）指将自然语言转化为结构化数据。

例：将“合肥天气”处理成JSON数据：

```json
{
  "city":"合肥"，
  "time": "2018-01-19"
}
```

### 2.3. 敏感词过滤
敏感词指涉黄、涉暴、涉政、涉恐等词汇。
敏感过滤把敏感词屏蔽，不展示给用户，默认关闭，可[联系AIUI开启](mailto:aiui_support@iflytek.com)。

###  2.4. 语音合成
语音合成（TTS）指将文字转化为声音。支持方言，外语发音人，也支持定制发音人。

###  2.5. 信源内容
内容（信源）指语义理解后的有效数据，例如天气信息，音乐的播放链接。AIUI 技能商店中多数技能包含内容。我们诚邀内容提供商与我们合作，包括但不限于音视频资源、流媒体、新闻、自媒体、儿童故事与游戏、股票违章查询等功能类资源。

###  2.6. 语音翻译
AIUI支持英、日、韩、法、西、俄、阿拉伯等语种的翻译。
翻译属于增值服务，需[联系AIUI开启](mailto:aiui_support@iflytek.com)。

###  2.7. 交互认知大模型
AIUI支持配置交互大模型服务能力，在传统语义基础上，提高多轮交互、闲聊问答效果。

<div id="AIUI交互指导">
</div>
## 3. AIUI交互指导

### 3.1. 按键交互
设备有录音按钮，按下录音，松开后停止录音。

### 3.2. 语音唤醒交互
用户先喊唤醒词，设备被唤醒后才能进行语音交互。

###  3.3. 全双工交互
指设备喇叭发声的同时录音，无需唤醒词打断，用户可以跟设备对话。`
~~~
用户：小飞小飞，今天天气
音响：今天晴……
用户：明天呢
音响：明天多云……
~~~

### 3.4. 离线语音交互
离线语音交互是将语音交互需要的服务下发至本地，通过本地解析实现原本只能在线才能支持的语音交互服务。AIUI离线语音交互服务支持开发者定制更新资源，进一步的提升设备化个性语音交互体验。

`离线交互算力占用`
2核1.4G芯片：cpu占用15%；内存占用70M；

###  3.5. 免唤醒交互
[免唤醒语音交互](https://aiui.xfyun.cn/solution/wakeup)实现了直接说话控制设备；没有网络也可以使用

`免唤醒+离线交互算力占用`
2核1.4G芯片：cpu占用35%，内存占用90M；

###  3.6. 多模态交互
多模态交互，融合声纹识别，手势识别、唇形检测、虚拟人形象等AI技术，让人机交互方式更丰富，交互过程更自然。

用户可基于业务场景选择各个能力，并通过自定义技能及技能后处理实现交互流程的设计。