目 录
- 应用配置和技能开发
1.1. 应用配置
1.2. 接入配置
1.3. 技能工作室
1.4. 技能商店 - 硬件模组
- 设备端能力(离线)
3.1. 前端声学
3.2. 语音唤醒
3.3. 离线语音识别
3.4. 自定义命令词
3.5. 离线语义(语法匹配)
3.6. 离线合成 - 服务端能力(在线)
4.1. 语音识别
4.2. 语义理解
4.3. 敏感词过滤
4.4. 语音合成
4.5. 信源内容
4.6. 语音翻译
4.7. 交互认知大模型 - AIUI交互指导
5.1. 按键交互
5.2. 语音唤醒交互
5.3. 全双工交互
5.4. 离线语音交互
5.5. 免唤醒交互
5.6. 多模态交互
1. 应用配置和技能开发
1.1. 应用配置
- 语音识别:支持外语、方言识别、远近场引擎、结果下发配置等;
- 识别热词:提高词组识别的准确率;
- 识别敏感词:过滤识别结果中的敏感词;
- 语义敏感词:过滤语义结果中的敏感词;
- 结构化语义:配置你开发的或者AIUI官方提供的语音技能;
- 星火大模型:大模型技术,让交互更自然。
- 后处理:配置自由云服务地址,云端接受讯飞数据做处理。
- 语音合成:选择你喜欢的合成发音人,设置语速等。
1.2. 接入配置
- 自定义唤醒词:在线制作和下载唤醒词;
1.3. 技能工作室
- 自定义技能:开发业务相关的语音交互技能;
- 自定义问答:设置问答库,支持整句模糊匹配和关键词匹配;
- 文档问答:上传自由文档文件,基于星火大模型做知识学习和关键知识点提取;
- 设备人设:让设备拟人化,配置设备的名字,年龄等信息。
1.4. 技能商店
讯飞官方提供的语音技能。
2. 硬件模组
3. 设备端能力(离线)
3.1. 前端声学
用降噪、回声消除算法来提高唤醒率、识别率。
- 麦克风阵列
多麦克风算法,提高远距离识别率。常见阵列如下:
波束形成
使拾音具有指向性,抑制波束外声音。2麦波束示例:回声消除
回声消除算法抑制麦克风音频中的喇叭声,提高识别率。混响消除
声波在室内传播时,被墙壁反射形成反射声,并和直达声叠加,构成混响。去混响算法消减声音中的反射声,提升声音的清晰度。噪音抑制
降噪算法抑制背景噪声,从而提升唤醒率和识别率。声源定位
唤醒时,根据声音到不同麦克风的时延来确认声音的方位。
3.2. 语音唤醒
用3-6个字的唤醒词,将设备从休眠状态变成识别状态
3.3. 离线语音识别
满足无网络环境下的识别需求。支持标点、和实时出字
3.4. 自定义命令词
支持开发者自定义命令词,最大300词
3.5. 离线语义(语法匹配)
离线语义支持128个槽位、30000个词条,支持用户自由说,可以实现设备的精细控制;配合本地内容资源,还可以满足特定领域语义理解,实现纯离线语音交互,如户外拉杆箱(点歌机)或车载KTV的离线语音点歌。
注意:离线语义资源消耗:2核1.4G设备,占用CPU15%、内存70M
3.6. 离线合成
支持多种语种的合成,支持音量、语速调节。
4. 服务端能力(在线)
4.1. 语音识别
语音识别将声音转换为文本。支持方言。
- 近场识别 人距离设备 < 1m
- 远场识别 人距离设备 1~5m
注:远场识别引擎,让远距离识别率更高。
方言识别
AIUI 支持23 种方言,可动态切换方言引擎。注意:语义理解只支持普通话,方言识别会降低语义理解的效果
持续录音,连续识别
交互模式支持单轮交互(Oneshot)和 全双工(Continuous)
Oneshot: 一次唤醒,一次交互。如手机 APP 或者语音电视遥控器等单麦克风设备,一般使用单轮交互,需要用户或程序主动触发录音。
Continuous:一次唤醒,连续交互。设备需要很好的回声消除效果,且环境安静,否则自言自语
。
注意:语音活动检测(Voice Activity Detection,VAD)。用于判断一句话的开始与结束。
- 拒识,过滤无效语音
全双工模式,通过语义拒识技术,将无效的噪音和无意义语音进行过滤。
注意:全双工模式仍有小概率的误触发问题。
4.2. 语义理解
语义理解(NLP)指将自然语言转化为结构化数据。
例:将“合肥天气”处理成JSON数据:
4.3. 敏感词过滤
敏感词指涉黄、涉暴、涉政、涉恐等词汇。
敏感过滤把敏感词屏蔽,不展示给用户,默认关闭,可联系AIUI开启。
4.4. 语音合成
语音合成(TTS)指将文字转化为声音。支持方言,外语发音人,也支持定制发音人。
4.5. 信源内容
内容(信源)指语义理解后的有效数据,例如天气信息,音乐的播放链接。AIUI 技能商店中多数技能包含内容。我们诚邀内容提供商与我们合作,包括但不限于音视频资源、流媒体、新闻、自媒体、儿童故事与游戏、股票违章查询等功能类资源。
4.6. 语音翻译
AIUI支持英、日、韩、法、西、俄、阿拉伯等语种的翻译。
翻译属于增值服务,需联系AIUI开启。
4.7. 交互认知大模型
AIUI支持配置交互大模型服务能力,在传统语义基础上,提高多伦交互、闲聊问答效果。
5. AIUI交互指导
5.1. 按键交互
设备有录音按钮,按下录音,松开后停止录音。
5.2. 语音唤醒交互
用户先喊唤醒词,设备被唤醒后才能进行语音交互。
5.3. 全双工交互
指设备喇叭发声的同时录音,无需唤醒词打断,用户可以跟设备对话。`
用户:小飞小飞,今天天气
音响:今天晴……
用户:明天呢
音响:明天多云……
5.4. 离线语音交互
离线语音交互是将语音交互需要的服务下发至本地,通过本地解析实现原本只能在线才能支持的语音交互服务。AIUI离线语音交互服务支持开发者定制更新资源,进一步的提升设备化个性语音交互体验。
离线交互算力占用
2核1.4G芯片:cpu占用15%;内存占用70M;
5.5. 免唤醒交互
免唤醒语音交互实现了直接说话控制设备;没有网络也可以使用
免唤醒+离线交互算力占用
2核1.4G芯片:cpu占用35%,内存占用90M;
5.6. 多模态交互
多模态交互,融合声纹识别,手势识别、唇形检测、虚拟人形象等AI技术,让人机交互方式更丰富,交互过程更自然。
用户可基于业务场景选择各个能力,并通过自定义技能及技能后处理实现交互流程的设计。