AIUI文档中心
AIUI平台说明
什么是AIUI
AIUI平台能力介绍
AIUI交互流程说明
AIUI快速入门
AIUI应用管理说明
应用接入和配置
应用后处理
敏感词
AIUI开发接入
AIUI接入概述
声学接入
交互接入
SDK接入
SDK介绍
参数配置
消息事件
交互状态
结果解析
WebSocketAPI接入
精简协议接入
常用功能
交互控制
语音唤醒
语音合成
用户个性化
自定义参数
离线命令词
翻译模式
流式识别
语义VAD
发音人列表
关键词过滤
情景模式
错误码
星火交互认知大模型说明
大模型概述
开发接入
SDK接入
API接入
大模型API服务鉴权
特色能力
超拟人合成
声音复刻
大模型功能
大模型错误码
软硬件产品接入
RK3328 降噪板
RK3328降噪板白皮书
RK3328降噪板使用手册
RK3328降噪板规格书
RK3328降噪板协议手册
RK3328 AIUI评估板开发套件
RK3328评估板白皮书
RK3328评估板使用手册
RK3328评估板规格书
RK3328评估板开发手册
RK3588 AIUI多模态开发套件
RK3588一体机多模态产品规格书
RK3588多模态套件使用手册
视频传输协议
串口通信协议
音频传输协议
ZG803 离线语音识别套件
ZG803 产品白皮书
USB声卡套件
USB声卡产品白皮书
USB声卡使用指南
AC7911 AIUI语音开发套件
AC7911-产品白皮书
AC7911-快速体验指南
AC7911-开发指南
AC7911-协议手册
AC7911-硬件参数
AIUI评估板接入
集成方式
软件包说明
AIUIServiceKitSDK
串口SDK
评估板参数配置
调试升级
技能工作室
技能概述
名词解析
技能
意图和语料
实体
动态实体
模糊匹配
填槽对话
技能设计规范
语音技能设计规范
开放技能接入审核规范
开放技能图标图片规范
技能开发
创建技能和意图
意图配置
技能测试
技能发布
技能后处理
技能导入导出
云函数APIv2.1
云函数APIv2.0
问答库开发
语句问答
关键词问答
文档问答
设备人设开发
技能协议
语义协议:重要字段和通用字段
技能后处理协议:标准请求
技能后处理协议:请求校验
技能后处理协议:Request_v2.1协议
技能后处理协议:Response_v2.1协议
技能资源限制
硬件设计参考
常见问题
AIUI常见问题
评估板常见问题
动态实体常见问题
联系方式
服务条款
AIUI开放平台服务协议
AIUI开放平台隐私政策
小飞在家用户协议
小飞在家隐私政策
小飞在家开源软件使用许可
讯飞账号隐私政策
讯飞账号用户协议
讯飞带屏音箱用户协议
讯飞带屏音箱隐私政策
AIUI SDK隐私政策
AIUI SDK合规使用说明
本文档使用 MrDoc 发布
-
+
首页
AIUI平台能力介绍
**目 录** 1. 应用配置和技能开发 1.1. 应用配置 1.2. 接入配置 1.3. 技能工作室 1.4. 技能商店 2. 硬件模组 3. 设备端能力(离线) 3.1. 前端声学 3.2. 语音唤醒 3.3. 离线语音识别 3.4. 自定义命令词 3.5. 离线语义(语法匹配) 3.6. 离线合成 4. 服务端能力(在线) 4.1. 语音识别 4.2. 语义理解 4.3. 敏感词过滤 4.4. 语音合成 4.5. 信源内容 4.6. 语音翻译 4.7. 交互认知大模型 5. AIUI交互指导 5.1. 按键交互 5.2. 语音唤醒交互 5.3. 全双工交互 5.4. 离线语音交互 5.5. 免唤醒交互 5.6. 多模态交互 ## 1. 应用配置和技能开发 ### 1.1. 应用配置 - **语音识别**:支持外语、方言识别、远近场引擎、结果下发配置等; - **识别热词**:提高词组识别的准确率; - **识别敏感词**:过滤识别结果中的敏感词; - **语义敏感词**:过滤语义结果中的敏感词; - **结构化语义**:配置你开发的或者AIUI官方提供的语音技能; - **星火大模型**:大模型技术,让交互更自然。 - **后处理**:配置自由云服务地址,云端接受讯飞数据做处理。 - **语音合成**:选择你喜欢的合成发音人,设置语速等。 ### 1.2. 接入配置 - **自定义唤醒词**:在线制作和下载唤醒词; ### 1.3. 技能工作室 - **自定义技能**:开发业务相关的语音交互技能; - **自定义问答**:设置问答库,支持整句模糊匹配和关键词匹配; - **文档问答**:上传自由文档文件,基于星火大模型做知识学习和关键知识点提取; - **设备人设**:让设备拟人化,配置设备的名字,年龄等信息。 ### 1.4. 技能商店 讯飞官方提供的语音技能。 ## 2. 硬件模组 - **USB声卡** 用于设备录音及喇叭回声采集,不包含算法,[了解详情](https://aiui.xfyun.cn/solution/soft-hardware?type=1)。 - **RK3588多模态交互板** 集成语音、手势、人脸等能力,适用于大屏一体机,机器人等公共场所人机交互场景, [了解详情](https://aiui.xfyun.cn/solution/soft-hardware/RK3588)。 ## 3. 设备端能力(离线) ### 3.1. 前端声学 用降噪、回声消除算法来提高唤醒率、识别率。 - **麦克风阵列** 多麦克风算法,提高远距离识别率。常见阵列如下: ![](/media/202410/2024-10-30_172336_9983250.11618490235264989.png) - **波束形成** 使拾音具有指向性,抑制波束外声音。2麦波束示例: ![](/media/202305/2023-05-03_145838_5743850.7537485922594406.png) - **回声消除** 回声消除算法抑制麦克风音频中的喇叭声,提高识别率。 - **混响消除** 声波在室内传播时,被墙壁反射形成反射声,并和直达声叠加,构成混响。去混响算法消减声音中的反射声,提升声音的清晰度。 - **噪音抑制** 降噪算法抑制背景噪声,从而提升唤醒率和识别率。 - **声源定位** 唤醒时,根据声音到不同麦克风的时延来确认声音的方位。 ### 3.2. 语音唤醒 用3-6个字的唤醒词,将设备从休眠状态变成识别状态 ### 3.3. 离线语音识别 满足无网络环境下的识别需求。支持标点、和实时出字 ### 3.4. 自定义命令词 支持开发者自定义命令词,最大300词 ### 3.5. 离线语义(语法匹配) 离线语义支持128个槽位、30000个词条,支持用户自由说,可以实现设备的精细控制;配合本地内容资源,还可以满足特定领域语义理解,实现纯离线语音交互,如户外拉杆箱(点歌机)或车载KTV的离线语音点歌。 `注意:离线语义资源消耗:2核1.4G设备,占用CPU15%、内存70M` ### 3.6. 离线合成 支持多种语种的合成,支持音量、语速调节。 ## 4. 服务端能力(在线) ### 4.1. 语音识别 语音识别将声音转换为文本。支持方言。 - **近场识别** 人距离设备 < 1m - **远场识别** 人距离设备 1~5m `注:远场识别引擎,让远距离识别率更高。` - **方言识别** AIUI 支持23 种方言,可动态切换方言引擎。 `注意:语义理解只支持普通话,方言识别会降低语义理解的效果` - **持续录音,连续识别** 交互模式支持**单轮交互(Oneshot)**和 **全双工(Continuous)** **Oneshot**: 一次唤醒,一次交互。如手机 APP 或者语音电视遥控器等单麦克风设备,一般使用单轮交互,需要用户或程序主动触发录音。 **Continuous**:一次唤醒,连续交互。设备需要很好的回声消除效果,且环境安静,`否则自言自语`。 `注意:语音活动检测(Voice Activity Detection,VAD)。用于判断一句话的开始与结束。` - **拒识,过滤无效语音** 全双工模式,通过语义拒识技术,将无效的噪音和无意义语音进行过滤。 `注意:全双工模式仍有小概率的误触发问题。` ### 4.2. 语义理解 语义理解(NLP)指将自然语言转化为结构化数据。 例:将“合肥天气”处理成JSON数据: ```json { "city":"合肥", "time": "2018-01-19" } ``` ### 4.3. 敏感词过滤 敏感词指涉黄、涉暴、涉政、涉恐等词汇。 敏感过滤把敏感词屏蔽,不展示给用户,默认关闭,可[联系AIUI开启](mailto:aiui_support@iflytek.com)。 ### 4.4. 语音合成 语音合成(TTS)指将文字转化为声音。支持方言,外语发音人,也支持定制发音人。 ### 4.5. 信源内容 内容(信源)指语义理解后的有效数据,例如天气信息,音乐的播放链接。AIUI 技能商店中多数技能包含内容。我们诚邀内容提供商与我们合作,包括但不限于音视频资源、流媒体、新闻、自媒体、儿童故事与游戏、股票违章查询等功能类资源。 ### 4.6. 语音翻译 AIUI支持英、日、韩、法、西、俄、阿拉伯等语种的翻译。 翻译属于增值服务,需[联系AIUI开启](mailto:aiui_support@iflytek.com)。 ### 4.7. 交互认知大模型 AIUI支持配置交互大模型服务能力,在传统语义基础上,提高多伦交互、闲聊问答效果。 ## 5. AIUI交互指导 ### 5.1. 按键交互 设备有录音按钮,按下录音,松开后停止录音。 ### 5.2. 语音唤醒交互 用户先喊唤醒词,设备被唤醒后才能进行语音交互。 ### 5.3. 全双工交互 指设备喇叭发声的同时录音,无需唤醒词打断,用户可以跟设备对话。` ~~~ 用户:小飞小飞,今天天气 音响:今天晴…… 用户:明天呢 音响:明天多云…… ~~~ ### 5.4. 离线语音交互 离线语音交互是将语音交互需要的服务下发至本地,通过本地解析实现原本只能在线才能支持的语音交互服务。AIUI离线语音交互服务支持开发者定制更新资源,进一步的提升设备化个性语音交互体验。 `离线交互算力占用` 2核1.4G芯片:cpu占用15%;内存占用70M; ### 5.5. 免唤醒交互 [免唤醒语音交互](https://aiui.xfyun.cn/solution/wakeup)实现了直接说话控制设备;没有网络也可以使用 `免唤醒+离线交互算力占用` 2核1.4G芯片:cpu占用35%,内存占用90M; ### 5.6. 多模态交互 多模态交互,融合声纹识别,手势识别、唇形检测、虚拟人形象等AI技术,让人机交互方式更丰富,交互过程更自然。 用户可基于业务场景选择各个能力,并通过自定义技能及技能后处理实现交互流程的设计。
admin
2024年10月30日 17:38
转发文档
收藏文档
上一篇
下一篇
手机扫码
复制链接
手机扫一扫转发分享
复制链接
Markdown文件
分享
链接
类型
密码
更新密码