AIUI平台能力介绍


目 录

  1. 应用配置和技能开发
    1.1. 应用配置
    1.2. 接入配置
    1.3. 技能工作室
    1.4. 技能商店
  2. 硬件模组
  3. 设备端能力(离线)
    3.1. 前端声学
    3.2. 语音唤醒
    3.3. 离线语音识别
    3.4. 自定义命令词
    3.5. 离线语义(语法匹配)
    3.6. 离线合成
  4. 服务端能力(在线)
    4.1. 语音识别
    4.2. 语义理解
    4.3. 敏感词过滤
    4.4. 语音合成
    4.5. 信源内容
    4.6. 语音翻译
    4.7. 交互认知大模型
  5. AIUI交互指导
    5.1. 按键交互
    5.2. 语音唤醒交互
    5.3. 全双工交互
    5.4. 离线语音交互
    5.5. 免唤醒交互
    5.6. 多模态交互

1. 应用配置和技能开发

1.1. 应用配置

  • 语音识别:支持外语、方言识别、远近场引擎、结果下发配置等;
  • 识别热词:提高词组识别的准确率;
  • 识别敏感词:过滤识别结果中的敏感词;
  • 语义敏感词:过滤语义结果中的敏感词;
  • 结构化语义:配置你开发的或者AIUI官方提供的语音技能;
  • 星火大模型:大模型技术,让交互更自然。
  • 后处理:配置自由云服务地址,云端接受讯飞数据做处理。
  • 语音合成:选择你喜欢的合成发音人,设置语速等。

1.2. 接入配置

  • 自定义唤醒词:在线制作和下载唤醒词;

1.3. 技能工作室

  • 自定义技能:开发业务相关的语音交互技能;
  • 自定义问答:设置问答库,支持整句模糊匹配和关键词匹配;
  • 文档问答:上传自由文档文件,基于星火大模型做知识学习和关键知识点提取;
  • 设备人设:让设备拟人化,配置设备的名字,年龄等信息。

1.4. 技能商店

讯飞官方提供的语音技能。

2. 硬件模组

  • USB声卡
    用于设备录音及喇叭回声采集,不包含算法,了解详情

  • RK3588多模态交互板
    集成语音、手势、人脸等能力,适用于大屏一体机,机器人等公共场所人机交互场景, 了解详情

3. 设备端能力(离线)

3.1. 前端声学

用降噪、回声消除算法来提高唤醒率、识别率。

  • 麦克风阵列
    多麦克风算法,提高远距离识别率。常见阵列如下:

  • 波束形成
    使拾音具有指向性,抑制波束外声音。2麦波束示例:

  • 回声消除
    回声消除算法抑制麦克风音频中的喇叭声,提高识别率。

  • 混响消除
    声波在室内传播时,被墙壁反射形成反射声,并和直达声叠加,构成混响。去混响算法消减声音中的反射声,提升声音的清晰度。

  • 噪音抑制
    降噪算法抑制背景噪声,从而提升唤醒率和识别率。

  • 声源定位
    唤醒时,根据声音到不同麦克风的时延来确认声音的方位。

3.2. 语音唤醒

用3-6个字的唤醒词,将设备从休眠状态变成识别状态

3.3. 离线语音识别

满足无网络环境下的识别需求。支持标点、和实时出字

3.4. 自定义命令词

支持开发者自定义命令词,最大300词

3.5. 离线语义(语法匹配)

离线语义支持128个槽位、30000个词条,支持用户自由说,可以实现设备的精细控制;配合本地内容资源,还可以满足特定领域语义理解,实现纯离线语音交互,如户外拉杆箱(点歌机)或车载KTV的离线语音点歌。

注意:离线语义资源消耗:2核1.4G设备,占用CPU15%、内存70M

3.6. 离线合成

支持多种语种的合成,支持音量、语速调节。

4. 服务端能力(在线)

4.1. 语音识别

语音识别将声音转换为文本。支持方言。

  • 近场识别 人距离设备 < 1m
  • 远场识别 人距离设备 1~5m

注:远场识别引擎,让远距离识别率更高。

  • 方言识别
    AIUI 支持23 种方言,可动态切换方言引擎。
    注意:语义理解只支持普通话,方言识别会降低语义理解的效果

  • 持续录音,连续识别
    交互模式支持单轮交互(Oneshot)全双工(Continuous)

Oneshot: 一次唤醒,一次交互。如手机 APP 或者语音电视遥控器等单麦克风设备,一般使用单轮交互,需要用户或程序主动触发录音。

Continuous:一次唤醒,连续交互。设备需要很好的回声消除效果,且环境安静,否则自言自语

注意:语音活动检测(Voice Activity Detection,VAD)。用于判断一句话的开始与结束。

  • 拒识,过滤无效语音
    全双工模式,通过语义拒识技术,将无效的噪音和无意义语音进行过滤。

注意:全双工模式仍有小概率的误触发问题。

4.2. 语义理解

语义理解(NLP)指将自然语言转化为结构化数据。

例:将“合肥天气”处理成JSON数据:

{
  "city":"合肥",
  "time": "2018-01-19"
}

4.3. 敏感词过滤

敏感词指涉黄、涉暴、涉政、涉恐等词汇。
敏感过滤把敏感词屏蔽,不展示给用户,默认关闭,可联系AIUI开启

4.4. 语音合成

语音合成(TTS)指将文字转化为声音。支持方言,外语发音人,也支持定制发音人。

4.5. 信源内容

内容(信源)指语义理解后的有效数据,例如天气信息,音乐的播放链接。AIUI 技能商店中多数技能包含内容。我们诚邀内容提供商与我们合作,包括但不限于音视频资源、流媒体、新闻、自媒体、儿童故事与游戏、股票违章查询等功能类资源。

4.6. 语音翻译

AIUI支持英、日、韩、法、西、俄、阿拉伯等语种的翻译。
翻译属于增值服务,需联系AIUI开启

4.7. 交互认知大模型

AIUI支持配置交互大模型服务能力,在传统语义基础上,提高多伦交互、闲聊问答效果。

5. AIUI交互指导

5.1. 按键交互

设备有录音按钮,按下录音,松开后停止录音。

5.2. 语音唤醒交互

用户先喊唤醒词,设备被唤醒后才能进行语音交互。

5.3. 全双工交互

指设备喇叭发声的同时录音,无需唤醒词打断,用户可以跟设备对话。`

用户:小飞小飞,今天天气
音响:今天晴……
用户:明天呢
音响:明天多云……

5.4. 离线语音交互

离线语音交互是将语音交互需要的服务下发至本地,通过本地解析实现原本只能在线才能支持的语音交互服务。AIUI离线语音交互服务支持开发者定制更新资源,进一步的提升设备化个性语音交互体验。

离线交互算力占用
2核1.4G芯片:cpu占用15%;内存占用70M;

5.5. 免唤醒交互

免唤醒语音交互实现了直接说话控制设备;没有网络也可以使用

免唤醒+离线交互算力占用
2核1.4G芯片:cpu占用35%,内存占用90M;

5.6. 多模态交互

多模态交互,融合声纹识别,手势识别、唇形检测、虚拟人形象等AI技术,让人机交互方式更丰富,交互过程更自然。

用户可基于业务场景选择各个能力,并通过自定义技能及技能后处理实现交互流程的设计。


admin 2024年10月30日 17:38 收藏文档