AIUI文档中心
AIUI文档导览
1. AIUI平台服务
1.1 AIUI平台介绍
1.2 AIUI应用介绍
1.3 AIUI服务链路介绍
1.4 AIUI平台能力概述
1.5 快速体验
2. AIUI应用配置
2.1 应用发布
2.2 语义精简协议介绍
2.3 基础配置
2.4 语义模型配置
2.5 回复角色配置
2.6 语音识别配置
2.7 结构化语义配置
2.8 星火大模型配置
2.9 语音合成配置
2.10 应用后处理配置
2.11 三方大模型配置
2.12 流畅全双工交互配置
2.13 表情标签配置
2.14 长时记忆配置
2.15 声纹识别配置
3. AIUI SDK开发
3.1 AIUI SDK接入流程
3.2 AIUI SDK基础信息
3.2.1 SDK接口说明
3.2.2 参数配置说明
3.2.3 消息事件说明
3.2.4 SDK状态说明
3.2.5 数据发送方式
3.2.6 回调解析说明
3.2.7 交互结果协议说明
3.3 AIUI SDK基础能力
3.3.1 流式识别
3.3.2 离线识别
3.3.3 语音唤醒
3.3.4 语音合成
3.3.5 用户个性化
3.3.6 自定义参数
3.4 传统语义链路接入
3.4.1 链路配置说明
3.4.2 个性化数据使用
3.5 通用大模型链路接入
3.5.1 链路配置说明
3.5.2 个性化数据使用
3.5.3 超拟人合成
3.5.4 声音复刻
3.6 极速超拟人链路接入
3.6.1 链路配置说明
3.6.2 个性化数据使用
3.6.3 流式合成
3.6.4 声音复刻
3.6.5 RTOS系统SDK接入
3.7 错误码列表
3.8 发音人列表
4. AIUI API开发
4.1 传统语义链路
4.1.1 交互API
4.1.2 用户个性化API
4.1.3 合成能力使用
4.2 通用大模型链路
4.2.1 服务鉴权
4.2.2 交互API
4.2.3 用户个性化API
4.2.4 声音复刻API
4.2.5 合成能力使用
4.3 极速超拟人链路
4.3.1 服务鉴权
4.3.2 交互API
4.3.3 用户个性化API
4.3.4 声音复刻API
4.3.5 合成能力使用
4.3.6 声纹管理API
5. 自定义业务
技能工作室概述
名词解析
技能
意图和语料
实体
动态实体
模糊匹配
填槽对话
技能设计规范
语音技能设计规范
开放技能接入审核规范
开放技能图标图片规范
技能开发
创建技能和意图
意图配置
技能测试
技能发布
技能后处理
技能导入导出
云函数APIv2.1
云函数APIv2.0
智能体开发
智能体对接
问答库开发
语句问答
关键词问答
文档问答
设备人设开发
技能协议
语义协议:重要字段和通用字段
技能后处理协议:标准请求
技能后处理协议:请求校验
技能后处理协议:Request_v2.1协议
技能后处理协议:Response_v2.1协议
技能资源限制
6. 硬件模组
RK3328 降噪板
RK3328降噪板白皮书
RK3328降噪板使用手册
RK3328降噪板规格书
RK3328降噪板协议手册
RK3328 AIUI评估板开发套件
RK3328评估板白皮书
RK3328评估板使用手册
RK3328评估板规格书
RK3328评估板开发手册
RK3588s 极简通用多模态开发套件
RK3588s 极简多模态套件白皮书
RK3588s 极简多模态套件使用手册
RK3588 AIUI多模态开发套件
RK3588一体机多模态产品规格书
RK3588多模态套件使用手册
视频传输协议
识别语义传输协议
音频传输协议
AIUI类型消息事件
ZG803 离线语音识别套件
ZG803 产品白皮书
USB声卡套件
USB声卡产品白皮书
USB声卡使用指南
AC7911B AIUI语音开发套件
AC7911B-产品白皮书
AC7911B-快速体验指南
AIUI评估板接入
集成方式
软件包说明
AIUIServiceKitSDK
串口SDK
评估板参数配置
调试升级
7. 常见问题处理
7.1 AIUI常见问题
7.2 评估板常见问题
7.3 动态实体常见问题
8. 联系方式
9. 服务条款
AIUI开放平台服务协议
AIUI开放平台隐私政策
小飞在家用户协议
小飞在家隐私政策
小飞在家开源软件使用许可
讯飞账号隐私政策
讯飞账号用户协议
讯飞带屏音箱用户协议
讯飞带屏音箱隐私政策
AIUI SDK隐私政策
AIUI SDK合规使用说明
本文档使用 MrDoc 发布
-
+
首页
RK3588s 极简多模态套件使用手册
# 目录 1. 产品概述 1.1编写目的 1.2 技术简介 1.3 主要应用场景 1.4 套件清单 2. 硬件介绍与安装 2.1硬件实物图 2.2 麦克风实物检查 2.3 接线实物图 3. 体验准备与说明 3.1 开机与系统初始化 3.2 配置网络 4. 功能详解 4.1 可视化交互界面说明 4.2 标准使用模式 4.3 扩展使用方式说明 5. 高级配置与开发 5.1 Appid申请与配置 5.2 协议对接 5.3 二次开发指南 6. 调试与故障排除 6.1日志获取与分析 6.2获取本地音频、图像 6.3常见问题汇总 7. 附录 # 离线资料下载 RK3588s 极简多模态套件开发资料(产品白皮书、使用手册),可以点击下载: [【附件】RK3588s 极简多模态套件开发资料.zip](/media/attachment/2026/01/RK3588s_%E6%9E%81%E7%AE%80%E5%A4%9A%E6%A8%A1%E6%80%81%E5%A5%97%E4%BB%B6%E5%BC%80%E5%8F%91%E8%B5%84%E6%96%99.zip) ## 1. 产品概述 ## 1.1 编写目的 本文档主要为了让客户快速接入极简通用多模态套件。 ## 1.2 技术简介 多模态降噪技术通过融合视觉与声学信息实现高效降噪,其工作原理是:系统通过检测人脸打开唤醒状态,将唇形跟语音信息作为起始和结束信号来控制拾音过程;在锁定主讲人后,系统分析唇动信息处理高噪声环境下的音频,再将优化后的音频上传至云端进行识别。这一技术方案能够有效提升高噪环境中的语音交互准确性和鲁棒性。 ## 1.3 主要应用场景 - **智慧政务一体机:**提供免接触、高效率的业务查询与办理体验。 - **医疗自助挂号机:**通过人脸与语音交互,简化就诊流程,保护患者隐私。 - **交通枢纽购票机:**在嘈杂环境中精准识别用户指令,快速完成票务购买。 - **商业虚拟人交互大屏:**主动吸引顾客注意,实现精准营销与互动导览。 - **工业调度大屏:**解放双手,通过语音指令实时查询与操控生产信息。 ## 1.4 套件清单 <table border="0" class="docutils" style="width: 100%;"> <colgroup> <col width="5%" /> <col width="10%" /> <col width="5%" /> <col width="30%" /> </colgroup> <tbody valign="top"> <tr> <td align="center" valign="center"><b>序号</b></td> <td align="center" valign="center"><b>硬件名称</b></td> <td align="center" valign="center"><b>数量</b></td> <td align="center" valign="center"><b>说明</b></td> </tr> <tr> <td valign="center">1</td> <td valign="center">3588s主板</td> <td valign="center">1</td> <td valign="center">默认无外壳,选配带外壳主机</td> </tr> <tr class="row-even"> <td valign="center">2</td> <td valign="center">500W摄像头</td> <td valign="center">1</td> <td valign="center" rowspan="2">摄像头焦距3.3mm,支持0.5米到1.9米内交互<br>默认裸件,选配带结构件外壳</td> </tr> <tr> <td valign="center">3</td> <td valign="center">声卡麦板二合一板</td> <td valign="center">1</td> </tr> <tr> <td valign="center">4</td> <td valign="center">电源适配器</td> <td valign="center">1</td> <td valign="center">长度1.5米,航嘉电源适配器</td> </tr> <tr> <td valign="center">5</td> <td valign="center">USB线束</td> <td valign="center">1</td> <td valign="center">长度2.5米,4pinUSB2.0转4pinUSB2.0线束</td> </tr> <tr> <td valign="center">6</td> <td valign="center">摄像头线束</td> <td valign="center">1</td> <td valign="center">长度5.6cm,4pinUSB2.0转4pinUSB2.0线束</td> </tr> <tr> <td valign="center">7</td> <td valign="center">回采线</td> <td valign="center">1</td> <td valign="center">长度2.5米,5pin转3.5mm耳机口</td> </tr> <tr> <td valign="center">8</td> <td valign="center">串口线</td> <td valign="center">1</td> <td valign="center">主板:1米,4pin ttl接口转USB串口线<br>主机:1米,4pin 232接口转USB串口线</td> </tr> <tr> <td valign="center">9</td> <td valign="center">天线</td> <td valign="center">1</td> <td valign="center">主板:12cm天线<br>主机:12cm胶棒天线</td> </tr> </tbody> </table> <center>表1 通用多模态套件清单</center> # 2.硬件介绍与安装 ## 2.1 硬件实物图  <center>图1 通用多模态四麦单目远焦配件硬件内容图</center> ## 2.2 麦克风实物检查  <center>图2 麦克风正面图</center> - 若麦克风有密封贴请撕下所有密封贴,确保麦克风板孔如上图无遮挡。 - 麦克风正面朝向人收音。 ## 2.3 接线实物图  <center>图3 通用多模态套件裸板实物接线图</center> 1. 为保障Wi-Fi连接质量,请先插上天线; 2. 使用4pin转4pin音视频线束连接四麦声卡板和3588s主板,获取音视频信号; 3. 使用4pin转3.5mm耳机口线束,一端连接声卡板的‘回采接口’,另一端连接3588s主板的3.5mm耳机输出口,用于采集设备自身播放的音频以实现回声消除;(如使用外置功放,回采从外置功放接回四麦声卡板); 4. 使用HDMI线束连接3588s主板跟显示屏,连接无线网络及体验多模态demo; 5. 插上电源; 6. 正式组装时,最好将摄像头放在麦克风板中间的孔洞中,保障最佳使用效果。 7. **注意:请确保在断电情况下进行连接操作。**  <center>图4 通用多模态套件带外壳反面接线图</center>  <center>图5 通用多模态套件带外壳正面接线图</center> 可按照图示顺序接线。 # 3.体验准备与说明 ## 3.1开机与系统初始化 **准备条件:** 需要可连接HDMI的显示器 - 连接主板的HDMI接口以及显示的HDMI接口。  <center>图6 hdmi接线图</center> - 接上电源等待设备启动完成,启动完成后如下图。  <center>图7 3588s系统launcher图</center> - 接入鼠标或使用触屏 “**向上滑动**”,进入系统应用界面。  <center>图8 3588s应用界面图</center> ## 3.2 配置网络 - **wifi模式:** 点击界面中的 设置----网络与互联网----互联网----选择wifi输入密码连接wifi - **有线网络模式:** 直接将网线插入到3588s主板的网口中 ## 3.3 启动多模态应用 - 点击应用界面的《多模态应用》程序  <center>图9 多模态套件应用界面</center> * 进入可视化交互界面  <center>图10 多模态应用可视化预览界面</center> # 四.功能详解 ## 4.1 可视化交互界面说明 1. 可视化交互界面下,左侧为人脸视觉信号识别展示区域,当人脸出现在左侧图像中,并人脸有绿框选中,可开始交互;当人脸是红框选中时,表示有人脸无唇形。  <center>图11 人脸预览框示意图</center> 2. 对话内容出现在右侧,只显示主交互人(人脸锁定)所说的话。  <center>图12 语音交互结果显示区域示意图</center> 3. 多模态应用参数值,可根据不同的状态值判断交互异常原因  <center>图13 多模态应用参数值示意图</center> ## 4.2 标准使用模式 ### 4.2.1 回采接线说明 为了实现设备播音过程中,设备播音不被麦克风收集,实现实时打断交互,必须接回采线。回采接入有以下两种方式 - 方式1:使用3588s板载功放,可直接通过3.5mm耳机口将合成音频接入到声卡回采接口,板载功放默认支持8欧姆10瓦; - 方式2:使用外置功放,需要接外置功放的一路信号到声卡板上的回采接口。 ### 4.2.2 工作模式说明 - 工作模式1: **作为AI工控机主机模式**  <center>图14 作为AI工控机主机模式示意图</center> - 工作模式2: **作为输出语音交互指令从机模式**  <center>图15 串口信息给到上位机示意图</center> - 工作模式3: **作为输出多模态降噪音频从机模式**  <center>图16 多模态降噪音频给上位机示意图</center> <div style="display: flex; align-items: flex-start; gap: 16px; padding: 16px; background: #fff5f6; border-radius: 5px; border-left: 4px solid #e83e8c; box-shadow: 0 4px 12px rgba(255, 215, 0, 0.08); margin-bottom: 16px; transition: transform 0.2s ease, box-shadow 0.2s ease;"> <div> <div style="font-weight: 600; margin-bottom: 4px;">温馨提示</div> <div style="font-size: 14px; line-height: 1.5;">1、默认3588S主板上的3.5mm耳机口和speaker播出的是合成音频,需要把aiui.cfg mmps下面的play_mmsp改成true且play_mode改成user,即可只输出降噪音频。</div> <div style="font-size: 14px; line-height: 1.5;">2、一般大屏产品会使用自己的功放播音,需要从最终使用的功放处获取回采信号接入声卡主板;如果大屏无法提供最终使用的功放后音频作为回采信号,可通过3588s主板上3.5mm耳机口将功放信号接入声卡主板,作为兜底策略。</div> </div> </div> # 5. 高级配置与开发 ## 5.1 Appid申请与配置 1.**appid申请** 讯飞3588s模组与讯飞AIUI深度融合,支持客户自己基于AIUI平台进行识别引擎,语义引擎,合成发音人等一系列配置。请前往[讯飞AIUI开放平台](https://aiui.xfyun.cn/ "讯飞AIUI开放平台")注册,并获取appid等信息。  <center>图17 appid信息获取示意图</center> 2.**adb环境准备** 使用双头usb线,将靠近网口旁边的USB口和电脑USB连接。  <center>图18 USB调试接口实物图</center> 3. **更新appid** - adb pull /sdcard/AIUI/cfg/aiui.cfg - 修改aiui.cfg中的appid和key参数,对应AIUI平台 - 修改后上传,adb push aiui.cfg /sdcard/AIUI/cfg/ - 重启设备生效,adb reboot ## 5.2 协议对接 1. 多模态套件当从机使用时,对接模组的识别等信息可以通过websokect协议或者ttl串口的方式获取,其中ttl串口只可以获取文字信息,websocket可以获取文字信息+音视频信息。(注意3588s裸板是ttl接口,带外壳主机上是232接口) 2. 多模态交互套件支持传输多模态降噪后音频,模组摄像头采集视频流,以及云端识别交互内容给上位机,可通过websocket对接。 - **音频传输协议:**用于从套件获取经过多模态降噪处理后的纯净音频流,[点击查看](https://aiui-doc.xf-yun.com/project-1/doc-392/](https://aiui-doc.xf-yun.com/project-1/doc-392/ "点击查看") - **视频传输协议:**用于从套件获取摄像头采集的实时视频流,[点击查看](https://aiui-doc.xf-yun.com/project-1/doc-360/](https://aiui-doc.xf-yun.com/project-1/doc-360/ "点击查看") - **识别语义传输协议:**用于接收云端返回的识别结果和语义理解数据,[点击查看]([https://aiui-doc.xf-yun.com/project-1/doc-367/](https://aiui-doc.xf-yun.com/project-1/doc-367/ "点击查看") ## 5.3 二次开发指南 本套件支持深度二次开发。关于SDK接口说明、示例代码及更详细的开发文档,请联系我司技术支持或商务人员获取 # 6. 调试与故障排除 ## 6.1 日志获取与分析 图 19 音频存储adb示意图 - 安装adb工具: [【附件】adb_1.0.41.zip](/media/attachment/2026/01/adb_1.0.41.zip) - 当出现异常问题时,需要获取调试日志分析,重启设备开机后,执行如下操作 - 打开cmd终端,执行adb logcat > 123.txt - 复现问题,等待10s - cmd终端执行ctrl+c 结束,日志生成在当前目录,把日志(123.txt)发回讯飞检查 ## 6.2 获取本地音频、图像 - adb shell - 修改配置文件: busybox vi /sdcard/AIUI/mmsp/cfg/mmsp.cfg [将save_datalog取值改为1(存唇形和音频) 或 2(存原始图和音频)] <div style="display: flex; align-items: flex-start; gap: 16px; padding: 16px; background: #fff5f6; border-radius: 5px; border-left: 4px solid #e83e8c; box-shadow: 0 4px 12px rgba(255, 215, 0, 0.08); margin-bottom: 16px; transition: transform 0.2s ease, box-shadow 0.2s ease;"> <div> <div style="font-weight: 600; margin-bottom: 4px;">⚠警告</div> <div style="font-size: 14px; line-height: 1.5;">存30秒即可,不可存太多,1分钟接近1个G****,存储文件极大,仅建议调试时短时开启,完成后务必改回0,否则可能导致存储空间耗尽和设备卡死。</div> </div> </div> - 如果shell乱码,可以将配置文件导出到本地修改,然后push进去 - 重启设备:adb reboot - 音频会存储在/sdcard/AIUI/mmsp/data目录下,每次交互会产生新的音频  <center>图19 音频存储adb示意图</center> - 将音频拉到本地:adb pull sdcard/AIUI/mmsp/data - 音频说明:可以将音频文件添加.pcm后缀名,使用Adobe_Audition打开查看。 音频软件使用教程:https://www.yuque.com/iflyaiui/zzoolv/acykkh?singleDoc# 《音频分析软件-Audition》  <center>图20 存储音频说明图</center> ## 6.3常见问题汇总 **如果您有以下问题需要解决,请访问相关文档查看,[点击访问](https://www.yuque.com/aiui/zzoolv/cpz9wb09lw6fgcv7 "点击查看")** 1. HDMI投屏更改分辨率方法 2. 更改板载功放功率 3. 默认声音输出说明 4. 关于客户二次开发,禁止应用弹框的问题方法 5. 回采接入方式 6. 关于3588s当主机使用时的虚拟人demo使用说明 7. 设置静态IP 8. 设置定制开关机 9. 客户二次开发,需要获取系统权限 # 7. 附录 我们为客户提供全面、及时的技术支持,确保开发流程顺畅无忧。 - **技术支持:**如需帮助,请通过以下方式联系我们: - **技术支持邮箱:**support@iflytek.com - **官方网站:**https://aiui.xfyun.cn/
admin
2026年1月22日 17:58
转发文档
收藏文档
上一篇
下一篇
手机扫码
复制链接
手机扫一扫转发分享
复制链接
Markdown文件
分享
链接
类型
密码
更新密码