RK3588多模态套件使用手册

**目录**
1. 编写目的
2. 包装清单及实体图
3. 硬件接口描述
4. 支持功能
5. 使用指南
	5.1. 准备工作
	5.2. 使用模式
	5.2.1. 作为输出语音交互指令从机模式
	5.2.2. 作为输出语音交互指令从机模式
	5.2.3. 作为AI工控机主机模式
	5.3. 设备安装指导
	5.3.1. 场景说明
	5.3.2. 摄像头倾斜角度参考
6. 接线指导
7. 多模态软件体验
8. 串口使用
9. 3.5mm多模降噪音频输出
10. 设备配网
11. AIUI接入
12. 3588多模套件识别效果及效果优化
13. 固件版本及升级
14. 设备调试
	14.1. 获取调试日志
	14.2. 获取本地音频
15. 常见问题

# 1. 编写目的

本文档旨在让用户快速体验RK3588多模态开发套件，以及快速根据项目不同需求进行效果验证。

# 2. 包装清单及实体图

|编号|类型|数量|
|:----------|:----------|:----------|
|	1	|	RK3588板卡	|	1 个	|
|	2	|	电源线	|	1个	|
|	3	|	麦克风（线性四麦）	|	1个	|
|	4	|	麦克风连接线	|	1根	|
|	5	|	摄像头（不支持调焦距）	|	1个	|
|	6	|	摄像头连接线	|	1根	|
|	7	|	3.5mm音频线（用于音频输出和外部回采接入）	|	2根	|
|	8	|	固定支架	|	2个	|
|	9	|	Type-C调试线	|	1根	|
|	10	|	Wifi信号线	|	2根	|

![](/media/202409//1726642997.3067892.png)

![](/media/202409//1726642997.311914.png)

# 3. 硬件接口描述

![](/media/202409//1726642997.3144994.png)

|编号|接口名称|说明|
|:----------|:----------|:----------|
|	LAN	|	网口	|	千M以太网	|
|	DC-12V	|	电源输入接口	|	DC12V3A、DC5.5-2.1	|
|	USB3.0/USB2.0	|	USB接口	|	USB3.0 * 2 、USB2.0 * 4|
|	USB3.0/USB2.0接口之间	|	复位按键	|	外部插针按住上电进入刷机模式	|
|	Type-C	|	ADB/DP接口	|	Typec接口，设备调试	|
|	HDMI	|	HDMI接口	|	HDMI 2.1接口 * 1，可最高输出8K 60Hz，HDCP2.3	|
|	MicArray	|	麦克风接口	|	支持4~8路麦克风输入	|
|	REF	|	Line in口	|	外部回采输入	|
|	SPEAKER	|	喇叭口	|	连接8Ω5W *2喇叭输出 4pin 2.0mm、+ - - +|
|	HPOUT	|	Line out口	|	多模态降噪音频输出	|
|	RS232 	|	RS232	|	RS232*2，串口通讯，默认支持蓝色232，黑色232为预留口	|

# 4. 支持功能

|	功能	|	特性	|	备注	|
|:----------|:----------|:----------|
|	回声消除	|	回声消除-25dB	|	标配	|
|	多模态降噪	|	噪声抑制-10dB	|	标配	|
|	人脸唤醒	|	检测唇形，免语音唤醒，人脸检测准确率达 99.99%	|	标配	|
|	在线识别	|	支持中英文和方言识别	|	标配	|
|	语义理解	|	支持自定义技能，提供 100 多个官方技能	|	标配	|
|	语音合成	|	支持中英文和方言合成	|	标配	|
|	串口通信	|	支持串口发送指令给上位机	|	标配	|
|	多模态降噪音频输出	|	通过HPOUT口输出多模态降噪后音频给上位机使用	|	标配	|
|	视频输出	|	通过千兆网口输出视频内容给上位机使用	|	标配	|
|	大模型交互	|	可接入星火大模型，让交互更自然	|	选配功能	|
|	超拟人合成	|	可模拟人类的口语化现象、情感、停顿等细节信息	|	选配功能	|
|	语音服务私有化部署	|	保障企业信息安全	|	选配功能	|

# 5. 使用指南

## 5.1. 准备工作

- RK3588 多模态开发套件

- HDMI线、显示屏、回采线

- 鼠标

- 上位机，如电脑（操作系统 windows10，用于调试）

## 5.2. 使用模式

### 5.2.1. 作为输出语音交互指令从机模式

![](/media/202409//1726642997.3234606.png)

### 5.2.2. 作为输出语音交互指令从机模式

![](/media/202409//1726642997.3258848.png)

### 5.2.3. 作为AI工控机主机模式

![](/media/202409//1726642997.3280544.png)

## 5.3. 设备安装指导

### 5.3.1. 场景说明

大屏设备高度在1.6米~2.1米，建议在距离大屏1.5米~3米的位置进行语音交互。**麦克风及摄像头水平方向安装**，需要根据设备实际高度调整倾斜角度，且摄像头放在麦克风板的居中位置

![](/media/202409//1726642997.3304355.png)

![](/media/202409//1726642997.332463.png)

### 5.3.2. 摄像头倾斜角度参考

<table>
	<tr>
	<td colspan="2" align="center">基于目前摄像头垂直视场角24度计算</td>
	</tr>
	<tr>
		<td>设备高度</td>
		<td>摄像头倾斜角度</td>
	</tr>
	<tr>
		<td>1.6米</td>
		<td>0°</td>
	</tr>
	<tr>
		<td>1.7米</td>
		<td>向下倾斜5度</td>
	</tr>
	<tr>
		<td>1.8米</td>
		<td>向下倾斜5度</td>
	</tr>
	<tr>
		<td>1.9米</td>
		<td>向下倾斜10度</td>
	</tr>
	<tr>
		<td>2米</td>
		<td>向下倾斜15度</td>
	</tr>
	<tr>
		<td>2.1米</td>
		<td>向下倾斜15度</td>
	</tr>
</table>

# 6. 接线指导

按照图示，从右向左依次连接网线，电源线，摄像头线，HDMI线，音频线。麦克风拾音孔需要正对人嘴，切勿堵住。摄像头能拍到人脸，且摆放角度正常。注意：

- 如果上位机需要喇叭播报，则需要使用一分二音频线将送个喇叭信号的接入3588的3.5mm ref口进行**回声消除**

- 如果将设备当**主机**使用需要语音播报的话，则需要3588接入喇叭，目前AIUI通用语义版本固件默认使用AIUI平台云端语义后播报，与appid绑定，需要应用开启合成播报功能，AIUI大模型版本固件使用本地主动合成，无需开启语音合成功能。

- 目前默认使用外接ref作为外部回采输入，如果当主机使用则需更改为内部回采输入

AIUI配置文件路径：/sdcard/AIUI/cfg/aiui.cfg

**外部回采配置："channel_filter":"8,0,3,11,4,12"**

**内部回采配置："channel_filter":"8,0,3,11,5,13"**

**8,0,3,11为声卡采集的四个麦克风通道顺序，后两路4,12和5,13分别为声卡采集的外部回采通道和内部回采通道**

![](/media/202409//1726642997.3375306.png)

![](/media/202409//1726642997.3406572.png)

![](/media/202409//1726642997.343713.png)

![](/media/202409//1726642997.3473198.png)

![](/media/202409//1726642997.3503077.png)

如图，上位机为Windows电脑，3.5mm一分二分别输出信号给到3588-ref口和喇叭口（此处用耳机代替）

# 7. 多模态软件体验

第一步：按住鼠标左键上划到此界面，找到AIUIService\_Jniver软件，打开图中红框的体验apk

![](/media/202409//1726642997.3537753.png)

第二步：鼠标点击图像转换后预览

![](/media/202409//1726642997.356874.png)

第三步：进入体验界面，人脸框住时可开始交互，人脸框住为主说话人，只支持单人交互，如果人脸被框柱，但是嘴巴被挡住为窄波束拾音，兼容戴口罩使用场景

体验环境：麦克风和摄像头切勿遮挡

![](/media/202409//1726642997.3609314.png)

# 8. 串口使用

可以通过RS232接口输出主机串口信息给上位机。上位机可以拿到RK3588输出的人脸唤醒和休眠事件、识别和语义结果，具体信息见3588串口通信协议手册：**<https://aiui-doc.xf-yun.com/project-1/doc-367/>**

**上位机：Windows、安卓，购买串口线型号，集成解析**

**第一步：**按照图示接好主机电源，麦克风音频线，摄像头线，串口线（接RS232接口）；

![](/media/202409//1726642997.3646362.png)

**第二步：**串口线另一头连接上位机（可根据上位机接口选择USB口或RS232串口），上位机需要安装对应的驱动程序，提供了win10和win11驱动：[https://www.yuque.com/iflyaiui/zzoolv/zdafgmfb5gxa9yws?singleDoc#](https://www.yuque.com/iflyaiui/zzoolv/zdafgmfb5gxa9yws?singleDoc) 《3588自带串口线-Windows上位机驱动程序》

![](/media/202409//1726642997.3683512.png)

**第三步：**如果上位机需要语音播报，rk3588需要接入回采数据，接口为盒子背部ref 3.5mm口

**第四步：**打开开发包中的小草莓图标的AIUI串口调试工具，波特率选择115200

第五步：验证串口是否正常工作：

- **方式1：**

语音识别、语义的交互信息会在控制台中输出出来。

![](/media/202409//1726642997.3729844.png)

- **方式2：**

adb shell,

向串口输入一段数据，看看串口工具能不能收到

echo 78 78 78 78 78 78 0a > /dev/ttysWK1

此时串口如果通路正常，串口工具控制台会输出对应的二进制

# 9. 3.5mm多模降噪音频输出

如果上位机有自己的语音服务，需要RK3588主机输出降噪后音频，可通

过3.5mm音频线从HPOUT口输出音频给上位机，**没有人脸时也输出音频，可结合RS232串口输出的人脸唤醒状态进行语音识别。**

**第一步：**按照图示接好主机电源，麦克风音频线，摄像头线（接USB2.0），3.5mm耳机线（接HPOUT口），串口线（接RS232口）；

![](/media/202409//1726642997.3773947.png)

**第二步：**3.5mm音频线另一端接入上位机，如果上位机为4段式3.5mm接口（例如笔记本电脑），需要另外装配一根耳麦二合一转接线，3.5mm接入到二合一线的麦克风口。

![](/media/202409//1726642997.3810596.png)

**第三步：**上位机通过对应的声卡进行录音

# 10. 设备配网

1.支持dhcp，可以连接网线或通过串口进行wifi配置或可视化配网

2.不支持dhcp，可以通过串口设置静态ip

# 11. AIUI接入

真实项目使用需更换appid（可以自行配置云端技能，自定义技能、热词识别效果优化，AIUI开放平台官网入门指导：https://aiui-doc.xf-yun.com/project-1/doc-2/）请参考如下：

1.将appid提供给讯飞，大模型版本需要额外授权且固件不同（AIUI平台语义理解配置处需勾选星火认知交互大模型），请联系讯飞商务申请多模态授权

需要注意默认可能不允许adb调试，需要进入接hdmi投屏后，进入盒子设置-》打开调试权限后adb进去

2.通过type-C接口连接电脑，安装adb工具，执行：

adb pull /sdcard/AIUI/cfg/aiui.cfg

修改aiui.cfg中的appid和key参数，对应AIUI平台

修改后上传，adb push aiui.cfg /sdcard/AIUI/cfg/

重启盒子生效，adb reboot

![](/media/202409//1726642997.385314.png)

# 12. 3588多模套件识别效果及效果优化

- **识别准确率**
在摄像头高度1.5-2.1米，人身高1.5-1.9米，人声和噪音信噪比为-5db，光照度300Lx场景下，不同距离的识别准确率如下：

| 交互距离 | 1.5米~2米 | 2米~2.5米 | 2.5米~3米 |
|:---| :--- | :---| :--- |
|字准率| 95% | 93% | 90% |

- **效果说明**
	-  识别效果与具体设备、场景强相关，在具体项目上的效果需要结合硬件质量评估，如：结构气密性、上位机回采信号质量、主机电路干扰等，如有问题可以申请讯飞技术支持协助排查
	-  摄像头高度、距离等会影响测试数据波动
	-  主交互人不能带口罩测试
	- **如有与业务相关的产品名、操作指令、地名、人名等需在AIUI平台应用中添加热词优化，如添加热词还无法识别正确则需要训练优化（需要成本，请联系项目经理）**

# 13. 固件版本及升级

目前分通用语义版本固件和交互大模型版本固件，采购前请与商务说明清楚，固件升级步骤如下：

第一步：盒子接Type-C调试线，另一端连接Windows电脑

第二步：卸载自带软件：双击uninstall.bat

第三步：安装软件：双击install.bat

注：固件获取请联系项目或技术支持同事，无特殊需求无需更新固件

![](/media/202409//1726642997.3914196.png)

# 14. 设备调试

## 14.1. 获取调试日志

安装adb工具：[https://blog.csdn.net/Python\_0011/article/details/132040387](https://blog.csdn.net/Python_0011/article/details/132040387)

当出现异常问题时，需要获取调试日志分析，重启盒子开机后，执行如下操作

1.打开cmd终端，执行adb logcat > 123.txt

2.复现问题，等待10s

3.cmd终端执行ctrl+c 结束，日志生成在当前目录，把日志(123.txt)发回讯飞检查

## 14.2. 获取本地音频

1）adb shell

2）修改配置文件

busybox vi /sdcard/AIUI/mmsp/cfg/mmsp.cfg

将save\_datalog改为1

如果shell乱码，可以将配置文件导出到本地修改，然后push进去

3）重启设备

adb reboot

4）音频会存储在/sdcard/AIUI/mmsp/data目录下，每次交互会产生新的音频

![](/media/202409//1726642997.3954544.png)

5）将音频拉到本地

adb pull sdcard/AIUI/mmsp/data .

6）保存完音频后将save\_datalog还原成0

然后adb reboot重启设备，不然可能导致机器存储满而导致卡死

7）音频说明：

可以将音频文件添加.pcm后缀名，使用Adobe\_Audition打开查看

音频软件使用教程：https://www.yuque.com/iflyaiui/zzoolv/acykkh?singleDoc# 《音频分析软件-Audition》

![](/media/202409//1726642997.398995.png)

# 15. 常见问题

| 问题描述 | 解决办法 |
|:----------|:----------|
| 设备能识别到人脸，但说话无识别内容 |1、检查下设备是否具备网络，设置 --- 高级设置 --- dhcp --- 查看网络的ip地址是否获取到了； 2、查看下设备的时间是否正确，时间若不正确，鉴权会失败，则无法交互。|
| 摄像头黑屏 |1、检查网络是否正常，打开浏览器访问外网 2、 打开系统相机是否正常，确保摄像头本身无问题|
| 开启盒子调试模式后导致内存满了无法进入系统 |**第一步**：用Type_c链接上 使用adb命令 adb devices是否有识别。 **第二步**：若adb devices没有设备，则插入Type-c，重启盒子就会有adb链接。 **第三步**：有adb 链接后，adb shell进入盒子链接。 **第四步**：在adb shell中 输入df 看是不是data目录满载。也是存储100%了。 **第五步**：若data是100%储存了，则输入 /data/media/0/AIUI/mmsp/data。 **第六步**： cd到此目录下后 ls -ls查看是否具有很多 data137 dataxxx文件。 **第七步**：将这些文件全部删除。 **第八步**： 删除后cd 到 /data/media/0/AIUI/mmsp/cfg目录下。 **第九步**: 输入adb reboot 重启盒子即可 |
| 视频预览界面状态码 | audio_state：0声卡打开，-1失败，-999未初始化状态 video_state: 0摄像头打开，-1失败，-999未初始化状态 engine_state：10010，未授权 多模态初始化状态，错误码参照文档 mic_test:音频写入过程状态码，参照文档 |
|错误码信息在哪里查看 | [点击这里查看](https://www.yuque.com/iflyaiui/zzoolv/igbuol?singleDoc# "点击这里查看") |
| 摄像头安装反了，可以通过软件调整角度嘛？ | 可以，可以修改aiui.cfg中的字段"cam\_rotate":"0"修改角度，如旋转180度则改为"cam\_rotate":"180"，重启软件后生效。 |