机器人超脑平台
平台简介
成为超脑平台用户
讯飞超脑板
产品规格
开发指南
标准协议
使用手册
环境准备
数据采集
应用算法
应用实例
镜像导出
镜像烧录
错误码
算法配置表
机器人多模态交互开发套件
多模态交互套件产品白皮书
多模态交互套件使用手册
多模态交互套件开发手册
多模态交互套件视频传输协议
多模态交互套件串口通信协议
联系方式
服务条款
超脑平台服务协议
超脑平台隐私政策
本文档使用 MrDoc 发布
-
+
首页
多模态交互套件使用手册
**版本记录** ![](/media/202407/2024-07-11_191028_3619100.04005408467391525.png) **目 录** [一.编写目的](#_Toc166506711) [二.包装清单及实体图](#_Toc166506712) [三.硬件接口描述](#_Toc166506713) [四.支持功能](#_Toc166506714) [五.使用指南](#_Toc166506715) [1.准备工作](#_Toc166506716) [2. 使用模式](#_Toc166506717) [3.设备安装指导](#_Toc166506718) [4.接线指导](#_Toc166506719) [5.多模态软件体验](#_Toc166506720) [6.串口使用](#_Toc166506721) [7. 设备配网](#_Toc166506722) [8.AIUI接入](#_Toc166506723) [9.多模套件识别效果及优化](#_Toc166506724) [六.固件版本及升级](#_Toc166506725) [七.设备调试](#_Toc166506726) [1.获取logcat调试日志](#_Toc166506727) [2.获取多模调试信息](#_Toc166506728) [八.常见问题Q&A](#_Toc166506729) [九.硬件结构及开箱体验视频](#_Toc166506730) # 一.编写目的 本文档旨在让用户快速体验和项目接入AIUI多模态交互开发套件。 # 二.包装清单及实体图 ![](/media/202407/2024-07-11_191228_6804360.3018319692336603.png) AIUI多模态交互产品配件说明说明(依次编号) ![](/media/202407//1720696176.3963547.png) ![](/media/202407//1720696176.4018235.png) # 三.硬件接口描述 ![](/media/202407//1720696176.4073784.png) ![](/media/202407//1720696176.43792.png) # 四.支持功能 ![](/media/202407/2024-07-11_191310_6445050.3927717800461489.png) 产品功能列表 # 五.使用指南 ## 1.准备工作 * AIUI多模态开发套件 * HDMI线、显示屏、回采线 * 鼠标 * 上位机,如电脑(操作系统 windows10,用于调试) * 投屏软件scrcpy-win64-v1.16:https://www.yuque.com/iflyaiui/zzoolv/omi0z4 ## 2. 使用模式 **作为输出语音交互指令从机模式** ![](/media/202407//1720696176.4464564.png) 图-1 串口信息给到上位机示意图 ## 3.设备安装指导 **1.摄像头+麦克风安装说明:**麦克风及摄像头水平方向安装,且摄像头放在麦克风板的居中位置。 ![](/media/202407//1720696176.4654877.png) 图 1 麦克风+摄像头安装方式说明 1. **交互距离说明:当**大屏设备高度在1.6米~2.1米,建议在距离大屏1.5米~2.5米的位置进行语音交互。 ![](/media/202407//1720696176.4698298.png) 图 2适用场景示意图 1. **摄像头倾斜角度说明:**需要根据设备实际高度调整摄像头倾斜角度。 ![](/media/202407/2024-07-11_191355_1906140.9193977146578055.png) 表 1摄像头倾斜角度参考表 ## 4.接线指导 麦克风拾音孔需要正对人嘴,切勿堵住。摄像头能拍到人脸,且摆放角度正常。注意: * 如果上位机需要喇叭播报,则需要上位机功放后的信号输入给usb声卡回采处,进行**回声消除** ![](/media/202407//1720696176.4918983.png)![](/media/202407//1720696176.4983542.png) ![](/media/202407//1720696176.5177157.png) ![C:\Users\jxchen9\Documents\WeChat Files\wxid_omweq9eac5di22\FileStorage\Temp\8f7f2f4cb669f1cec10857564b91c62.png](/media/202407//1720696176.5237548.png) ## 5.多模态软件体验 * 第一种可以直接用hdmi显示,用鼠标点击操作 * 第二种可以笔记本接typec调试线,使用投屏软件scrcpy-win64-v1.16 在笔记本上投屏显示操作 ![](/media/202407//1720696176.541522.png) 投屏软件scrcpy-win64-v1.16 第一步:按住鼠标左键上划到此界面,找到AIUIService\_Jniver软件,打开图中红框的体验apk ![4df0f8b930896052456079c887039ba](/media/202407//1720696176.5461855.jpeg) 第二步:鼠标点击图像转换后预览 ![3d271845caab17711161869ecb9b908](/media/202407//1720696176.5735738.jpeg) 第三步:进入体验界面,人脸框住时可开始交互,人脸框住为主说话人,只支持单人交互,如果人脸被框柱,但是嘴巴被挡住为窄波束拾音,兼容戴口罩使用场景 ![7787183b839fef3c891e7aee3cb079c](/media/202407//1720696176.5777154.jpeg) 体验环境:麦克风和摄像头切勿遮挡 ![](/media/202407//1720696176.598119.png) ## 6.串口使用 **1.**可以通过pin口输出主机串口信息给上位机。上位机可以拿到RK3588输出的人脸唤醒和休眠事件、识别和语义结果,具体信息见3588串口通信协议手册:[**https://aiui-doc.xf-yun.com/project-1/doc-367/**](https://aiui-doc.xf-yun.com/project-1/doc-367/) Json数据: eventType 说明文档:<https://aiui-doc.xf-yun.com/project-1/doc-14/> 识别文本、语义文本说明文档:<https://aiui-doc.xf-yun.com/project-1/doc-180/> **上位机:Windows、安卓,购买串口线型号,集成解析** **第一步:**按照图示接好主机电源,麦克风音频线,摄像头线,串口线 ![](/media/202407//1720696176.6088843.png) **第二步:**打开开发包中的小草莓图标的AIUI串口调试工具,波特率选择115200, 第三步:验证串口是否正常工作: **方式1:** 语音识别、语义的交互信息会在控制台中输出出来。 ![C:\Users\jxchen9\Documents\WeChat Files\wxid_omweq9eac5di22\FileStorage\Temp\c11eaae631a5fdbb127b61fb2fdf39d.png](/media/202407//1720696176.6261237.png) **方式2:** adb shell, 向串口输入一段数据,看看串口工具能不能收到 echo 78 78 78 78 78 78 0a > /dev/ttysWK1 此时串口如果通路正常,串口工具控制台会输出对应的二进制 ## 7. 设备配网 1.网络支持dhcp * 可以连接网线 * 使用sim卡 * 连接无线网卡,wifi配网,支持网卡型号:https://doc.embedfire.com/linux/rk356x/quick_start/zh/latest/quick_start/support_modules_list/support_modules_list.html 2.网络不支持dhcp,可以通过串口设置静态ip 3.详细操作可见:https://doc.embedfire.com/linux/rk3588/quick_start/zh/latest/quick_start/network/network2.html?highlight=%E7%BD%91%E5%8D%A1# ## 8.AIUI接入 真实项目使用需更换appid(可以自行配置云端技能,自定义技能、热词识别效果优化,AIUI开放平台官网入门指导:https://aiui-doc.xf-yun.com/project-1/doc-2/)请参考如下: 1.将appid提供给讯飞,大模型版本需要额外授权且固件不同(AIUI平台语义理解配置处需勾选星火认知交互大模型),请联系讯飞商务申请多模态授权 需要注意默认可能不允许adb调试,需要进入接hdmi投屏后,进入盒子设置-》打开调试权限后adb进去 2.通过type-C接口连接电脑,安装adb工具,执行: * adb pull /sdcard/AIUI/cfg/aiui.cfg * 修改aiui.cfg中的appid和key参数,对应AIUI平台 * 修改后上传,adb push aiui.cfg /sdcard/AIUI/cfg/ * 重启盒子生效,adb reboot ![](/media/202407//1720696176.6346977.png) ## 9.多模套件识别效果及优化 * 识别效果与具体设备、场景强相关,在具体项目上的效果需要结合硬件质量评估,如:结构气密性、上位机回采信号质量、主机电路干扰等,如有问题可以申请讯飞技术支持协助排查 * 摄像头高度、距离等会影响测试数据波动 * 主交互人不能带口罩测试 * **如有与业务相关的产品名、操作指令、地名、人名等需在AIUI平台应用中添加热词优化,如添加热词还无法识别正确则需要训练优化(需要成本,请联系项目经理)** # 六.固件版本及升级 目前分通用语义版本固件和交互大模型版本固件,采购前请与商务说明清楚,固件升级步骤如下: * 第一步:盒子接Type-C调试线,另一端连接Windows电脑 * 第二步:卸载自带软件:双击uninstall.bat * 第三步:安装软件:双击install.bat 注:固件获取请联系项目或技术支持同事,无特殊需求无需更新固件 ![](/media/202407//1720696176.6517806.png) # 七.设备调试 ## 1.获取logcat调试日志 安装adb工具:https://blog.csdn.net/Python_0011/article/details/132040387 当出现异常问题时,需要获取调试日志分析,重启盒子开机后,执行如下操作 1.打开cmd终端,执行adb logcat > 123.txt 2.复现问题,等待10s 3.cmd终端执行ctrl+c 结束,日志生成在当前目录,把日志(123.txt)发回讯飞检查 ## 2.获取多模调试信息 方式一,获取人脸、音频信息: 1)adb shell 2)修改配置文件 busybox vi /sdcard/AIUI/mmsp/cfg/mmsp.cfg 将save\_datalog改为1 如果shell乱码,可以将配置文件导出到本地修改,然后push进去 3) 重启设备 adb reboot 4)音频会存储在/sdcard/AIUI/mmsp/data目录下,每次交互会产生新的音频 ![](/media/202407//1720696176.6672568.png) 5)将音频拉到本地 adb pull sdcard/AIUI/mmsp/data . 6)保存完音频后将save\_datalog还原成0 然后adb reboot重启设备,不然可能导致机器存储满而导致卡死 7)音频说明: 可以将音频文件添加.pcm后缀名,使用Adobe\_Audition打开查看 音频软件使用教程:https://www.yuque.com/iflyaiui/zzoolv/acykkh?singleDoc# 《音频分析软件-Audition》 ![](/media/202407//1720696176.6915538.png) 方式二,获取16通道原始音频: 1. 长按多模应用,强行停止应用(停止后请立刻执行第二步录音指令,否则软件会自启动占用声卡) 2. adb shell tinycap /mnt/sdcard/audio.wav -D 4 -d 0 -c 16 -r 16000 -b 16 3. adb pull /mnt/sdcard/audio.wav . 4. 录音为16k16bit16ch音频,麦克风顺序请对应aiui配置文件 aiui配置文件路径:/sdcard/AIUI/cfg/aiui.cfg **外部回采配置:"channel\_filter":"8,0,3,11,4,12"** **内部回采配置:"channel\_filter":"8,0,3,11,5,13"** **8,0,3,11为声卡采集的四个麦克风通道顺序,后两路4,12和5,1分别为声卡采集的外部回采通道和内部回采通道** # 八.常见问题Q&A 1.adb如何使用? 需要接typec调试线,https://www.yuque.com/iflyaiui/zzoolv/vefaow?singleDoc# 《adb安装与使用》 2. vad结束时间为多久? 当前默认为900ms,不可以调整 3.错误码信息在哪里查看? https://www.yuque.com/iflyaiui/zzoolv/igbuol?singleDoc# 《错误码和解决方案》 4. 串口工具能设置appid和key的么? 可以修改,但是改完之后会重启AIUI服务,但是还人脸还处于唤醒状态,需要人脸先退出再进去唤醒后才能交互 5. 上位机为电视,只有hdmi音频输出,3588怎么接回采信号? 建议采用hdmi音频分线器,且确保回采信号提前于mic信号50ms以内,遇到过使用hdmi音频分线器,麦克风信号提前于回采导致回声消除效果变差 6.能不能用自购的3588? 其他3588的硬件质量(如声卡录音、摄像头连接稳定性、声学情况)无法保障,需要客户自己保障效果 7.能不能使用自购的摄像头和麦克风? 多模态算法与摄像头和麦克风强相关,自购摄像头无法保障成像质量和录音质量,需要客户自己保障硬件质量,讯飞不负责整体效果 8.能不能给出麦克风和摄像头的结构件? 由于客户对于结构件的需要无法统一,所以暂不提供结构件 9.摄像头安装反了,可以通过软件调整角度嘛? 可以,可以修改aiui.cfg中的字段"cam\_rotate":"0"修改角度,如旋转180度则改为"cam\_rotate":"180",重启软件后生效。 10.设备损坏怎么办?保修嘛? 保修期一年,人为损坏不退换 11.摄像头范围能不能改? 可以,但是不建议改交互范围,范围过大容易误触发交互,如需修改可以更改aiui.cfg中"cam\_clip\_left":"0.2", "cam\_clip\_right":"0.2", "cam\_clip\_top":"0.1", "cam\_clip\_bottom":"0.1"(图片裁剪左侧20%,右侧20%,顶部10%,底部10%) 12.如何获取有相关人脸点位和关键点的值嘛? aiui.cfg中"uart\_throw\_face":false,改为true,"uart\_throw\_face\_step":3为每隔多少帧图片获取一次,建议默认3,不用更改 12.鲁班猫4的官方资料在哪可以查看? https://doc.embedfire.com/linux/rk356x/quick_start/zh/latest/quick_start/lubancat/lubancat4.html # 九.硬件结构及开箱体验视频 https://www.yuque.com/iflyaiui/zzoolv/sykxch9g9qdkpvym
admin
2024年8月29日 10:22
转发文档
收藏文档
上一篇
下一篇
手机扫码
复制链接
手机扫一扫转发分享
复制链接
Markdown文件
分享
链接
类型
密码
更新密码