机器人超脑平台
平台简介
成为超脑平台用户
讯飞超脑板
产品规格
开发指南
标准协议
使用手册
环境准备
数据采集
应用算法
应用实例
镜像导出
镜像烧录
错误码
算法配置表
机器人多模态交互开发套件
多模态交互套件产品白皮书
多模态交互套件使用手册
多模态交互套件开发手册
多模态交互套件视频传输协议
多模态交互套件串口通信协议
联系方式
服务条款
超脑平台服务协议
超脑平台隐私政策
本文档使用 MrDoc 发布
-
+
首页
多模态交互套件使用手册
AIUI机器人多模态套件开发文档 ## 目录 一、编写目的 二、包装清单及实体图 三、支持功能 四、使用指南 4.1多模态体验 4.1.1接线 4.1.2设备联网 4.1.3多模态软件体验 4.1.4合成播报(需接扬声器) 4.2客户集成 4.2.1工作模式1:作为输出语音交互结果从机模式 4.2.2工作模式2:作为AI工控机主机模式 4.3多模态交互自定义 4.3.1创建账号和应用 4.3.2机器人动作指令技能实现 4.3.3设备人设和文档问答 4.3.4应用配置和模拟测试 4.3.5多模态套件效果体验 4.4设备安装指导 4.4.1场景说明 4.4.2USB声卡回采接入 五、常见问题 # 一.编写目的 本文档旨在让用户快速体验和项目接入AIUI多模态交互开发套件。开发者可结合本文档和多模态开箱视频实现快速接入: https://www.yuque.com/iflyaiui/zzoolv/sykxch9g9qdkpvym?singleDoc# 《机器人多模态交互套件结构及开箱体验视频》, 视频包含: 1、结构3D文件 2、包装清单和实体介绍 3、接线指导 4、多模态软件体验 5、机器人技能、设备人设和文档问答使用 # 二.包装清单及实体图 ![](/media/202411/2024-11-19_110740_5313260.006839858790872566.png) AIUI多模态交互产品配件说明说明(依次编号) ![](/media/202411//1731985596.4440079.png) ![](/media/202411//1731985596.4496024.png) ![](/media/202411//1731985596.454237.png) ![](/media/202411//1731985596.4638088.png) # 三、支持功能 ![](/media/202411/2024-11-19_110827_5761440.5786179606764537.png) # 四、使用指南 ## 4.1多模态体验 ### 4.1.1接线 ![5d280a7509e0b5017df524694d2eabe](/media/202411//1731985596.4731166.png) 详细设备接线可参考视频: ### 4.1.2设备联网 设备接线后需要语音盒子联网,语音模组支持网口通过网线联网,无线联网需要单独购买usb无线网卡或者usb sim卡。 * 可以连接网线 * 使用sim卡 * 连接无线网卡,wifi配网,支持网卡型号:https://www.yuque.com/iflyaiui/zzoolv/mzun2fofa4i5it65?singleDoc# 《鲁班猫3588无线网卡》 ### 4.1.3多模态软件体验 #### 4.1.3.1投屏软件体验 通过typec调试线连接笔记本和鲁班猫主板,使用投屏软件scrcpy-win64-v1.16(https://www.yuque.com/iflyaiui/zzoolv/omi0z4?singleDoc# 《设备投屏》) 在笔记本上投屏显示操作 ![1731584985905](/media/202411//1731985596.4838862.png) 投屏软件scrcpy-win64-v1.16 第一步:按住鼠标左键上划到此界面,找到AIUIService\_Jniver软件,打开图中红框的体验应用 ![4df0f8b930896052456079c887039ba](/media/202411//1731985596.4872665.jpeg) 第二步:鼠标点击图像转换后预览 ![](/media/202411/2024-11-21_134628_3507990.21606723846650278.jpeg) 第三步:进入体验界面,人脸框住时可开始交互,人脸框住为主说话人 ![7787183b839fef3c891e7aee3cb079c](/media/202411//1731985596.4927769.jpeg) 摄像头和麦克风固定放置 ![](/media/202411/2024-11-19_142944_1785210.24973768802796092.jpeg) #### 4.1.3.2HDMI体验 用hdmi线接显示器,用鼠标接鲁班猫主板,鼠标点击操作,后续操作同方式一。 ### 4.1.4合成播报(需接扬声器) 盒子默认输出播报音频,需要通过3.5mm音频口,接耳机或者音箱体验。 ## 4.2客户集成 ### 4.2.1工作模式1:作为输出语音交互结果从机模式 多模态套件实现录音、多模态降噪和云端语音服务交互,云端下发识别和语义结果到多模态套件,套件再通过socket协议将语音唤醒、识别、语义等结果发送给上位机,同时我们也支持将多模态的视频和音频信息发送给上位机。 集成方式需上位机建立socket客户端,和盒子建立链接后,盒子主动推动交互结果数据,上位机接收并解析。 ![](/media/202411/2024-11-19_134525_3691480.273935366460791.jpeg) 上位机获取语音交互信息我们提供了示例demo参考: https://www.yuque.com/iflyaiui/zzoolv/xk9rpv?singleDoc# 《多模态 Demo下载》 -- 鲁班猫Socket 通信(识别、语义、唤醒/音频/视频) **上位机合成播报实现** 精品发音人合成参考 :https://aiui-doc.xf-yun.com/project-1/doc-17/ 超拟人发音人合成参考:https://aiui-doc.xf-yun.com/project-1/doc-407/ 通过调用AIUI语音合成服务实现合成播报。 **上位机语音交互界面参考** 上位机语音交互界面,建议显示语音识别、语义理解、视频信息和常见示例说法,下图交互界面仅供参考。 ![](/media/202411//1731985596.5215468.png) ### 4.2.2工作模式2:作为AI工控机主机模式 多模态套件自身具备语音交互全链路能力,内置的语音交互预览应用,接显示屏后可显示语音交互内容。 ![1731978356334](/media/202411//1731985596.5247662.png) ![21d20081e6f6cf9db98837b42fb19b0](/media/202411//1731985596.52729.png) ## 4.3多模态交互自定义 如实现机器人动作指令语音、设备人设和知识问答等业务,需要申请AIUI平台账号和应用配置自定义技能、官方技能、设备人设和文档问答。 ### 4.3.1创建账号和应用 注册AIUI账号 进入平台注册账号:[https://aiui.xfyun.cn/user/register] 注意: 1. 用关键人员手机注册账号,避免人员变动风险 2. 每个客户或产品单独创建appid ### 4.3.2动作指令技能实现 以下示例实现机器人 打个招呼、拿物品和握手等动作实现 机器人动作指令语义实现: ![](/media/202411//1731985596.5321379.png) 机器人动作指令技能实现视频:https://www.yuque.com/iflyaiui/zzoolv/sykxch9g9qdkpvym?singleDoc# 《机器人多模态交互套件结构及开箱体验视频》第四章节(机器人技能、设备人设和文档问答使用) ### 4.3.3设备人设和文档问答 (1)设备人设: 设备人设创建:点击自定义业务中的设备人设-->新增设备人设-->输入名称点击创建 ![](/media/202411//1731985596.5351455.png) 进入创建的设备人设中可以选择填写属性配置,创建属于自己的设备人设,点击构建。 ![](/media/202411//1731985596.5387762.png) (2)知识问答: 进入自定义业务中的大模型知识库问答创建问答库 ![](/media/202411//1731985596.541328.png) 设备人设和文档问答实现视频:https://www.yuque.com/iflyaiui/zzoolv/sykxch9g9qdkpvym?singleDoc# 《机器人多模态交互套件结构及开箱体验视频》第四章节(机器人技能、设备人设和文档问答使用) ### 4.3.4应用配置和模拟测试 进入我的应用--应用配置中 勾选动作指令技能和设备人设,也可以勾选更多官方技能如天气、新闻、航班等。 ![69683cb4e7e13144db70e6c560d35da](/media/202411//1731985596.5448284.png) 开通星火交互大模型和勾选文档问答 ![4ca488ab37797e8072d94f67490b2fc](/media/202411//1731985596.548426.png) 模拟测试 ![8036d0799054ee94a5898183799ad07](/media/202411//1731985596.551115.png) ### 4.3.5多模态套件效果体验 说明:平台上设备人设、自定义技能、文档问答等配置完成且在平台模式测试过后再进行盒子上语音体验交互。 (1)切换appid https://www.yuque.com/iflyaiui/zzoolv/eegd2u3m3xgoouvz?singleDoc# 《RK3588appid切换以及授权说明》 若发现更换appid后发现模组预览demo,摄像头黑屏。 检查模组右下角版本号白字信息,截图发送讯飞相关人员,联系讯飞技术支持开通多模态授权。 (2)体验 可以看到我们刚配置的技能、设备人设和文档库问答。 ![4461009db76a0056c8bcecd441330b5](/media/202411//1731985596.5544755.png) ## 4.4设备安装指导 ### 4.4.1场景说明 机器人高度在1.6米2.1米,建议在距离机器人1.5米至3米的位置进行语音交互。麦克风及摄像头水平方向安装,需要根据设备实际高度调整倾斜角度,且摄像头放在麦克风板的居中位置。 ![IMG_256](/media/202411//1731985596.5594532.png) 机器人确认麦克风和摄像安装位置后,麦克风安装时需要关注麦克风和整机结构设计,做好减震,麦克风气密性、防尘等结构。详细见:https://www.yuque.com/iflyaiui/zzoolv/nfbssn?singleDoc# 《结构设计参考》 ### 4.4.2USB声卡回采接入 多模态usb声卡支持回采接入,详细说明见:https://www.yuque.com/iflyaiui/zzoolv/rf2ggax8bsxpyp0o?singleDoc# 《usb声卡回采接入说明》 # 五、常见问题 1、adb如何使用? 需要接typec调试线,https://www.yuque.com/iflyaiui/zzoolv/vefaow?singleDoc# 《adb安装与使用》。 2、设备能识别到人脸,但说话无识别内容? 1、检查下设备是否具备网络,设置 — 高级设置 — dhcp — 查看网络的ip地址是否获取到了; 2、查看下设备的时间是否正确,时间若不正确,鉴权会失败,则无法交互。 3、摄像头黑屏? 1、检查网络是否正常,打开浏览器访问外网 2、打开系统相机是否正常,确保摄像头本身无问题 4、开启盒子调试模式后导致内存满了无法进入系统? ****第一步****:用Type\_c链接上 使用adb命令 adb devices是否有识别。 ****第二步****:若adb devices没有设备,则插入Type-c,重启盒子就会有adb链接。 ****第三步****:有adb 链接后,adb shell进入盒子链接。 ****第四步****:在adb shell中 输入df 看是不是data目录满载。也是存储100%了。 ****第五步****:若data是100%储存了,则输入 /data/media/0/AIUI/mmsp/data。 ****第六步****: cd到此目录下后 ls -ls查看是否具有很多 data137 dataxxx文件。 ****第七步****:将这些文件全部删除。 ****第八步****: 删除后cd 到 /data/media/0/AIUI/mmsp/cfg目录下。 ****第九步****: 输入adb reboot 重启盒子即可 5、视频预览界面状态码? audio\_state:0声卡打开,-1失败,-999未初始化状态 video\_state: 0摄像头打开,-1失败,-999未初始化状态 engine\_state:10010,未授权 多模态初始化状态,错误码参照文档 mic\_test:音频写入过程状态码,参照文档 6、错误码信息在哪里查看? https://www.yuque.com/iflyaiui/zzoolv/igbuol?singleDoc# 《错误码和解决方案》 7、摄像头安装反了,可以通过软件调整角度嘛? 可以,可以修改aiui.cfg中的字段”cam\_rotate”:”0”修改角度,如旋转180度则改为”cam\_rotate”:”180”,重启软件后生效。 8、能不能使用自购的摄像头和麦克风? 多模态算法与摄像头和麦克风强相关,自购摄像头无法保障成像质量和录音质量,需要客户自己保障硬件质量,讯飞不负责整体效果。 9、摄像头范围能不能改? 可以,但是不建议改交互范围,范围过大容易误触发交互,如需修改可以更改aiui.cfg中”cam\_clip\_left”:”0.2”, “cam\_clip\_right”:”0.2”, “cam\_clip\_top”:”0.1”, “cam\_clip\_bottom”:”0.1”(图片裁剪左侧20%,右侧20%,顶部10%,底部10%)。 10、多人多模态切换成单人多模态? 修改配置文件sdcard/AIUI/mmsp/mmsp.cfg "instance_count":3 代表3个人 "instance_count":1 代表1个人
admin
2024年11月21日 13:49
转发文档
收藏文档
上一篇
下一篇
手机扫码
复制链接
手机扫一扫转发分享
复制链接
Markdown文件
分享
链接
类型
密码
更新密码