机器人超脑平台
平台简介
成为超脑平台用户
讯飞超脑板
产品规格
开发指南
标准协议
使用手册
环境准备
数据采集
应用算法
应用实例
镜像导出
镜像烧录
错误码
算法配置表
机器人多模态交互开发套件
多模态交互套件产品白皮书
多模态交互套件使用手册
多模态交互套件开发手册
多模态交互套件视频传输协议
多模态交互套件串口通信协议
多模态交互套件音频传输协议
联系方式
服务条款
超脑平台服务协议
超脑平台隐私政策
本文档使用 MrDoc 发布
-
+
首页
算法配置表
| 来源 | 分类 | 能力 | 超脑板裸板 | 超脑基础开发板 | 超脑评估套件 | 超脑智能车套件 | 四足狗开发套件 | 说明 | |----|------|-----------|-------|---------|--------|---------|---------|--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------| | 开源 | 图像识别 | 人脸检测 | ⭕ | ⭕ | ⭕ | ⭕ | ⭕ | | | | | 人脸跟踪 | ⭕ | ⭕ | ⭕ | ⭕ | ⭕ | | | | | 人脸人体联合检测 | ⭕ | ⭕ | ⭕ | ⭕ | ⭕ | | | | | 人脸人体联合跟踪 | ⭕ | ⭕ | ⭕ | ⭕ | ⭕ | | | | | 手势识别 | ⭕ | ⭕ | ⭕ | ⭕ | ⭕ | | | | | 手部关键点检测跟踪 | ⭕ | ⭕ | ⭕ | ⭕ | ⭕ | | | | | 通用物体识别 | ⭕ | ⭕ | ⭕ | ⭕ | ⭕ | | | | 运动 | SLAM-单线 | ⭕ | ⭕ | ⭕ | ⭕ | ⭕ | | | | | SLAM-多线 | ⭕ | ⭕ | ⭕ | ⭕ | ⭕ | | | | | 路径规划 | ⭕ | ⭕ | ⭕ | ⭕ | ⭕ | | | 讯飞 | 图像识别 | 人脸检测 | | ⭕ | ⭕ | ⭕ | ⭕ | 对图像中所有人脸进行实时检测和定位,支持多人检测 | | | | 人脸跟踪 | | | ⭕ | ⭕ | ⭕ | 对图像中所有人脸进行实时检测、定位和跟踪,支持单人或指定区域中跟踪 | | | | 人脸人体联合检测 | | | ⭕ | ⭕ | ⭕ | 对图像中所有人脸、人体进行实时检测和定位,支持多人检测 | | | | 人脸人体联合跟踪 | | | ⭕ | ⭕ | ⭕ | 对图像中所有人脸、人体进行实时检测、定位和跟踪,支持多人跟踪 | | | | 人脸标定 | | | ⭕ | ⭕ | ⭕ | 对图像中指定人脸进行分析,获得五官及轮廓68关键点位置坐标、眼部及嘴部的可见状态、开闭状态、头姿角度、人脸质量得分、人脸模糊得分等 | | | | 人类姿态识别 | | | ⭕ | ⭕ | ⭕ | 对图像中人体进行实时坐姿和行为检测,包括坐姿检测、趴桌、弯腰驼背、双手下垂、持续书写、翻书、玩电子产品等一系列行为 | | | | 手势识别 | | ⭕ | ⭕ | ⭕ | ⭕ | 对图像中的手势进行实时检测,根据距离远近分为近场手势识别(<1米)和远场手势识别(1~5米),根据内容来源是图片和视频分析分为动态手势识别和静态手势识别。 | | | | 手部关键点检测跟踪 | | | ⭕ | ⭕ | ⭕ | 支持手部21个关键点位的检测跟踪 | | | | 通用物体识别 | | | ⭕ | ⭕ | ⭕ | | | | 语音交互 | VTN | ⭕ | ⭕ | ⭕ | ⭕ | ⭕ | 前端声学包含去混响,降噪、回声消除、声源定位等算法,前端算法处理可提高信噪比,进而提高唤醒率和识别率。支持丰富的麦克风阵列算法,包括线性2、4、6麦和环形3、4、6麦,以满足不同场景的降噪需求。喇叭播报音频会被麦克风录制,叠加人声后,降低识别率。回声消除算法抑制麦克风音频中的喇叭声,提高识别率。声波在室内传播时,被墙壁反射形成反射声,并和直达声叠加,构成混响。去混响算法消减声音中的反射声,提升声音的清晰度。降噪算法抑制背景噪声,从而提升唤醒率和识别率。 | | | | 声源定位 | ⭕ | ⭕ | ⭕ | ⭕ | ⭕ | 分析多个麦克风声音的时延来确认声音的方位。广泛应用于服务机器人行业、会议系统等场景。通过确认说话人的位置,以便面向目标对象进行服务。 | | | | 语音唤醒 | ⭕ | ⭕ | ⭕ | ⭕ | ⭕ | 语音唤醒是指通过3-6个音节的唤醒词,将设备从休眠状态变成识别状态,讯飞唤醒算法具有低功耗,高唤醒率的特点,可自定义唤醒词,单个应用支持300个唤醒词结合离在线语音交互场景同时使用,可以做到设备达到“免唤醒”语音交互的效果。 | | | | 性别年龄检测 | ⭕ | ⭕ | ⭕ | ⭕ | ⭕ | 通过音频属性检测,判断出说话人的性别(男、女)和年龄范围(儿童、成人、老人)。 | | | | 语音识别 | ⭕ | ⭕ | ⭕ | ⭕ | ⭕ | 语音识别将声音转换为文本,讯飞支持24种方言和1个民族语言,提供四川话、广东话与普通话的混合识别。 | | | | 语义理解 | ⭕ | ⭕ | ⭕ | ⭕ | ⭕ | 超脑平台集成AIUI,内置200+官方技能,支持自定义技能问答、满足语音交互个性化业务,同时内容信源丰富,拥有正版TME音乐、喜马拉雅内容,支持接入外网信源。默认只支持中文语义理解。 | | | | 语音合成 | ⭕ | ⭕ | ⭕ | ⭕ | ⭕ | 语音合成(TTS)指将文字转化为声音,讯飞有多个发音人。支持中英粤多语种、川豫多方言、男女声,另外支持动态调整音量、语速、音调,同时提供定制发言人。默认只支持免费发言人。 | | | | 多模态降噪 | | | ⭕ | ⭕ | ⭕ | 多模态降噪技术是面向嘈杂人声环境,通过摄像头检测人脸唇形,结合语音、能量判断是否说话、谁在说话、说的内容是什么,提高多人、嘈杂场景的语音识别率。 | | | | 语义理解-大模型 | | | ⭕ | ⭕ | ⭕ | 超脑平台接入讯飞星火认知大模型,支持深度语义理解和知识应用、多轮对话的自主引导、基于文档知识的快速学习、基于海量用户修正的学习进化和基于行业话术和知识的学习训练。相比于传统语义理解,有更好的交互效果、更快的开发效率和更优的知识内容。 | | | 运动导航 | SLAM | | | | ⭕ | ⭕ | 提供基于激光雷达加IMU的激光SLAM方案,实现机器人工作场景的智能建图、自主定位与导航避障能力。 | | | | 路径规划 | | | | ⭕ | ⭕ | 基于SLAM实现机器人的定位与地图构建,实现机器人从起始点到终点的最优行走路径的规划。 | | | | 姿态控制 | | | | | ⭕ | 通过讯飞仿真训练平台训练的AI算法赋予了机器人多场景下的复杂运动能力。 |
admin
2023年8月25日 15:11
转发文档
收藏文档
上一篇
下一篇
手机扫码
复制链接
手机扫一扫转发分享
复制链接
Markdown文件
分享
链接
类型
密码
更新密码