机器人超脑平台
平台简介
成为超脑平台用户
讯飞超脑板
产品规格
开发指南
标准协议
使用手册
环境准备
数据采集
应用算法
应用实例
镜像导出
镜像烧录
错误码
算法配置表
机器人多模态交互开发套件
多模态交互套件产品白皮书
多模态交互套件快速体验
多模态套件平台功能使用手册
多模态交互套件开发手册
常见问题与解答
智能语音背包
智能语音背包产品白皮书
智能语音背包产品规格书
智能语音背包产品快速体验
智能语音背包产品开发手册
联系方式
服务条款
超脑平台服务协议
超脑平台隐私政策
本文档使用 MrDoc 发布
-
+
首页
算法配置表
| 来源 | 分类 | 能力 | 超脑板裸板 | 超脑基础开发板 | 超脑评估套件 | 超脑智能车套件 | 四足狗开发套件 | 说明 | |----|------|-----------|-------|---------|--------|---------|---------|--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------| | 开源 | 图像识别 | 人脸检测 | ⭕ | ⭕ | ⭕ | ⭕ | ⭕ | | | | | 人脸跟踪 | ⭕ | ⭕ | ⭕ | ⭕ | ⭕ | | | | | 人脸人体联合检测 | ⭕ | ⭕ | ⭕ | ⭕ | ⭕ | | | | | 人脸人体联合跟踪 | ⭕ | ⭕ | ⭕ | ⭕ | ⭕ | | | | | 手势识别 | ⭕ | ⭕ | ⭕ | ⭕ | ⭕ | | | | | 手部关键点检测跟踪 | ⭕ | ⭕ | ⭕ | ⭕ | ⭕ | | | | | 通用物体识别 | ⭕ | ⭕ | ⭕ | ⭕ | ⭕ | | | | 运动 | SLAM-单线 | ⭕ | ⭕ | ⭕ | ⭕ | ⭕ | | | | | SLAM-多线 | ⭕ | ⭕ | ⭕ | ⭕ | ⭕ | | | | | 路径规划 | ⭕ | ⭕ | ⭕ | ⭕ | ⭕ | | | 讯飞 | 图像识别 | 人脸检测 | | ⭕ | ⭕ | ⭕ | ⭕ | 对图像中所有人脸进行实时检测和定位,支持多人检测 | | | | 人脸跟踪 | | | ⭕ | ⭕ | ⭕ | 对图像中所有人脸进行实时检测、定位和跟踪,支持单人或指定区域中跟踪 | | | | 人脸人体联合检测 | | | ⭕ | ⭕ | ⭕ | 对图像中所有人脸、人体进行实时检测和定位,支持多人检测 | | | | 人脸人体联合跟踪 | | | ⭕ | ⭕ | ⭕ | 对图像中所有人脸、人体进行实时检测、定位和跟踪,支持多人跟踪 | | | | 人脸标定 | | | ⭕ | ⭕ | ⭕ | 对图像中指定人脸进行分析,获得五官及轮廓68关键点位置坐标、眼部及嘴部的可见状态、开闭状态、头姿角度、人脸质量得分、人脸模糊得分等 | | | | 人类姿态识别 | | | ⭕ | ⭕ | ⭕ | 对图像中人体进行实时坐姿和行为检测,包括坐姿检测、趴桌、弯腰驼背、双手下垂、持续书写、翻书、玩电子产品等一系列行为 | | | | 手势识别 | | ⭕ | ⭕ | ⭕ | ⭕ | 对图像中的手势进行实时检测,根据距离远近分为近场手势识别(<1米)和远场手势识别(1~5米),根据内容来源是图片和视频分析分为动态手势识别和静态手势识别。 | | | | 手部关键点检测跟踪 | | | ⭕ | ⭕ | ⭕ | 支持手部21个关键点位的检测跟踪 | | | | 通用物体识别 | | | ⭕ | ⭕ | ⭕ | | | | 语音交互 | VTN | ⭕ | ⭕ | ⭕ | ⭕ | ⭕ | 前端声学包含去混响,降噪、回声消除、声源定位等算法,前端算法处理可提高信噪比,进而提高唤醒率和识别率。支持丰富的麦克风阵列算法,包括线性2、4、6麦和环形3、4、6麦,以满足不同场景的降噪需求。喇叭播报音频会被麦克风录制,叠加人声后,降低识别率。回声消除算法抑制麦克风音频中的喇叭声,提高识别率。声波在室内传播时,被墙壁反射形成反射声,并和直达声叠加,构成混响。去混响算法消减声音中的反射声,提升声音的清晰度。降噪算法抑制背景噪声,从而提升唤醒率和识别率。 | | | | 声源定位 | ⭕ | ⭕ | ⭕ | ⭕ | ⭕ | 分析多个麦克风声音的时延来确认声音的方位。广泛应用于服务机器人行业、会议系统等场景。通过确认说话人的位置,以便面向目标对象进行服务。 | | | | 语音唤醒 | ⭕ | ⭕ | ⭕ | ⭕ | ⭕ | 语音唤醒是指通过3-6个音节的唤醒词,将设备从休眠状态变成识别状态,讯飞唤醒算法具有低功耗,高唤醒率的特点,可自定义唤醒词,单个应用支持300个唤醒词结合离在线语音交互场景同时使用,可以做到设备达到“免唤醒”语音交互的效果。 | | | | 性别年龄检测 | ⭕ | ⭕ | ⭕ | ⭕ | ⭕ | 通过音频属性检测,判断出说话人的性别(男、女)和年龄范围(儿童、成人、老人)。 | | | | 语音识别 | ⭕ | ⭕ | ⭕ | ⭕ | ⭕ | 语音识别将声音转换为文本,讯飞支持24种方言和1个民族语言,提供四川话、广东话与普通话的混合识别。 | | | | 语义理解 | ⭕ | ⭕ | ⭕ | ⭕ | ⭕ | 超脑平台集成AIUI,内置200+官方技能,支持自定义技能问答、满足语音交互个性化业务,同时内容信源丰富,拥有正版TME音乐、喜马拉雅内容,支持接入外网信源。默认只支持中文语义理解。 | | | | 语音合成 | ⭕ | ⭕ | ⭕ | ⭕ | ⭕ | 语音合成(TTS)指将文字转化为声音,讯飞有多个发音人。支持中英粤多语种、川豫多方言、男女声,另外支持动态调整音量、语速、音调,同时提供定制发言人。默认只支持免费发言人。 | | | | 多模态降噪 | | | ⭕ | ⭕ | ⭕ | 多模态降噪技术是面向嘈杂人声环境,通过摄像头检测人脸唇形,结合语音、能量判断是否说话、谁在说话、说的内容是什么,提高多人、嘈杂场景的语音识别率。 | | | | 语义理解-大模型 | | | ⭕ | ⭕ | ⭕ | 超脑平台接入讯飞星火认知大模型,支持深度语义理解和知识应用、多轮对话的自主引导、基于文档知识的快速学习、基于海量用户修正的学习进化和基于行业话术和知识的学习训练。相比于传统语义理解,有更好的交互效果、更快的开发效率和更优的知识内容。 | | | 运动导航 | SLAM | | | | ⭕ | ⭕ | 提供基于激光雷达加IMU的激光SLAM方案,实现机器人工作场景的智能建图、自主定位与导航避障能力。 | | | | 路径规划 | | | | ⭕ | ⭕ | 基于SLAM实现机器人的定位与地图构建,实现机器人从起始点到终点的最优行走路径的规划。 | | | | 姿态控制 | | | | | ⭕ | 通过讯飞仿真训练平台训练的AI算法赋予了机器人多场景下的复杂运动能力。 |
admin
2023年8月25日 15:11
转发文档
收藏文档
上一篇
下一篇
手机扫码
复制链接
手机扫一扫转发分享
复制链接
Markdown文件
分享
链接
类型
密码
更新密码