1. 什么是机器人超脑平台
讯飞机器人超脑平台依托科大讯飞超脑2030技术底座,面向物理世界、数字世界和元宇宙,推出以AI能力星云、多模态交互、智能运动、模型训练、资产生成和软硬件接入为核心的机器人开发平台,帮助开发者快速搭建懂知识、善学习、能进化的实体机器人和虚拟数字人产品,让机器人走进每个行业和家庭。
2. 平台结构
3.平台能力
平台提供丰富的机器人AI能力,包括感知、交互和运动能力,以及配套的应用平台。
感知能力
以人为中心的识别
人脸检测:对图像中所有人脸进行实时检测和定位,支持多人检测
人脸跟踪:对图像中所有人脸进行实时检测、定位和跟踪,支持单人或指定区域中跟踪
人脸人体联合检测:对图像中所有人脸、人体进行实时检测和定位,支持多人检测
人脸人体联合跟踪:对图像中所有人脸、人体进行实时检测、定位和跟踪,支持多人跟踪
人脸标定:对图像中指定人脸进行分析,获得五官及轮廓68关键点位置坐标、眼部及嘴部的可见状态、开闭状态、头姿角度、人脸质量得分、人脸模糊得分等
人类姿态识别:对图像中人体进行实时坐姿和行为检测,包括坐姿检测、趴桌、弯腰驼背、双手下垂、持续书写、翻书、玩电子产品等一系列行为
以手为中心的识别
- 手势识别:对图像中的手势进行实时检测,根据距离远近分为近场手势识别(<1米)和远场手势识别(1~5米),根据内容来源是图片和视频分析分为动态手势识别和静态手势识别。
- 手部关键点检测跟踪:支持手部21个关键点位的检测跟踪
以物为中心的识别
- 通用物体识别:面向家居场景下常见物体识别
交互能力
前端声学
前端声学包含去混响,降噪、回声消除、声源定位等算法,前端算法处理可提高信噪比,进而提高唤醒率和识别率。
麦克风阵列
平台支持丰富的麦克风阵列算法,包括线性2、4、6麦和环形3、4、6麦,以满足不同场景的降噪需求。回声消除
喇叭播报音频会被麦克风录制,叠加人声后,降低识别率。回声消除算法抑制麦克风音频中的喇叭声,提高识别率。去除混响技术
声波在室内传播时,被墙壁反射形成反射声,并和直达声叠加,构成混响。去混响算法消减声音中的反射声,提升声音的清晰度。噪音抑制
降噪算法抑制背景噪声,从而提升唤醒率和识别率。声源定位
分析多个麦克风声音的时延来确认声音的方位。广泛应用于服务机器人行业、会议系统等场景。通过确认说话人的位置,以便面向目标对象进行服务。
多模态降噪
多模态降噪技术是面向嘈杂人声环境,通过摄像头检测人脸唇形,结合语音、能量判断是否说话、谁在说话、说的内容是什么,提高多人、嘈杂场景的语音识别率。
语音唤醒
语音唤醒是指通过3-6个音节的唤醒词,将设备从休眠状态变成识别状态,讯飞唤醒算法具有低功耗,高唤醒率的特点,可自定义唤醒词,单个应用支持300个唤醒词结合离在线语音交互场景同时使用,可以做到设备达到“免唤醒”语音交互的效果。
性别年龄检测
通过音频属性检测,判断出说话人的性别(男、女)和年龄范围(儿童、成人、老人)。
语音识别
语音识别将声音转换为文本,讯飞支持24种方言和1个民族语言,提供四川话、广东话与普通话的混合识别。
语义理解
超脑平台集成AIUI,内置200+官方技能,支持自定义技能问答、满足语音交互个性化业务,同时内容信源丰富,拥有正版TME音乐、喜马拉雅内容,支持接入外网信源。
超脑平台接入讯飞星火认知大模型,支持深度语义理解和知识应用、多轮对话的自主引导、基于文档知识的快速学习、基于海量用户修正的学习进化和基于行业话术和知识的学习训练。相比于传统语义理解,有更好的交互效果、更快的开发效率和更优的知识内容。
语音合成
语音合成(TTS)指将文字转化为声音,讯飞有多个发音人。支持中英粤多语种、川豫多方言、男女声,另外支持动态调整音量、语速、音调,同时提供定制发言人。
运动能力
通过高低实时混合架构,打造集理解决策、运动步态控制、室内外导航等为一体的大小脑协同方案。其中交互大脑复杂组合导航,障碍物检测和路径规划,运动小脑负责姿态检测、电机速度检测与控制和应急常见检测与处理。
SLAM
提供基于激光雷达加IMU的激光SLAM方案和深度相机加IMU的视觉SLAM方案,实现机器人工作场景的智能建图、自主定位与导航避障能力。
路径规划
基于SLAM实现机器人的定位与地图构建,实现机器人从起始点到终点的最优行走路径的规划。
姿态控制
通过讯飞仿真训练平台训练的AI算法赋予了机器人多场景下的复杂运动能力。
模型训练
提供多种模型训练方式,满足各类模型需求者,从零基础到专业用户, 都能用AI模型点亮机器人智能。
预训练模型
针对各种通用场景,提供已完成训练的各类模型成品,直接配置到应用提供服务。
小样本自训练
提供模型自训练平台和模型基座,只需提供少量样本,即可在通用模型基础上自动化进行强化学习,生成可配置到应用的个性化模型。
云端模型训练
提供云端服务器算力和模型训练框架,低成本上手进行自主模型训练,不受模型种类和训练方式限制。
应用平台
IoT管理
为设备提供安全可靠的连接通信能力,向下连接海量设备,支撑设备数据采集上云;向上提供云端API,服务端通过调用云端API将指令下发至设备端,实现远程控制。
音视频通话
提供高品质、低延时、高清流畅、简单易用、安全稳定的实时音视频通信服务。
4.软硬件一体接入方式
依托云端协同和生态整合,提供丰富的软硬一体化解决方案,实现开箱即用。
讯飞超脑SDK
基于ROS规范,以Node为单位的模块化设计,每一个Node为一个AIKit实例,支持模块级功能扩展,支持ROS1和ROS2。
讯飞超脑板
集成感知、交互和运动控制算法,支持物联网和音视频通话的软硬件一体模组,通过搭配不同传感器和机器人本体实现不同的功能,支持二次开发。
整机开发套件
提供多款整机开发套件、搭配讯飞超脑算法,快速验证业务场景。包括四足仿生机器狗、轮式机器人、机械臂和智能交互机。
5.产品应用
实体机器人
平台提供多种实体机器人产品和解决方案
四足机器人
基于讯飞机器人超脑模块打造的智能仿生四足机器狗,保留经典运动算法的同时,通过 讯飞仿真训练平台训练的AI算法赋予了机器狗多场景复杂的运动能力,运动更加智能。
智能驾驶小车
集成激光雷达、广角相机、高精度惯导模块等传感器,同时预留丰富的传感器接口。开发者可轻松获取激光点云、姿态和图像数据进行SLAM和路径规划的应用和算法实践。
弈棋机器人
讯飞玄机弈棋机器人是一款面向围棋教学、训练和娱乐领域的智能机器人,集成了感知智能、认知智能和运动智能领域的多项技术,拥有丰富的围棋规则和礼仪知识,具备超越人类顶级棋手的对弈水平。
书法机械臂
一款机械臂柔顺控制产品,通过学习人类毛笔书法的力度和轨迹,并复现出整体的轨迹效果,应用在书法展示和教学上。
测试机械臂
可以模拟产品的重复开合动作、重复按压、摩擦等操作、跌落测试等。
桌面机械臂
桌面消费级 4 自由度机械臂实践平台,帮助学习运动规划等知识,同时拥有视觉伺服能力,可以进行目标的分类、位置捕捉与抓取。
实训方案
提供面向人工智能综合方向的实验资源体系和贯穿实践教学生命周期的服务,打造感知、运动和认知于一体的人工智能与机器人实训基地。
虚拟人
平台提供多种包括音视频播报员、直播交互主播和虚拟人办公助手等虚拟人产品和解决方案。