高端装备制造：人形机器人感知硬件专题研究.docx

资源描述

《高端装备制造：人形机器人感知硬件专题研究.docx》由会员分享，可在线阅读，更多相关《高端装备制造：人形机器人感知硬件专题研究.docx（23页珍藏版）》请在课桌文档上搜索。

1、高端装备制造：人形机器人感知硬件专题研究人形机器人加速发展，感知能力愈发重要人形机器人迅速迭代，国内外厂商加速布局特斯拉机器人迭代迅速，历时8个月便可执行复杂动作。2022年10月，在特斯拉AIDay匕特斯拉机器人OPtimUS首次亮相，当时还需要人工推出，仅能完成简单的肢体动作。而在2023年3月的投资者日中，OPtimUS便展现了步行以及组装机器人的工作能力。到2023年5月的股东大会上，OPtimUS已经可以实现对物品的抓取等复杂动作。马斯克提出，OPtimUS将面向应用场景进行快速迭代，预计在特定应用场景将快速推出量产机型。我们认为特斯拉强大的汽车供应链有望加速Optimus量产实现。

2、特斯拉强大的供应链及解决方案有望加速人形机器人量产进程。目前人形机器人商业化量产的瓶颈主要可归结为技术、成本和应用场景三个方面。但特斯拉在三大瓶颈方面均有特有优势。1）技术方面，拥有FSD自动驾驶技术以及DOJODl超级计算芯片的特斯拉在人形运动控制、硬件执行器、运动规划算法等方面正在进行广泛深入的底层研究；2）成本方面：研发团队在设计阶段已充分考虑量产阶段的降本可行性，例如高度集成的电池、6种执行器等，强大供应链保障有望降低量产成本；3）应用场景：特斯拉汽车工厂将为人形机器人提供巨大的试验田，早期版本的机器人将在工厂中进行大量训练，并不断迭代，解决了大多数厂商早期寻找应用场景这一大难题。传统

3、机器人公司技术迭代速度较慢，且并未面向应用场景设计机器人，供应链问题也导致机器人造价十分昂贵。以大家熟知的波士顿动力AtlaS为例，根据波士顿动力官网，波士顿动力的AtlaS拥有近40年的发展历史，1983年-2013年，从麻省理工LegLab走出来的Atlas基本完成了简单的肢体动作和行走能力，2016年Atlas开始具有简单的物体搬运功能，并且没有灵巧手，2019年AtlaS行走能力进一步增强，可实现后空翻等动作，并且能够识别复杂地形，2021年，AtlaS具有一定的工作能力，用简单的灵巧手搬运物体。目前，发展了40年的AtlaS仍然没有明确的应用场景，且售价十分昂贵，达到200万美元以上

4、。特斯拉或在机器人行业再次带来鱼效应。回顾新能源汽车在中国市场的发展史，特斯拉这条站鱼”对于我国新能源汽车升级与降本带来巨大推动作用。2019年1月，特斯拉上海工厂奠基，2020年1月，特斯拉上海工厂新车交付，国产版Model3售价下调，扣除补贴后，基础版车型售价从35.58万元下调至29.9万元，低廉的售价以及优良的性能对我国新能源车厂商带来了巨大冲击，迫使我国新能源车厂商降本提效，加速了新能源车行业的发展，同时也推动了我国消费者对新能源车的接受度提高。因此，我们认为特斯拉在机器人行业中也将扮演这条“贴鱼，极快的迭代速度以及可预期的低廉的售价将迫使老牌机器人厂商加速发展。新能源汽车销量（万辆

5、新能源汽车渗透率图4：特斯拉在中国建厂后，我国新能源车销量快速增长800700-600500-400-300-200-100-0-国内外巨头纷纷参股或设立人形机器人研发公司。现有人形机器人产品主要为日本本田ASIM0、美国波士顿动力Atlas、美国AgiIityRobOt、优必选Walkers、中国小米Cyberne以及特斯拉OPtimUS等。其中，日本本田、小米及特斯拉皆研发了自己的人形机器人。而波士顿动力相继辗转谷歌、软银后，目前被现代公司收购。美国AgilityRObOt的2022年B+轮融资的投资者中，出现了亚马逊及索尼。国内外巨头纷纷下场加码人形机器人，人形机器人有望迎来快速发展。国

6、内外机器人创业公司也纷纷推出人形机器人或产品。国内机器人行业创业公司如追觅科技、达网科技等先后推出自己的双足人形机器人，国内四足机器人领先企业宇树科技也在加入到人形机器人的研发中，腾讯RoboticsX实验室推出自研机器人灵巧手TRX-Hand和机械臂TRX-Arm,为其后续在机器人行业的发展作出铺垫，华为于2023年6月注册成立东莞极目机器有限公司，正式进军机器人领域，注册资本&7亿元。国外方面，OPenAI在A2轮领投挪威人形机器人公司IXTeChnologies,旨在将其强大的AI系统与实体机器人结合起来，从而为AGI的发展奠定基础。人形机器人浪潮下，类人型机器人也迎来快速发展，但人形机

7、器人仍然是各大厂商的主要目标0随着人形机器人浪潮袭来，类人型机器人如四足机器人也迎来了快速发展，成为各大厂商的必争之地，早在2021年3月腾讯便发布多模态四足机器人Max,并在2022年8月推出MaX二代，小米于2021年8月发布第一代四足机器人铁蛋，小鹏鹏行机器也于2022年7月发布首款四足机器人。此外一些在机器人领域深耕多年的创业公司也拥有自己的标杆四足机器人产品，例如宇树科技的AL云深处的绝影X20、蔚蓝科技的E系歹h优宝特的YoBoG0。国外较为出名的四足机器人有波士顿动力的Spot、HT的HyQReaI。但人形机器人相较于仿人形机器人仍有较大优势：（1）仿生步态下运动能力较传统履带/

8、四轮/双轮机器人大幅提升；（2）灵巧手可实现双手配合和工具替换，较工业机器人技能更广；（3）依靠算法能力实现复杂环境识别并实施决策。预计到2027年，全球人形机器人市场规模将达到141亿美元。根据优必选招股书，弗若斯特沙利文预计2026年全球智能服务机器人产品及解决方案的市场规模将达到676亿美元，2021年到2026年CAGR达到25%。而根据StratisticsMarketResearchConsulting数据，全球人形机器人市场规模将在2027年达到141亿美元，2020年到2027年CAGR达到58%。人形机器人是具身智能的重要裁体，AI发展赋能机器人感知人工智能的下一个浪潮将是具

9、身智能。在ITFWOrId2023半导体大会上，英伟达创始人兼首席执行官黄仁勋表示，人工智能的下一个浪潮将是具身智能，即能理解、推理、并与物理世界互动的智能系统。具身智能是具有身体体验的智能。1950年，图灵在他的论文CompiitingMachineryandInteIIigence”中首次提出了具身智能的概念。之后的几十年里，大家都觉得这是一个很重要的概念，但是由于技术限制，具身智能并未有很好的发展。从认知的角度来看，人类是第一人称视角的智能，用1963年的实验来说明，有两只猫，一直猫被绑起来，只能看这个世界，另一只猫可以主动去走。被动的猫是一种旁观的智能，而主动的猫是具身的智能。到最后，

10、这只旁观的猫失去了行走能力。当机器可以主动感知世界时，人工智能也就变成了第一人称的智能，也就无限接近于人类。具身智能由具身感知、具身想象和具身执行三个基础模块构成。上海交通大学卢策普教授在机器之心Al科技年会中提出了PIE方案，即具身感知(Perception)具身想象(Imagination)和具身执行(EXeCUtiorI)。P正方案帮助机器模拟了人类的思维及行动方式，即机器人首先需要识别物体，然后通过交互感知物体，再通过数字挛生进行仿真模拟，利用最好的结果去执行。卢教授也演示了机器人如何抓取被打碎的陶镜瓶碎片，对于不规整的碎片，机器人总是能成功抓取。作为具身智能的大脑，多模态大模型更符合

11、人类大脑接受与处理信息的方式。从人类接受信息的角度看，我们所接收到真实世界的信息来自于多模态的数据源，如语音、文本、图像等，而单模态预训练模型只涵盖了单一模态的信息，无法对人类的信息获取、环境感知、知识学习与表达的主动学习过程进行有效表达，不同模态之间的隐式交互信息并未被充分利用与学习。GPT一小步，多模态Al的一大步，GPT-4支持图片和文本类信息同时输入。GPT-4是由OPenAl发布的大型多模态模型，它不仅能与用户一起生成、编辑，完成创意的迭代和技术写作任务，更重要的是，它还能读懂图片。多模态感知是实现通用人工智能的必要条件，无论是知识/能力获取还是与现实物理世界的交互，这也是其与上一代

12、GPT的主要区别。在GPT-4中，多模态输入的图像和文本基于TranSfOrmer作为通用接口，图形感知模块与语言模块对接进行进一步计算。基于TranSfOrmer技术，GPT-I只有12层，而到了GPT-3,则增加到96层,GPT-4增加了额外的视觉语言模块，理论上具有更大的模型尺寸和输入窗口。图10：视觉与语言TranSfOrmer技术的演进2020202320142017Vision TransformerTranSfonner 类PaLM-EittAIiM语言处理MSTrantformer类架构XLNetTQnSfonner 类架构Kosmos-IRTTransfonntrGPT-2G

13、PTjGPT-4BEiT-3语言方面，以ChatGPT为代表的大模型已具备协助机器人处理语言，从而可以高效地对感知信息进行交互，如人类通过自然语言对机器人进行调试。根据微软SaiVemPrala等最新的论文：”目前的机器人需要专门的工程师不断编写新的代码来修正机器人的行为，而我们使用ChatGPT的目标是让非技术用户参与到修正过程中，通过高级语言命令与语言模型交互，无缝部署各种平台和任务。如果付诸实践，Al有望帮助编写新代码和规范来纠正机器人的行为，因此允许了不懂技术的广大用户提供反馈，轻松地与机器人互动，直到用户对机器人的处理解决方案满意为止，再将这个代码部署到机器人上，一个调试就结束了。视

14、觉方面，谷歌推出ViT统一了CV和NLP框架，用于图像识别。ViT模型将语言模型的transformer架构用于视觉模型，代替了传统的CNN,统一了CV和NLP的架构。2020年10月，谷歌推出ViSiOnTranSfOrmer(ViT)模型，证明了不使用CNN,直接将TranSfOrmer结构应用于视觉模型也可以很好地执行图像分类任务。TranSfOrmer将句子中的每个词（token）并行输入编码器，ViT直接将图像拆分为多个块，将每个块的位置和包含的图像信息当做是一个词，输入到编码器中，训练好的编码器可以将图像输出为一个包含了图像特征的编码，类似于在语言模型中将一句话输出为一个包含了语言

15、信息的编码，之后通过MLP层将编码器的输出转化为不同分类的概率。信息处理方面，算法模型与软硬件一起集成为可供机器人思考的大脑。如谷歌发布RoboCat,其基于谷歌的多模态模型Gato,可以在模拟和物理环境中处理语言、图像和动作。通过将Gato的架构与一个大型训练数据集结合起来，该数据集由各种机器人手臂的图像序列和动作组成，可以解决数百种不同的任务。RObOCat先通过机器视觉观察由人工操作的机械臂完成任务，搜集数据后通过在物理和虚拟环境中进行练习，通过练习生成新的训练数据，合并进入训练集，用于新版本的训练，从而学会此次任务。学会此次任务的RoboCat可被移植到新的机械博上，对新的机械博进行微

16、调后执行相同的任务，RoboCat在几小时内观察100O次人工演示后，可以灵巧的指挥新手臂抓取齿轮，成功率高达86%。RObOCat的出现为未来更加通用的机器人出现打下基础。人工智能要走向具身智能的交互端，必须要具备强大的感知能力。陆奇在我的大模型世界观的演讲中提到AI发展的新范式将属于行动系统。第一代系统信息对应着感知，第二代系统模型”对应着思考，第三代系统行动”对应着实现，目前GPT的快速发展让人工智能的思考以及交互能力大大提升，而TeslaBot的推出也就预示着行动”系统的量产己有眉目。但感知能力是模型和行动的基础，人形机器人终端的发展离不开感知能力的不断提升。人形机器人更加智能化，所需

17、的感知硬件远多于传统机器人人形机器人可与人体进行类比，总体分为控制、感知和执行三大环节，其中感知是控制和执行的前提，而控制和执行过程中也需要不断感知提供实时反馈。人形机器人整体可分为控制、感知和执行三大系统；控制类似于人类的大脑，对全身进行指令，在人形机器人的软件端体现为模型及算法，硬件端体现为主控芯片：感知类似于人类的各种感官神经，包括器官、神经、大脑皮层等，在人形机器人中体现为各类传感器；执行类似于骨骼肌，包括线性执行器、旋转执行器、灵巧手等。对于传统机器人而言，除编码器外，多数工业机器人不需要其他的感知硬件，部分特定种类的机器人仅需要单一感知硬件，而人形机器人则集成使用类各类感知硬件。编

18、码器是闭环控制系统的必备组成部分，用以对伺服电机的旋转角度进行检测，编码器属于感知硬件，但其本质上是机器人运动控制子系统内部的感知器件，因此成为了各类机器人运动控制的必需品。其他机器人往往仅使用较少类别的感知硬件，如协作机器人为避免伤害到工人从而使用力矩传感器做力反馈，服务机器人和移动机器人使用3D视觉传感器进行位移导航，IMU（惯性测量单元）为无人机等无人移动系统提供导航和姿态控制等。人形机器人由于其复杂的交互性，需要各类传感器的集成，己特斯拉OPtimUS为例，其感知系统至少需要视觉传感器、力（力矩）传感器、IMU（惯性测量单元）、编码器及主控芯片等感知硬件。根据特斯拉2022AIDay及

19、2023年投资者交流日信息，OPtimUS的旋转执行器由无框力矩电机+谐波减速器+双编码器+制动器+力矩传感器+低压驱动+轴承等组成，直线执行器由无框力矩电机+行星滚柱丝杠+编码器+力矩传感器+驱动器+轴承等组成，灵巧手由空心杯电机+手指紧握执行器+低压驱动+编码器组成，均需要使用大量的力矩传感器、编码器。此外，根据论文Devel。PmemandReal-TimeOptimization-basedControlofaFull-sizedHumanoidforDynamicWalkingandRunning（MinSungAhn,UCLA）所示的Artemis机器人下半身使用本体执行（半直驱）

20、机构”，脚踝位置也均需要使用力矩传感器做力反馈。以特斯拉人形机器人Optimus为例进行硬件BOM分拆成本测算，我们认为2万美元的降本目标实现可期，感知硬件成本是人形机器人运动控制零部件外的最主要环节。我们通过国内主流厂商及其相关产品的代表价格，对特斯拉人形机器人OPtimUS进行测算，测算后可得当前单台机器人的硬件的总成本约为24.7万元人民币（约合3.4万美元），该成本不含软件、研发及供应链管理，且为非量产阶段，未来量产后2万美元的降本目标实现可期。不包括旋转和线性执行器，仅感知交互系统自身硬件，就占总硬件成本的8%,力矩传感器、编码器、视觉传感、主芯片及IMU均有较高的硬件成本占比。其中

21、力矩传感器占比最高，其原因在于机器人每个关节中均要使用力矩传感器，且目前最具功能完备性的六维力传感器价格非常高，均在一千美元以上，但未来人形机器人仅在部分关节使用六维力（矩）传感器，多数关节中使用价格较低的一维力（矩）传感器，也是降本的主要方案。图22：特斯拉人形机器人各零部件成本占比测算力矩传感器无框力矩电机7% 编码器低压驱动谐波减速及制动器滚柱丝杠空心杯视觉传感主芯片及IMU 轴承动力电池紧握执行器线缆其他控制及结构件12%先非智库五类感官类比人体，相关硬件必不可少人形机器人的感知环节主要可以分为交互控制、视觉传感、力控传感、位移姿态传感及执行环节的运动控制传感，均涉

22、及相关软件算法和硬件零部件。人形机器人各个零部件环节可以形象地看作人类的大脑、眼睛、触觉、小脑、末梢神经”等，且感知环节各部分均包含软硬件算法，从硬件端来看，均在整体BoM中占据一定价值量，主要包括力矩传感器、视觉传感器、IMU等，且我国厂商有望在硬件制造端持续发力。交互控制：人形机器人的“大脑控制系统是决定机器人性能最核心的系统，一般由机器人厂商自行开发研制，目前一般智能控制及工业运动控制对于人形机器人而言均有一定的不足，人形机器人尚未形成统一且标准的控制架构。控制器主要包括硬件和软件两部分：硬件部分是工业控制板卡，包括主控单元和部分信号处理电路；软件部分主要是控制算法、二次扩展开发等。目前

23、主流的控制器包括单片机为核心的专用控制器、PLC系统为核心的控制系统以及IPC+运动控制卡等。单片机适用于智能电器等对运动控制要求较低的设备：以PLC为核心的控制系统由于其优秀的集成封装和二次开发特性，非常适用于一般的工业运动控制；PC-based控制方式基于工控机和运动控制卡，可进行更为爱杂的串联、并联控制，但不方便移动。以上主流的智能控制和工业控制方式在面对人形机器人控制的实时性、复杂性、轻量性等较高要求时均存在一定的不足，目前人形机器人尚未形成可以大规模复用且满足标准的控制系统硬件方案。机器人控制方式主要包括点位、连续轨迹、力（力矩）和智能控制等，人形机器人的控制需要将连续轨迹、力（力矩

24、）和智能控制相结合。工业机器人的控制方式主要有点位控制方式（PTP）和连续轨迹控制方式（CP）,协作机器人主要采用力（力矩）控制方式，人形机器人不仅需要连续轨迹控制和力（力矩）控制，还需要再运动过程中实时反馈视觉、语音、力触觉等信号，属于智能控制方式，因此其控制系统也更为复杂，同时需要使用更多和要求更高的控制器。主控、协调和分布控制有望成为人形机器人最主要的控制方式，因此硬件方面需要主控芯片及控制器、通信线缆以及关节分部控制器等。特斯拉投资者开放日所展示人形机器人的运动能力已完全超越普通工业及服务机器人，其同时表明OPtimUS将采用SoC主控芯片，因此，不同于其他机器人，人形机器人有望采用主

25、控、协同和分布控制对的方式，例如哈尔滨工业大学的ROBOT-1中机器人的控制系统由传感器部分、主控部分、协调控制部分以及底层驱动部分组成。由于人形机器人所需要的控制系统过于复杂，其关节模组也产生了驱控一体化的技术趋势，从而从单纯的执行机构转变为智能关节，从而关节部分也需要对应的控制产品。图23：ROBOT-I的控制系统人形机器人与工业机器人的首要不同是控制层级的增加，此外最大的不同在于实施控制之前引入了最为重要的感知环节，感知环节的相关硬件除了各类传感器外，最核心的就是其处理各类感知信号的AI芯片。李沁玲在人形机器人设计及步行控制研究一文中展示了人形机器人的软硬件架构方案，其硬件最底层即为反应

26、层，包含各类感知传感器，传感器接受到相关信号后交由思考层进行决策处理，软件执行层进行动作规划，最后通过工业以太网等通信协议交由执行层进行执行。该人形机器人硬件方案的主控制板可对应特斯拉人形机器人的主控芯片，运动控制板可对应协同控制或驱控一体下的分布式控制芯片；该人形机器人软件方案对应特斯拉人形机器人中的感知算法和Al解决方案，特斯拉人形机器人Al方案的核心硬件支持是其Dojo项目的芯片，据Dojo项目负责人Venkataramanan介绍，特斯拉DojO是史上最快的AI训练计算机，而使得DQjo完成训练Al算法的重任，就是特斯拉自研神经网络训练芯片Dl-H-LKjL）11oSOC（System

27、-on-a-chip）芯片作为机黑人大脑集成了多项功能，解决了混合式软件和分级控制硬件的多项功能，可以视为单片机在人形机器人中的进化。SOC（System-on-a-chip）即系统级芯片，是模仿计算机系统，微缩成了一个微系统，相当于是拥有特定用途的，为了节省成本而在出厂时固化了代码、且只集成专用外设、而且使用量非常巨大的特殊MCU。SC）C硬件的大概的组成是：核心、存储、外设接口、总线、中断模块以及时钟模块等。特斯拉机器人大脑便是由TeSlaSe）C集成而成的BotBrain,用于收集、处理及输出信息。UCLA的Artemis机器人的控制系统也使用了SoC芯片，通过并发的收集机器人信息并进行

28、处理。SOC在多个下游领域均有应用，目前由国际企业主导，国产厂商难以切入特斯拉机器人控制系统，国内部分企业的SOe芯片已在服务机器人领域中有所应用，如炬芯科技、全志科技、瑞芯微等，有望受益于国产人形机器人放量。此外，各厂商纷纷使用FPGA（现场可编程门阵列）进行协调控制，FPGA也是一种集成电路，简言之，加入FPGA可以解决主控芯片灵活性不足的问题，FPGA之于主控芯片，类似于DSP（数字信号处理）之于CPU,都是用来解决核心芯片应对复杂进程处理能力不足的问题。从驱动执行来看，当前主流的伺服驱动器由伺服控制单元、功率驱动单元、通讯接口单元组成。目前多数伺服驱动器具有独立的控制系统，集成了控制芯

29、片，形成驱控一体化。主控芯片一般采用微控制单元（MCU）,FPGA进行辅助，以解决驱控一体化问题，来保证关节处理复杂控制信号的智能性。伺服MCU厂商众多，大多采用ARM公司提供的CorteX-M系列内核授权，如国外的意法半导体、赛普拉斯和国内的兆易创新、中颖电子，国内峰嵋科技拥有完整自主知识产权芯片内核（ME内核）及技术体系。当前FPGA芯片市场由国际企业主导，如赛灵思、英特尔、莱迪思等，国内市场规模较小，如安路科技、复旦微电、紫光同创（紫光国微）等国产厂商正在逐步布局FPGA市场。基于单片机的智能控制器厂商、可编程逻辑控制器（PLC）厂商及机器人通信线缆厂商随着人形机器人放量和技术路线的迭代

30、同样有可能受益。将CPU集成到单块集成电路中，并且未来实现多个功能，将存储器、输入/出接口等也全部集成在一起则形成了单片机，智能控制器是以单片机为核心，集成覆盖计算、通信、交互与控制功能的电子部件，目前智能控制器下游应用主要有汽车电子，电动工具，家用电器和建筑与智能家居等，目前国内主要厂商有拓邦股份、和而泰、和晶科技、朗科智能、华联电子（联创光电）、振邦智能、朗特智能等。PLC已广泛应用于各类工业控制环节中，是使用MCU芯片设计的、稳定的、高性能半成品的工控设备，无需从零开发、功能扩展非常容易，PLC厂商均具有基于控制环境在MCU基础上进行控制器开发的能力。此外，人形机器人的分级控制需要总线通

31、信协议的支持，如工业以太网协议EtherCat,硬件部分需要通信线缆，目前国内可从事机器人控制和通信线缆的代表厂商为鑫宏业。视觉传感：人形机器人的眼睛视觉传感器也即机器视觉，希望通过引入机器代替眼睛来做判断和识别。机器视觉引入工业流程通常是希望通过提高效率（从而提高生产力）、减少错误（从而提高质量）或收集数据来降低成本，此外机器视觉还可以替代劳动力或将工人从危险或疲劳的工业活动中解放出来。机器视觉在工业中的应用根据返回图像的维度可分为2D和3D视觉，目前机器视觉在工业中的应用主要以实现识别、测量、定位、检测四种功能为主。识别功能实现难度较低，其次为测量，再次为定位，检测功能实现难度相对最高。2

32、D机器视觉技术可以获取二维图像，在x、y和旋转三个自由度上定位被摄目标，并基于灰度或者彩色图像中对比度的特征提供处理分析结果。但2D机器视觉技术无法提供物体高度、平面度、表面角度、体积等三维信息，有易受光照变化影响、对物体运动敏感度高等局限性。3D机器视觉技术相对与2D技术提供了更丰富的被摄目标信息，可以在x、v、z、旋转、俯仰、横摆六个自由度上定位被摄目标，还原人眼视角三维立体世界。相应功能可实现如人脸识别解锁、沉浸式交互、体感交互、3D建模等。3D视觉同样可应用于工业检测等2D视觉应用场景，但基于由于3D视觉数据维度更多，目前硬件的数据运算处理速度和存储空间等技术存在限制，两者在不同的使用

33、场景下各有优势，并非完全替代关系。3D重构目前主要的技术有结构光、iToF、dToF,立体视觉、Lidar、工业三维测量等。特斯拉机器人OPtimUS视觉方案使用了自动驾驶解决方案FSD,FSD拥有强大的感知能力，引入OCCUPanCyNetWOrk后对未知障碍物的识别能力进一步增强，目前已经植入机器人中。TeSlaFSD视觉感知神经网络架构的工作流程如下，首先摄像头将单帧数据输入RegNet网络，并采用BiFPN的多尺度特征融合方法感知不同尺度的目标，最后在多个Head中通过输出的二进制特征图判定每个位置是否有目标以及目标的属性，这里用到了多任务学习的感知框架HydraNets实现对多个He

34、ad同时处理。但纯视觉一直被人诟病的对于未知障碍物的识别能力，引入OCeUPanCyNetWork后，不再进行目标识别，而是通过得到空间是否被占用的信息判断是否存在障碍物，解决了目标检测系统失效的问题。目前OPtimUS已经搭载FSD的视觉感知系统。基于视觉信息，FSD的规控能力也可以用于机器人的决策系统。由于车辆、行人的未来行为都有一定的不确定性，特斯拉采用交互搜索的规划模型，在线预测自己和其他车辆，行人等的交互，并对每一种交互带来的风险进行评估，最终决定采取何种策略。FSD系统还能够通过OccupancyNetwork对可视区域进行建模来处理未知不可见场景。目前FSD规划系统已经用于估计O

35、PtimUS的姿势和轨迹。人形机器人视觉传感技术主要使用多目立体视觉和IToF法，特斯拉和UCLA均使用3个3D相机即可实现多目立体视觉。主要人形机黑人视觉方案有多目立体视觉和iToF,多目立体视觉是立体视觉方法中的一种，最少使用3个摄像头即可实现，用单个或多个相机从多个视点获取同一个目标场景的多幅图像，重构目标场景的三维信息，特斯拉、小米和UcLA均使用该方案。iToF是指时间往返行程采用时间选通光子计数器或电荷积分器外推获得而不需要精准计时的方案，可以实现面积范围成像，小米和波士顿动力使用该方案。3D视觉市场空间逐渐打开，视觉传感器除相机外，还包含其他硬件及软件，其中成本占比较高的还有工控

36、机（视觉控制器）和算法软件。国内3D视觉市场随着视觉要求的提高和机器人等新场景的打开，市场规模逐步提升，GG11预测2025年有望达到78亿元。机器视觉产业链除相机外还包含其他环节，机器视觉上游的硬件涉及产品多、壁垒高，在机器视觉系统中成本占比也较高。具有全栈开发能力的公司往往具备产业链优势，此外，掌握机器视觉算法的公司可以进一步受益于Al技术的发展，追赶特斯拉等头部厂商的技术迭代。图36：机器视觉系统成本拆分光源镜头相机工控机软件I其他10.84%15.06%19.88%27.11%18.07%目前国外企业占据机器视觉半壁江山，我国国产替代空间大，人形机器人需求较大，我国企业有望受益于3D相

37、机放量。基恩士、康耐视等国外公司已经形成了较为全面的产品覆盖，也是目前机器视觉市场的标杆公司。上游高端核心零部件市场目前主要由国外公司主导，因此机器视觉核心环节国产替代需求迫切。由于3D相机将在人形机器人广泛使用，且软件及算法的门槛及价值量同样较高，我们认为具有全栈研发能力的奥比中光将受益于3D相机的放量。力控传感：人形机器人的“触觉”力（力矩）传感器机器人市场空间巨大，力控技术不可或缺。协作机器人：高工机器人（GGn）数据显示，2022年中国六轴及以上协作机器人出货量为1.95万台，同比+4.71%,且GGn预计2026年将接近6万台；2022年其市场规模约为21.53亿元，同比+5.61%

38、。人形机器人：GGn预计，2026年全球人形机器人在服务机器人中的渗透率有望达到3.5%,全球市场规模超20亿美元，2030年有望突破200亿美元。协作机器人和人形机器人的发展对力控技术提出了更高要求，尤其是在某些动态、狂杂环境中。根据globalinformation测算，全球力传感器市场预计将从2021年的74.3亿美元增长到2027年的126.6亿美元。力（力矩）传感器在协作机器人关节以及人形机器人关节、足部和灵巧手中均有广泛应用。力矩传感器是一种电子装置，用于监测、检测、记录施加在其上的线性力和旋转力，将力信号转化为电信号，已大量使用于协作机器人打磨、抛光碰撞检测等领域。在特斯拉人形机

39、器人中，力（力矩）传感器在旋转关节和直线关节中各有一个，ARTMES机器人在足部也加入了力传感器模块用于脚底压力反馈。此外，力传感器在人形机器人的灵巧手中也有广泛应用前景，特斯拉人形机器人的灵巧手通过空心杯电机驱动，尚未接入力传感器，但通过腱绳驱动的灵巧手，将会加入多个力传感器，代表厂商如NASA等。不同力控方式各有优劣，力矩传感器为最优方案。目前机器人力控方案大致分为三类,分别是电流环力控，被动力控（弹性体）和力矩/力传感器力控。为精准控制抓取力度，多维力矩/力传感器力控为应用于人形、协作机器人的最优方案。力矩传感器又称为扭矩传感器，通过转换物体施加在传感器上的力矩为相应的电信号或数字信号来

40、进行测量，具有精度高，频响快，可靠性好，寿命长等优点。根据特斯拉AIDAY,预计特斯拉机器人关节处使用单维力传感器，执行器末端使用六维力传感器。按照测量维度，力传感器可以分为一维、多维（三维、六维）力传感器。一维力传感器仅检测一个方向的作用力或力矩，工业中应用广泛，价格也较为便宜（大多为数百元）。多维力传感器仅包括三维力和六维力传感器，均需要标定XYZ坐标轴，区别在于应变片的数量及解耦算法，因此三维力传感器可以视作六维力传感器对的低配版，且成本并没有大幅降低，所以三维力传感器的使用范围较小；六维力传感器是最高端的力矩传感器，同时测量XYZ轴向力和环绕轴的力矩，内部的算法可以解耦各个方向的力和力

41、矩的干扰，应用于高端机器人和精密设备中，价格也十分昂贵（大多在数千元至上万元）。图42：一维、三维、六维力传感器的选择O力传感器标定参考点P力的作用点OXYZ传感器标定坐标系O力传感器标定参考点P一力的作用点OXYZ传醴器标定坐标系O力传感器标定参考点P力的作用点OXYZ传感器标定坐标系七方尧智库六维力传感器性能全面，存在技术壁垒，应变片并非是成本居高不下的主要原因，标定设备、解耦算法研发等均需要高额资本投入。六维力传感器在力传感器中维度最高、力觉信息反馈最全面、技术和使用难度最大，最早应用于航空航天、国防领域，后逐步应用于铸件打磨、焊接及装配场景的工业机器人以及对传感性能要求更高的协作机器人

42、和人形机器人。力传感器存在多种检测原理，硅基/金属箔等电阻应变片具有更好的性能优势，原理是应变片受力后产生的微米级别的变形导致电阻和电压的变化，金属箔应变片价格较高，目前为10元人民币左右，而MEMS工艺下的硅基应变片可以降低至1元以下，因此应变片成本并不是六维力传感器成本高昂的最主要原因。其高昂的成本主要来源于坐标轴标定设备和解耦算法研发的投入，多维力矩传感器需要应对因结构加工和工艺偏差引起的各维度间相互干扰的问题，以及动态和静态标定问题，同时还需要解决矢量运算中的解耦算法和电路实现等问题，此外还要确保产品的一致性，因此在未大规模放量的情况下成本依然较为高昂，即使国内厂商具有显著的成本优势，

43、也需要上千元的平均成本。力传感器需求受协作/人形机器人放量而快速增长，国产企业具备较为显著的成本优势。全球力控传感器的主要厂商有ATI、霍尼韦尔等，中国市场上的高端传感器国产化率低。国内力传感器行业未上市公司实力较强，代表公司包括坤维科技（瀚川智能参股）、宇立仪器、蓝点触控等，上市公司主要有柯力传感、昊志机电等，柯力传感主营应变式力传感器，部分力传感器已应用于工业机器人领域，正通过自主研发和加速并购的方式积极布局六维力传感器；从事一维力（力矩）传感器的厂商众多，具备六维力传感器生产能力的厂商完全具备一维力传感器生产能力。柔性电子皮肤未来电子皮肤（柔性传感器）有望为机器人提供触觉，但更类似于人形

44、机器人力控传感的终极方案。电子皮肤触觉传感器被定义为能够通过接触表征出被测物体的性质（表面形貌、重量等）或数值化接触参量（力、温度等）的柔性传感器，是贴在“皮肤上的电子设备，因而习惯性地被称为电子皮肤，或仿生皮肤。电子皮肤的基本特征，是将各种电子元器件集成在柔性基板之上从而形成皮肤状的电路板，像皮肤一样具有很高的柔韧性和弹性。电子皮肤触觉传感器大多被排列成矩阵组成阵列触觉传感器，其空间分辨率可达到亳米级，接近人类的皮肤。电子皮肤在机器人领域的应用，旨在让其拥有人类的感知力，赋予其类似人类皮肤的敏感性，以及触觉、视觉、听觉味觉和嗅觉等感知能力。当前,人形机器人的发展有望加速电子皮肤的产业落地，未

45、来人形机器人将会大量运用柔性电子技术。目前电子皮肤并未成为人形机器人的主要方案，而机器人也仅是电子皮肤的应用领域之一，主要难点在于传感器和机器人硬件的配合以及人形机器人现阶段的力控要求尚未接近人类皮肤。目前市面上主要的机器人产品都未使用电子皮肤，主要的技术难点在于传感器厂商和硬件厂商相互独立开发，要完美实现贴合、传感器布线、组装都有难度。柔性传感器下游应用领域众多，除机器人外还包括医疗健康、消费电子等等，如脑机接口、足底感应、智能触控等。未来电子皮肤的成本不会是主要制约项，仍需要工艺进一步成熟推动大规模应用后方可降本。电子皮肤的成本主要由三部分组成，一是面积，二是精度（放在脚底和手上对精度要求

46、不高），决定了材料和配方的使用，三是工艺复杂程度，和结构和贴合度有关。目前电子皮肤的成本主要有衬底材料和表面压力传感器矩阵构成，目前MEMS工艺下表面压力传感器成本持续压降，衬底材料也将在大规模应用后逐步降本。目前主要制约瓶颈仍是与机械结构难以贴合、无法检测切向力、传感器密度与精度等问题。电子皮肤国外公司主要有InterIink,国内汉威科技子公司能斯达为国内柔性传感器已产业化，目前已掌握柔性压阻、压电、温湿度和电容四大核心技术。目前国外产业化的有ImerIin匕其柔性传感器可应用于HMl的触摸屏。国内为汉威科技的子公司能斯达，其不断优化“柔性感知技术+采集系统+人机交互”的解决方案，目前已经

47、形成四大核心技术七大产品系列（柔性压力、压电、织物、应变、温湿度、热敏和电容传感器），柔性微纳传感技术水平及产业化程度国内领先，己在智能机器人领域有明确的应用，并与小米科技、九号科技、科大讯飞、深圳科易机器人等积极开展业务合作；能斯达在柔性压电传感器领域掌握自主知识产权，相关产品已在三甲医院进行临床实验。位移姿态传感：人形机器人的“小脑”以人形机器人为代表的足式机器人相较于其他类型机器人有较大优势，但是也对机器人稳定性提出了更高的要求。机器人按照运动方式可以分为：轮式机器人，履带机器人，足式机器人等。轮式机器人控制简单，能够在平坦的地形中快速平稳运动；履带式机器人能够在松软或者较为恶劣的地形中

48、运动：腿足式机器人相较于轮式或者履带式机器人拥有天然的优势腿足式机器人能够跨越一些非连续性的地形，在山地，斜坡，台阶等崎岖的地形上运动。但由于足式机器人，特别是双足机器人的自由度非常高，因此对稳定性的要求极高，就算是静止时也要保持前后平衡。以UCLA的ARTEMIS机器人为例，便在骨盆位置放置了一颗3DM的战术级IMU用于保持平衡。机器人位移姿态的检测的稳定性控制，主要依赖于IMU（惯性测量单元）。IMU为惯性测量单元，是测量物体三轴姿态角（或角速率）以及加速度的装置，大多用在汽车和机器人，一般MEMSlMU=MEMS陀螺仪+MEMS加速计，其中，陀螺仪用于感知物体运动的角速率，加速度计用于感知物体运动的线加速度，二者辅以时间维度进行运算后可得出物体相对于初始位置的偏离，进而获得物体的运动状态，包括当前位置、方向和速度。MEMS技术以其尺寸小、制造方式特别帮助IMU实现高端化、小型化。双足人形机器人需要加入传感器对机器人的实时信息进行检测，从而对机器人实现反馈控制。目前主要由IMU得到数据进行处理得到机器人的姿态信息，进而对机器人的步态进行修正。例如，哈尔滨工业大学的机器人Ro

展开阅读全文