3D视觉引导的多品规物料机器人拆垛系统设计

2022-08-17 来源：JQRZX |责任编辑：小球球浏览数：1110 全球焊接网

核心提示：　　摘要点：在工业制造和物流领域，通过机器人实现物料拆卸和堆放是常用的应用之一。物料拆卸和堆放是将不同规格的货物（即不同尺寸、重量或纹理的货物）安装在托盘上进行交付的场景。早期机器人堆放只适用于单一货

　　摘要点：在工业制造和物流领域，通过机器人实现物料拆卸和堆放是常用的应用之一。物料拆卸和堆放是将不同规格的货物（即不同尺寸、重量或纹理的货物）安装在托盘上进行交付的场景。早期机器人堆放只适用于单一货物的卸载，要求货物按固定顺序排列，机器人无感知能力；基于视觉引导的机器人堆放系统具有实时的环境感知能力，引导抓取动作，解决多规格物料堆放系统中待卸物体尺寸多变、堆放不规则等问题。

　　在工业制造和物流领域，各种工业机器人可以用来优化货物的流通，其中物料的拆垛是常用的应用之一。“机器人拆垛”通常是指用机械臂将物料按顺序从托盘上卸载的过程，可以用来代替简单但繁重的体力劳动。在物流领域，有一个场景，将不同规格的货物(即不同尺寸、重量或纹理的货物)放入盒子中交付。

　　然而，早期的机器人堆垛系统主要通过人工控制完成机器人捕获，只适用于单一货物的卸载，并要求货物按固定顺序排列。机器人没有感知能力，无法对外界的变化做出反应。但多品规物料堆垛系统的待卸物体尺寸多变，堆放不规则，要求机器人具备实时的环境感知能力，引导捕获动作。

　　随着各种光学传感器的发展，人们逐渐将计算机视觉技术引入到机器人捕获任务中，以提高机器人获取外部信息的能力。基于视觉引导的机器人堆垛系统通常包括五个模块，即视觉信息采集模块、物体定位和分析模块、捕获位置计算模块、手眼坐标转换模块和运动规划模块，如图2所示。其中，前三个模块是视觉系统的主要部分，负责采集、处理视觉信息和提供物体位置。后两个模块主要用于向机器人提供控制信息并完成捕获功能。下面将介绍每个模块、常用方法和实施案例。

机器人堆垛

　　一、视觉信息获取模块

　　视觉信息获取模块的作用是捕获视觉信息，为后续步骤提供输入。目前常用的视觉输入包括2DRGB图像，3D点云图像和2D与3D组合的RGB-D图像等。其中，基于2DRGB图像视觉辅助机械臂抓取是目前工业上比较成熟的解决方案，它将机器人抓取的问题转化为对机器人抓取的问题RGB对物体进行目标检测或图像分割。然而，2D视觉缺乏物体的绝对尺度信息，只能在特定条件下使用，如堆垛固定、物料尺寸已知等。对于未知材料规则的场景，视觉模块需要为机器人提供准确的绝对尺寸信息，因此只能使用3D点云图像或2D与3D组合的RGB-D图像。相比于RGB信息，RGB-D信息包含从相机到物体的空间距离信息；与3相比，D点云图像，RGB-D信息包含丰富的彩色纹理信息。因此，可以采用RGB-D图像作为多品规物料拆垛系统的视觉信息输入。

　　二、物体定位与分析模块

　　物体定位和分析模块接收视觉信息，获取模块输入的数据，分析场景中存在的材料，获取位置、姿态等关键信息，然后输入抓取位置计算模块。一般来说，机器人堆垛系统中的物料定位问题可以转化为视觉领域的目标检测或图像分割问题。RGB-D视觉机器人抓取方案，可以先在RGB在图像上进行二维目标检测或二维图像分割，然后整合深度图输出物体的绝对尺寸和抓取位置；或者直接对三维点云图进行目标检测或分割。以下将简要介绍相关工作。

　　1.二维目标检测

　　二维目标检测的输入是场景RGB图像输出为图像中物体的类别和位置，位置以边框或中心的形式给出。目标检测方法可分为传统方法和基于深度学习的方法。传统的目标检测方法通常使用滑动窗口来体验整个图像，每个窗口都成为一个候选区。对于每个候选区域，首先使用SIFT，HOG等待特征提取的方法，然后训练分类器对提取的特征进行分类。例如，经典DPM算法就是使用SVM对改良后的HOG对特征进行分类，以达到目标检测的效果。传统方法有两个明显的缺陷：第一，使用滑动窗来体验整个图片非常耗时，使得算法时间复杂，难以应用于大规模或实时场景；其次，使用的特征往往需要人工设计，使得这些算法更依赖经验，鲁棒性差。

　　2.二维图像分割

　　图像分割可以看作是像素级的图像分类任务。根据分割结果的不同含义，图像可以分为语义分割（semanticsegmentation）和实例分割（instancesegmentation）。语义分割将图像中的每个像素划分为相应的类别；实例分割不仅需要对像素级别进行分类，还需要在特定类别的基础上区分不同的实例。与目标检测的边界框相比，实例分割可以准确到物体的边缘；与语义分割相比，实例分割需要标记图中类似物体的不同个体。在堆垛应用中，我们需要准确地提取材料的边缘来计算捕获位置，因此我们需要使用实例分割技术。现有的图像分割技术可分为传统方法和基于深度学习的方法。

　　传统的图像分割方法主要基于图像中灰度值的相似性或突变来判断像素是否属于同一类别。常用的方法包括基于图论、聚类和边缘检测的方法。

　　与传统方法相比，基于深度学习的方法大大提高了二维图像分割的准确性。典型的深度神经网络框架，如深度神经网络框架，如AlexNet，VGGNet，GoogleNet在网络的最后，加入全连接层进行特征整合，然后通过网络的最后加入特征整合softmax判断整个图片的类别。为解决图像分割问题，FCN框架将这些全连接层替换为反卷积层，使网络的输出结果从一维概率转变为与输入分辨率相同的矩阵，是将深度学习应用于语义分割的开创性作品。

　　3三维目标检测

　　三维目标检测通过直接计算物体的三维目标检测D位置，使机器人能够准确预测和规划自己的行为和路径，避免碰撞和违规。三维目标检测按传感器类型分为单目相机、双目相机、多目相机、线面激光雷达扫描、深度相机和红外相机目标检测。一般来说，由多目相机组成的三维/多目视觉系统或激光雷达可以实现更准确的3D点云测量，基于多视图的方法可以通过从不同视图的图像中获得的视差获得深度图；基于点云的方法从点云获取目标信息。相比之下，由于点的深度数据可以直接测量，基于点云的三维目标检测本质上是三维点的划分，因此更直观、更准确。

　　三.抓取位置计算模块

　　抓取位置计算模块利用第二个模块输出的目标物体的位置位置信息计算机器人的抓取位置。由于多品规物料堆垛系统中经常同时存在多个抓取目标，因此应解决该模块“抓哪个”和“怎么抓”两个问题。

　　第一步解决“抓哪个”问题。这个问题的目标是在众多的抓取目标中选择最好的抓取目标，这里的。“最佳”通常需要通过实际需要来定义。具体来说，一些对抓取判断有影响的指标可以根据实际情况量化，然后优先调度。

　　第二步解决“怎么抓”问题。我们可以选择通过机械分析计算抓取位置，也可以通过学习方法对物体进行分类，然后根据分类选择抓取点，或者直接回到抓取位置。

　　四.手眼坐标转换模块

　　通过第三个模块，我们获得了一个可行的抓取位置。然而，抓取位置是基于相机坐标系下的位置，在运动计划之前，需要将抓取位置转换为机器人坐标系。在拆垛系统中，通常使用手眼标定来解决这个问题。根据相机的固定位置，手眼标定方法可分为两种情况。一种是相机固定在机械臂上，相机随机械臂移动，称为“眼在手”（Eye-in-hand），如图3所示。在这种关系下，在机械臂的两次运动中，机器人底座与标定板之间的位置关系保持不变，解决方案是相机与机器人终端坐标系之间的位置关系。另一种是相机固定在独立支架上，称为“眼在外”（Eye-to-hand），如图4所示。在这种关系下，在机械臂的两次运动中，机器人末端与标定板之间的位置关系保持不变，解决方案是相机与机器人底座坐标系之间的位置关系。两种情况最终都转化为一种AX=XB李群和李代数可以将方程转换为线性方程，分别求解旋转量和平移量。

　　五.体育规划模块

　　该模块主要考虑机器人的运动学.动力学.力学分析.运动规划等。，并规划一条与环境不碰撞的可行运动路径。通过将抓取位置计算模块获得的相机坐标系下的抓取位置乘以手眼坐标转换模块标定的转换矩阵，我们可以在机械臂坐标系下获得抓取位置。根据这个位置，可以进行运动规划，最终引导机械臂完成拆码垛任务。因此，运动规划模块的输入是机械臂运动的起始位置和目标位置，输出是机械臂的运动路径。

　　完整的运动规划算法可分为以下三个步骤：

　　第一步：逆运动学解决方案。为了避免奇怪的点和其他问题，机械臂运动计划通常在关节空间中进行。因此，我们应该首先根据输入的位置进行逆运动学解决方案，以获得位置对应的关节值。

　　第二步:路径规划。通过路径规划算法，我们可以得到机械臂的运动路径。这一步的目标有两点:一是避障，保证机械臂在运动过程中不与场景中的其他物体碰撞；二是提高运行速度，提高系统的运行效率。通过规划合理的运动路径，可以缩短机械臂单次抓取的运行时间，从而提高效率。

　　第三步:时间插值。虽然我们可以通过路径规划获得一条可行的运动路径，但这条路径是由一个位置点组成的。机械臂沿这条路运行时，需要不断加减速，这样会影响运行速度。因此，我们需要进行时间插值，并要求机械臂在路径的每个点移动到这个点时的速度.加速度.时间信息等。这样，机械臂就可以连续使用。平稳运行，从而提高效率。

　　六.实施实例

　　基于以上研究，在箱体物料识别场景中，可采用3D深度相机.光照系统.计算机.以及由视觉处理软件组成的完整的视觉系统，可以获取一些真实物体的特殊信息，通过该系统获得的信息可以用来完成一些特殊的任务，如通过视觉系统获取盒子位置，可以引导机器人捕获，获取盒子数量信息，作为任务验证。该系统的主要组成部分如图5所示。

　　3D相机和光照系统主要用于拍照成像，包括3台D相机可以在一定范围内获得深度数据。数字图像成像与光系统有关。计算机包括通用计算和存储设备，用于保存图像，通过特殊的视觉软件处理图像，并与其他系统进行网络通信。图像显示器可以方便操作人员操作视觉处理软件，监控系统的运行。大容量存储用于永久或暂时存储图像或其他数据。特殊的视觉软件包括数字图像处理、图像数据分析和一些特殊功能。

　　一般来说，一台3D深度相机帧率为1-30帧，RGB图像分辨率为640×480，1280×960，特殊的有1920×1080，2592×1944年，深度范围为500mm左右到5000mm左右。

　　而且根据价格的不同，有不同的精度和范围。以下是某品牌的3D以相机为例，参数如图6所示，精度如图7所示。

　　使用3D相机，可以获得特殊场景RGB根据对这些图像的处理和分析，可以获得场景中物体的位置、数量、信息。

　　矩形框是处理后识别的箱子抓取位置图。按左上角。.左下.右上.右下顺序分别为“2.3.3.2”也就是说，机器手会根据图像识别系统给出的位置信息，按照左上两箱的位置信息.左下三箱.右上三箱.抓取右下两箱的顺序。

　　七.总结

　　在这篇文章中，我们对3D介绍了多品规物料机器人拆垛系统的框架和常用方法，并定义了框架所需的几个基本模块，即视觉信息获取模块.物体定位与分析模块.抓取位置计算模块.手眼坐标转换模块运动规划模块，并解释了每个模块的主要任务和常用方法。在实际应用中，可以根据需要使用不同的方法来实现这些模块，而不影响其他模块和系统的整体功能。

打赏