找回密码
 立即注册

谷歌用MediaPipe完成手机高效及时3D对象检测

2020-3-12 11:13 根源: 映维网 科技速报

(映维网 2020年03月12日)对象检测是一个广泛研讨的盘算机视觉题目,但大大都研讨都汇合2D对象预测方面。2D预测仅供应2D边境框,但通过将预测扩展到3D,我们可以捕捉对象的实行天下大小,位置和偏向,从而板滞人技能,主动驾驶汽车,图像检索和增强实行等范畴完成一系列的用例。尽管2D对象检测相对成熟并已行家业中广泛运用,但因为缺乏数据,以及对象外观和样式的众样性,基于2D图像的3D对象检测仍然是一个十分具有挑衅性的课题。

3.jpg

针对这个题目,谷歌日前发布了用于往常对象的及时3D对象检测管道MediaPipe Objectron。所述东西可以检测2D图像中的对象,并应用由新修3D数据集举行教练的板滞进修模子来估量其姿态和大小。MediaPipe是一个开源代码跨平台框架,主要用于构修用于处理差别方式的感知数据的管道,而ObjectronMediaPipe中完成,并可以挪动配备中及时盘算面向对象的3D边境框。

依据单张图像举行3D对象检测。MediaPipe Objectron可以支撑确定挪动配备及时确定往常对象的位置,偏向和大小。

1. 获取实活着界3D教练数据

因为依赖于3D传感器(如LIDAR)的主动驾驶汽车研讨日益普及,业界保管用于街景的大宗3D数据,但包罗面憧憬常对象的ground truth 3D解释的数据集仍然十分有限。为了抑制这个题目,谷歌团队应用挪动增强实行会话数据开辟了一种全新的数据管道。跟着ARCore和ARKit的到来,数亿智能手机现曾经具有AR功用,而且可以AR会话中捕捉更众新闻,包罗camera姿态,希罕3D点云,估量照明和平面。

为了标记ground truth数据,团队构修了一个新颖的解释东西以搭配AR会话数据,从而容许Annotator可以疾速标记对象的3D边境框。东西应用分屏视图来显示2D视频帧,左侧叠加3D边境框,并右侧显示3D点云,camera位置和检测平面。Annotator3D视图中绘制3D边境框,并通过查看2D视频帧中的投影来验证其位置。关于静态对象,我们只需求单帧中解释对象,并运用来自AR会话数据的ground truth camera姿态新闻将位置传达到通通帧。这可以大大进步进程的服从。

用于3D对象检测的实数据解释。右:3D天下中检测外面和点云标注3D边境框。左:带解释3D边境框的投影叠加于视频帧,从而便以验证解释。

2. 增强实行合成数据生成

为进步预测的精度,一种风行的方法是用合成数据增补分际天下的数据。但这种方法做一般会带来倒运的,不实的数据,或者图像实感烘托时需求大宗的精神和盘算量。以是谷歌提出了一种名为AR Synthetic Data Generation(增强实行合成数据生成)的新颖方法。它可以将虚拟对象布置到具有AR会话数据的场景中,容许你应用camera姿态,检测平面和估量照明来生成物理可以的位置,以及具有与场景立室的照明。这种方法可生成高质料的合成数据,其包罗的烘托对象可以恭敬场景的几何样式并无缝地适配实行配景。通过联合实行天下数据和增强实行合成数据,谷歌外示精度进步了约10%。

3. 用于3D对象检测的板滞进修管道

为了从单个RGB图像预测对象的姿态和物理尺寸,谷歌构修了一个单阶段模子。所述模子主干具有基于MobileNetv2构修的编码器-解码器架构。团队采用众义务进修方法,通过检测和回返来配合预测对象的样式。样式义务依据可用的ground truth解释来预测对象样式信号。这属于可选选项,可用于教练数据中缺乏样式解释的状况。关于检测义务,团队运用带解释的边境框并将高吮モ合到框,中心位于框质心,标准偏向与框大小成正比。回归义务估量八个边境框极点的2D投影。为了取得边境框的最终3D坐标,团队应用了完美的姿态估量算法(EPnP)。它可以恢复对象的3D边境框,无需事先晓得对象的尺寸。给定3D边境框,团队可以轻松盘算对象的姿态和大小。下图是精细的收集架构和后处理。所述模子十分轻盈,可以支撑挪动配备及时运转(Adreno 650挪动GPU为26 FPS)。

4. MediaPipe中的检测和跟踪

当将模子运用于挪动配备捕捉的每个帧时,因为每帧中估量的3D边境框的歧义性,模子可以会遭受颤动影响。为了缓解这种状况,谷歌采用了近来发布2D object detection and tracking(2D对象检测和跟踪)办理方案中的检测+跟踪框架。所述框架可以减轻每帧运转收集的需求,从而支撑盘算量更大但因此更为准确的模子,同时挪动配备保持管道及时举行。它同时可以跨帧保管对象身份,并确保预测时间方面保持同等,从而淘汰颤动。

为了进一步进步挪动管道的服从,团队只是每隔几帧运转一次模子推测。接下来,谷歌应用以前先容过的方法举行预测并随时间举行跟踪。当做出新的预测时,他们将依据重叠区域把检测结果与跟踪结果兼并。

饱励开辟者和研讨职员依据其管道举行实行和原型计划,谷歌将MediaPipe中发布所述的板滞进修管道,包罗端到端的挪动演示运用,以及针对鞋子和椅子这两个种另外教练模子。谷歌外示:“我们期望通过与广泛的研讨和开辟社区共享我们的办理方案,这将可以刺激新的用例,新的运用和新的研讨义务。我们方案未来将模子扩展到更众种别,并进一步进步配备功用。”

谷歌

  根源:XXX(非科技速报网)的作品均转载自其它媒体,转载请恭敬版权保管因由,通通法律义务自傲。

  作品实质仅供阅读,不构成投资倡议,请谨慎看待。投资者据此操作,损害自担。

  投稿邮箱:citreport@qq.com。详情拜访科技速报网:

编辑:Cit003
微信大众号
看法反应 科技速报网微信大众号