基于深度学习的现代计算机视觉模型的性能主要依赖于大量带标签的可用训练数据集,比如开放图像。
数据集。然而,如何获得高质量的训练数据已经成为计算机视觉发展的主要瓶颈。在无人驾驶、机器人和图像搜索等应用中,一些像素级的目标预测任务,如语义分割任务,尤其需要更大更好的数据集。事实上,传统的手工标注工具需要标注者小心翼翼地点击图像中每个对象的边界来划分图像中的目标,这是非常枯燥的:COCO Stuff。
标注数据集中的单幅图像大约需要19分钟,标注整个数据集甚至需要53000个小时!
左图| COCO数据集中的一张图片;右图|左图像素级语义分割结果。(来源:图片鸣谢)
谷歌的研究人员设计了一种机器学习驱动的工具,将在2018年ACM多媒体大会的“勇敢的新想法”中展示。
“链接显示”可用于标记图像数据中每个对象的轮廓和背景。应用于标签分类数据时,标签数据集的生成速度可以提高到传统方法的3倍。
这种方法被谷歌称为流体标签
标注),从强语义切分模型的输出开始,人工标注者可以使用用户界面,通过机器辅助的方法进行编辑和修改。谷歌开发设计的界面允许标注者选择要纠正的内容和顺序,这样他们就可以专心处理机器尚未理解和标注的图像。
图| COCO数据集中图像的流体标记的可视化界面。(来源:gamene)
为了更准确地标注图像,Google首先通过预先训练好的语义分割模型(Mask-RCNN)对图像进行处理。这个过程大约会产生1000个
图像分割区域及其标签和置信度。具有最高置信度的分割区域用于初始化标签,并将其呈现给注释器。
然后,注释者可以:
(1)从机器生成的候选分类标签中选择当前区域的标签。(2)为机器未覆盖的目标添加分割区域。机器会识别最有可能的预生成区域,标注器会选择分割效果最好的区域。(3)删除已有的分割区域。(4)改变重叠区域的深度顺序。
_演示链接:_
_ _https://fluidann.appspot.com(PC平台可用)_
图|在COCO中使用传统的手动贴标工具(中栏)和流体贴标工具(右栏)
比较数据集的三幅图像的标记结果。虽然使用人工标注工具时,目标的边界一般更准确,但同一对象的标注有时会有差异,主要是因为人工标注者通常对某个目标的类别有不同的看法。图片:斯内卡(一),丹
赫特(中),梅洛迪梅西亚诺(下)。
在让图像标注更快更容易的问题上,流体标注工具的出现只是第一步。未来团队的目标是改善目标边界的标注,进一步利用人工智能增加界面的运行速度,最终处理以前未识别的类别,使数据收集变得更加高效和快速。