首页
BOB网页客户端
BOB体育官网登陆
BOB注册首页

BOB体育官网登陆

你的位置:BOB(中国)官方入口-BOB投注网页版 > BOB体育官网登陆 > BOB体育官网登陆 Hinton团队CV新作:用说话建模做现在的检测,性能媲美DETR

BOB体育官网登陆 Hinton团队CV新作:用说话建模做现在的检测,性能媲美DETR

发布日期:2021-10-10 23:04    点击次数:117

  

视觉现在的检测体系旨在在图像中识别和定位一切预定义类别的现在的。检测到的现在的清淡由一组边界框和有关的类标签描述。鉴于义务的难度BOB体育官网登陆,大无数现有手段都是经过精心设计和高度定制的,在架议和亏损函数的选择方面用到了大量的先验知识。

图灵奖得主GeoffreyHinton和谷歌钻研院的几位钻研者近日挑出了一个用于现在的检测的浅易通用框架Pix2Seq。与显式集成有关义务先验知识的现有手段分歧,该框架浅易地将现在的检测转换为以不都雅察到的像素输入为条件的说话建模义务。其中,将对现在的的描述外示为离散token的序列,并且该钻研还训练神经网络感知图像并生成所需的序列。

论文地址:https://arxiv.org/abs/2109.10852

该手段主要基于一栽直觉,即倘若神经网络清新现在的的位置和内容,那么就只必要教它如何读取现在的。除了操纵特定于义务的数据添强之外,该手段对义务做出了最少的倘若。但在COCO数据集上的测试效果外明,新手段十足能够媲美高度专科化和优化过的检测算法。

Pix2Seq框架 该钻研挑出的Pix2Seq框架将现在的检测行为说话建模义务,其中以像素输入为条件。上图所描述的Pix2Seq架议和学习过程有四个主要构成片面,如下图2所示,包括:

图像添强:在训练计算机视觉模型中很常见,该钻研操纵图像添强雄厚一组固定的训练样例。 序列构建和添强:由于图像的现在的注解清淡外征为一组边界框和类标签,该钻研将它们转换为离散token的序列。 架构:该钻研操纵码器-解码器的模型架构,其中码器感知像素输入,解码器生成现在的序列。 现在的/亏损函数:该模型经过训练以最大化token的对数似然。 基于现在的描述的序列构建 在常见的现在的检测数据荟萃,例如PascalVOC、COCO等,图像中往往具有数目纷歧的现在的,这些现在的被外征一组边界框和类标签,Pix2Seq将它们外示为离散token的序列。

类标签自然地被外示为离散token,但边界框不是。边界框由其两个角点的数目。边界框的这栽量化方案使得在实现高精度的同时仅操纵较幼的词汇量。例如,一张600×600的图像只必要600个bin即可实现零量化偏差。这比具有32K或更大词汇量的当代说话模型幼得众。分歧级别的量化对边界框的影响如下图3所示。

鉴于每个现在的的描述外达为一个短的离散序列,接下必要将众个现在的的描述序列化,以构建一个给定图像的单一序列。由于现在的的挨次对于检测义务自己并不主要,所以钻研者操纵了一栽随机排序策略。

末了,由于分歧的图像清淡有分歧的现在的数目,所生成的序列会有分歧的长度。为了外示序列的终结,钻研者相符并了一个EOStoken。

下图4展现了操纵分歧排序策略的序列构建过程。

架构、现在的和推理 此处把从现在的描述构建的序列行为一栽「方言」处理,转向在说话建模中走之有效的通用体系架议和现在的函数。

这边操纵了一栽解码器架构。码器能够是通用的感知像素图像码器,并将它们码成暗藏的外征形态,比如ConvNet。

在生成上,钻研者操纵了普及用于当代说话建模,由于token是由一个带softmax的单词外生成的。

与说话建模相通,给定一个图像和前线的token,Pix2Seq被训练用展望token,其具有最大似然亏损,即

其中x是给定的图像,y和y^~别离是有关的输入序列和现在的序列,l是现在的序列长度。在标准说话建模中,y和y^~是相通的。此外,wj是序列中为j-thtoken预先分配的权重。吾们竖立wj=1,somethingj,但是能够按照token的类型或响答现在的的大幼权重token。

在推理过程中,钻研者从模型似然中进走了token采样,即

。也能够经由过程操纵最大似然性。

序列添强

EOStoken会批准模型决定何时终止,但在实践中,发现模型往往在没展望一切现在的的情况下终止。这能够是由于:

注解噪音; 识别或本地化某些现在的时的不确定性。由于召回率和实在率对于现在的检测说都很主要,一个模型倘若异国很益的召回率就不能够获得很益的集体性能。 获得更高召回率的一个技巧是经由过程人造地降矮其能够性延宕EOStoken的采样。然而,这往往会导致噪声和重复展望。

序列添强引入的修改如下图5所示,BOB体育官网登陆详细情况如下:

钻研者最先经由过程以下两栽手段创建相符成噪声现在的增补输入序列:

向现有的地面真值现在的增补噪声; 生成十足随机的边框。值得仔细的是其中一些噪声现在的能够与一些ground-truth现在的相通或重叠模拟噪声和重复展望如下图6所示。 转折推理。操纵序列添强钻研者能够大幅度地延宕EOStoken升迁召回率并且不会增补噪声和重复展望的频率所以他们令模型展望到最大长度产生一个固定大幼的现在的列外。当从生成的序列中挑取边界框和类标签时钻研者用在一切实在类标签中具有最高似然的实在类标签替换噪声类标签。他们还操纵选定类标签的似然行为现在的的排名分数。

实验效果 钻研者主要与两个被普及认可的基线手段进走比较别离是FacebookAI于2020年挑出的DETR和更早期的FasterR-。

效果如下外1所示Pix2Seq实现了媲美这两个基线手段的性能其中在幼型和中型现在的上的外现与R-相等但在大型现在的上外现更益。与DETR相比Pix2Seq在中型和大型现在的上外现相等或略差但在幼型现在的上外现清晰更益。

序列构成的熔解实验 下图7a追求了坐标量化对性能的影响。在这一熔解实验中钻研者考虑操纵了640像素的图像。该图外外明量化至500或以上bin就有余了500个bin相通众就不会展现由边界框坐标量化导致的隐微偏差。

训练期间钻研者还考虑了序列构成中的分歧现在的排序策略。这些包括1)随机、2)区域类+dist2ori。

下图7b展现了平均精度。在精度和召回率这两方面随机排序均实现了最佳性能。钻研者推想操纵确定性排序模型能够难以从先前流失现在的的舛讹中恢复过而操纵随机排序则能够在之后检索到它们。

添强的熔解实验 钻研者主要操纵的图像添强手段是尺度抖动。钻研者展望兴旺的图像添强在这项钻研中专门有效这是由于Pix2Seq框架对义务做了最幼倘若。

钻研者还探究了「操纵和不操纵序列添强训练」的模型性能转折。对于未操纵序列添强训练的模型他们在推理过程中调整EOStoken似然的偏移量以运走模型做更众展望从而产生一系列召回率。如下图8b所示在无序列添强时当AR增补时模型会展现隐微的AP降落。操纵序列添强时模型能够避免噪声和重复展望实现高召回率和高精度。

解码器交叉仔细力地图的可视化 在生成一个新的token时基于Transformer的解码器在前线的token上操纵自仔细力在码的视觉特征图上操纵交叉仔细力。钻研者期待在模型展望新的token时可视化交叉仔细力。

下图9展现了生成前几个token时的交叉仔细力图能够望到在展望首个坐标token时仔细力表现出了专门强的众样性但随后很快荟萃并固定在现在的上。

钻研者进一步追求了模型「经由过程坐标关注指定区域」的能力。他们将图像均匀地划分为N×N的矩形区域网格每个区域由边界框的序列坐标制定。然后在读取每个区域的坐标序列之后他们将解码器的仔细力在视觉特征图上实现可视化。末了他们打乱图像的像素以清除对现有现在的的作梗并为了清亮首见清除了2%的top仔细力。

乐趣的是如下图10所示模型益似能够在分歧的尺度上关注制定区域。

   

面试官:说说你对树的理解?有关的操作有哪些? Netty中央知识总结 Chrome最先测试三位数用户代理以检查网站兼容性

Powered by BOB(中国)官方入口-BOB投注网页版 @2013-2021 RSS地图 HTML地图