关注公众号,发现CV技术之美
本文转自腾讯优图实验室。
作为全球计算机领域顶级的学术会议之一,ICCV2023(International Conference on Computer Vision)国际计算机视觉大会将于今年10月在法国巴黎举行。近日,ICCV公布了论文录用结果,本届会议共有8068篇投稿,接收率为26.8%。
今年, 腾讯优图实验室共有16篇论文入选,研究方向含轻量化模型结构设计、文档理解、深度伪造溯源、掌纹生成、人脸隐私保护、无监督异常检测、图像和谐化、小样本扩散模型领域自适应、增量识别、3D形状生成 等研究方向。
本文从统一的角度重新思考了高效的IRB模块和Transformer中的有效组件,将基于CNN的IRB扩展到基于注意力的模型,并抽象出一个残差元移动块(Meta Mobile Block,MMB)用于轻量级模型设计。遵循简单但有效的设计准则,我们推导出一个现代的倒残差移动模块(Inverted Residual Mobile Block,iRMB),并仅使用iRMB构建一个类似ResNet的高效模型(EMO)用于下游任务。在ImageNet-1K、COCO2017和ADE20K基准测试上的大量实验证明了提出方法的优越性。例如,EMO-1M/2M/5M在ImageNet-1K上达到了71.5、75.1和78.4的Top-1,超过了同时代基于CNN/Attention的模型,同时在参数、效率和准确性上得到了良好的权衡。
在此设定下,我们提出了基于单帧标注和动态高斯先验的视频片段定位框架(D3G),其主要由语义对齐组对比学习模块 (SA-GCL) 和动态高斯先验调整模块(DGA)组成。具体来说,SA-GCL模块通过联合利用高斯先验和语义一致性从2D时序图中采样可靠的正样本片段,这有助于对齐文本-视频片段对在联合嵌入空间的表征。此外,为了缓解由单帧标注带来的标注偏置问题并有效建模由多个事件组成的复杂文本查询,我们进一步提出了DGA模块,其主要负责动态调整高斯先验分布来逼近真实目标片段。我们在三个具有挑战性的基准上广泛的实验验证所提出的D3G的有效性。D3G的性能明显优于最先进的弱监督方法并缩小与完全监督的方法相比的性能差距。
同时,本文针对OW-DFA任务提出了一个对比式伪标签学习(Contrastive Pseudo Learning,CPL)算法,包括以下两个部分:1)引入全局-局部投票模块,以修正不同攻击类型产生的伪造区域大小差异;2)设计基于概率的伪标签策略,以缓解在利用无标签数据时相似攻击方法所引起的噪声。此外,本文还将CPL算法进一步与目前广泛使用的预训练和迭代学习技术结合在一起,进一步提高了溯源性能。本文通过大量的实验证明了所提出的CPL方法在OW-DFA基准测试上的优越性,有效促进了深度伪造溯源任务的可解释性和安全性,并对深度伪造检测领域有着积极影响。
同时, 我们进一步改进了Bezier掌纹线生成策略以保证身份间可区分性。大量的实验结果表明,使用生成掌纹数据预训练可以显着提高识别模型的性能。例如,我们的模型在训练/测试 1:1 和 1:3设定下,相较最先进的 BezierPalm通过率提高了 5% 和 14% @FAR=1e-6。当仅使用 10% 的真实数据训练时,我们的方法仍优于基于ArcFace使用100% 真实数据训练的模型,这表明我们的方法向无需使用真实数据进行模型训练的掌纹识别更进了一步。
论文下载地址:https://github.com/RayshenSL/RPG-PALM
为应对这一问题,本文观察到模型注意力在不同频域分量上存在差异,提出在随机选择的分量组合上训练模型,使模型建立从局部频域信息到整体人脸信息的映射。从而,本文在维持识别精度的同时,将所需高频分量规模降低到同类方法的1/6,提高了隐私保护性能。经广泛实验验证,本文所提方法可提供显著优于当前先进方法的抗重建能力,同时保持有竞争力的任务性能。
为了解决这个问题,MemKD引入了一种新的记忆机制,即正常知识召回模块 (NRM),通过存储正常数据的信息来加强学生模型生成的特征的正常性。同时,MemKD还采用了正常性表示学习策略,构建了一个正常样本集,使NRM能够记忆无异常数据的先验知识,并在后续的查询中进行回忆。实验结果表明,MemKD在MVTec AD、VisA、MPDD、MVTec 3D-AD和Eyecandies等五个数据集上取得了良好的效果。
具体来说,GKNet包括和谐化核预测和和谐化调制两部分。前者包括用于获取长距离参考提取器(LRE)和用于融合全局信息与局部特征的多层级和谐化核预测模块(KPB);为了实现更好地选择相关的长距离背景参考以进行局部和谐化这一目标,我们在其中还提出了一种新颖的选择性相关融合(SCF)模块。后者利用预测得到的和谐化核进行前景区域和谐化。大量实验证明了我们的图像和谐化方法相对于最先进方法的优越性,例如,实现了 39.53dB PSNR,比相关最佳方法提升+0.78dB;并与 SoTA 方法相比,fMSE/MSE 降低了 11.5%和6.7%。
论文下载地址:https://arxiv.org/pdf/2305.11676.pdf
为了解决这些问题,我们提出了一种新颖的基于分段内容融合的小样本扩散模型,并提出有向分布一致性损失,使得扩散模型在不同训练阶段学习到不同的目标域信息。具体而言,我们设计了一种分段训练策略,通过分段的内容融合帮助模型在加噪步数较大时保持源域的内容并学习目标域的风格信息,在加噪步数较小时学习目标域的局部细节信息,从而提高模型对内容、风格和局部细节的把控能力。
此外,我们引入了一种新的有向分布一致性损失,能够高效、稳定地保证生成域分布和源域分布的一致性,避免模型过拟合。最后,我们还提出了一种跨域结构引导策略,在域适应过程中增强生成图像与原图像结构的一致性。我们从理论分析、定性和定量的实验三个方面,有效地证明了所提出方法相较于以往小样本模型自适应方法的优越性。
为了克服这些限制,我们提出了改进的自回归模型(Improved Auto-regressive Model,ImAM)用于3D形状生成,该模型应用基于潜在向量的离散表示学习,而不是使用体积网格。我们的方法不仅降低了计算成本,还通过在更易处理的顺序中学习联合分布来保留基本的几何细节。此外,由于我们模型架构的简单性,我们可以通过连接各种条件输入(如点云、类别、图像和文本)将其自然地从无条件生成扩展为条件生成。大量实验证明,ImAM能够合成多个类别的多样化且真实的形状,并达到了最先进的性能水平。
论文下载地址:https://arxiv.org/pdf/2303.14700.pdf
本文提出了一个基于Transformer的新颖框架——CATR(类别感知Transformer),该框架在Transformer中学习特定目标的类别感知表示,并为目标定位生成相应的类别感知注意力映射。具体来说,本文提出了一个类别感知模块来引导自注意力特征图学习类别偏差,并且提供类别监督信息来指导其学习更有效的特征表示。此外,本文还设计了一个目标约束模块,以自我监督的方式细化类别感知注意力图的目标区域。最后,在两大公开数据集CUB-200-2011和ILSVRC上进行了充分的实验,验证了本文方法的有效性。
为了解决这些问题,我们提出了自定位辅助网络(SLAN),用于视觉语言理解任务,无需任何额外的目标数据。SLAN 由区域过滤器和区域适配器组成,用于根据不同文本定位感兴趣的区域。通过聚合视觉语言信息,区域过滤器选择关键区域,区域适配器通过文本指导更新其坐标。通过细粒度的区域-文本对齐,SLAN 可以轻松推广到许多下游任务。它在五个视觉语言理解任务上取得了相当有竞争力的结果(例如,在 COCO 图像到文本和文本到图像检索上分别为 85.7% 和 69.2%,超越了之前的 SOTA 方法)。SLAM 还展示了对两个目标定位任务的强大的零样本和微调可迁移性。
论文链接:https://arxiv.org/abs/2212.12977
更多 ICCV 2023 论文持续更新在:https://github.com/52CV/ICCV-2023-Papers
END
欢迎加入「ICCV」交流群👇备注:ICCV
本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕,E-mail:xinmeigg88@163.com
本文链接:http://byne.tttmy.cn/news/11066.html