18143453325 在线咨询 在线咨询
18143453325 在线咨询
所在位置: 首页 > 营销资讯 > 网站运营 > arXiv每日更新-2021.11.29(今日关键词:segmentation、3D、detection)

arXiv每日更新-2021.11.29(今日关键词:segmentation、3D、detection)

时间:2023-04-21 11:18:02 | 来源:网站运营

时间:2023-04-21 11:18:02 来源:网站运营

arXiv每日更新-2021.11.29(今日关键词:segmentation、3D、detection):

Transformer

* 题目: Adaptive Fourier Neural Operators: Efficient Token Mixers for Transformers
* 链接: https://arxiv.org/abs/2111.13587
* 作者: John Guibas,Morteza Mardani,Zongyi Li,Andrew Tao,Anima Anandkumar,Bryan Catanzaro
* 摘要: 视觉变换器在表征学习方面取得了巨大的成功。这主要是由于通过自我注意进行有效的令牌混合。然而,这与像素数量成二次方比例,这对于高分辨率输入变得不可行。为了应对这一挑战,我们提出了自适应傅立叶神经算子 (AFNO) 作为一种高效的令牌混合器,可以学习在傅立叶域中进行混合。 AFNO 基于算子学习的原则基础,它允许我们将令牌混合构建为连续的全局卷积,而不依赖于输入分辨率。这个原理以前被用于设计 FNO,它在傅立叶域中有效地解决了全局卷积,并在学习具有挑战性的 PDE 方面显示出了希望。为了应对视觉表示学习中的挑战,例如图像中的不连续性和高分辨率输入,我们对 FNO 提出了原则性的架构修改,从而提高了内存和计算效率。这包括在通道混合权重上施加块对角线结构,在令牌之间自适应地共享权重,以及通过软阈值和收缩来稀疏化频率模式。生成的模型与准线性复杂度高度并行,并且在序列大小上具有线性记忆。 AFNO 在效率和准确性方面都优于用于少镜头分割的自注意力机制。对于使用 Segformer-B3 主干的 Cityscapes 分割,AFNO 可以处理 65k 的序列大小,并且优于其他有效的自注意力机制。

* 题目: SwinBERT: End-to-End Transformers with Sparse Attention for Video Captioning
* 链接: https://arxiv.org/abs/2111.13196
* 作者: Kevin Lin,Linjie Li,Chung-Ching Lin,Faisal Ahmed,Zhe Gan,Zicheng Liu,Yumao Lu,Lijuan Wang
* 摘要: 视频字幕的规范方法要求字幕生成模型从离线提取的密集视频特征中学习。这些特征提取器通常对以固定帧速率采样的视频帧进行操作,并且通常在图像/视频理解任务上进行训练,而不适应视频字幕数据。在这项工作中,我们提出了 SwinBERT,这是一种基于端到端转换器的视频字幕模型,它直接将视频帧补丁作为输入,并输出自然语言描述。我们的方法不是利用多个 2D/3D 特征提取器,而是采用视频转换器来编码时空表示,该表示可以适应不同长度的视频输入,而无需针对不同的帧速率进行专门的设计。基于此模型架构,我们表明视频字幕可以从更密集的采样视频帧中受益,而不是以前在视频和语言理解任务(例如,视频问答)中使用稀疏采样的视频帧取得的成功。此外,为了避免连续视频帧中的固有冗余,我们建议自适应地学习稀疏注意力掩码并通过更好的远程视频序列建模来优化它以提高特定于任务的性能。通过对 5 个视频字幕数据集的大量实验,我们表明 SwinBERT 与以前的方法相比实现了全面的性能改进,通常是大幅度提高。此外,学习到的稀疏注意力掩码将极限推向了新的艺术状态,并且可以在不同的视频长度和不同的数据集之间转移。

* 题目: Global Interaction Modelling in Vision Transformer via Super Tokens
* 链接: https://arxiv.org/abs/2111.13156
* 作者: Ammarah Farooq,Muhammad Awais,Sara Ahmed,Josef Kittler
* 摘要: 随着 Transformer 架构在计算机视觉中的普及,研究重点已转向开发计算效率高的设计。基于窗口的局部注意力是最近工作中采用的主要技术之一。这些方法从非常小的补丁大小和小的嵌入维度开始,然后执行跨步卷积(补丁合并)以减小特征图大小并增加嵌入维度,从而形成类似金字塔形卷积神经网络(CNN)的设计。在这项工作中,我们通过提出一种新颖的各向同性架构来研究 Transformer 中的局部和全局信息建模,该架构采用局部窗口和特殊标记(称为超级标记)来进行自我注意。具体来说,单个超级令牌被分配给每个图像窗口,用于捕获该窗口的丰富局部细节。然后将这些令牌用于跨窗口通信和全局表示学习。因此,大部分学习独立于较高层中的图像块 $(N)$,并且类嵌入仅基于超级标记 $(N/M^2)$ 学习,其中 $M^2$ 是窗口大小。在 Imagenet-1K 上的标准图像分类中,所提出的基于超级令牌的变换器 (STT-S25) 达到了 83.5% 的准确率,相当于 Swin 变换器 (Swin-B) 的参数数量的一半 (49M) 和两倍的推理时间吞吐量。提议的超级令牌转换器为视觉识别任务提供了一个轻量级且有前途的主干。

* 题目: Scene Representation Transformer: Geometry-Free Novel View Synthesis Through Set-Latent Scene Representations
* 链接: https://arxiv.org/abs/2111.13152
* 作者: Mehdi S. M. Sajjadi,Henning Meyer,Etienne Pot,Urs Bergmann,Klaus Greff,Noha Radwan,Suhani Vora,Mario Lucic,Daniel Duckworth,Alexey Dosovitskiy,Jakob Uszkoreit,Tom Funkhouser,Andrea Tagliasacchi
* 其他: Project website: this https URL
* 摘要: 计算机视觉中的一个经典问题是从可用于以交互速率渲染新视图的少数图像中推断出 3D 场景表示。以前的工作侧重于重建预定义的 3D 表示,例如纹理网格或隐式表示,例如辐射场,并且通常需要输入图像具有精确的相机姿势和每个新场景的长处理时间。在这项工作中,我们提出了场景表示变换器 (SRT),这是一种处理新区域的有姿势或未姿势的 RGB 图像的方法,推断“集合潜在场景表示”,并合成新视图,所有这些都在单个前馈中经过。为了计算场景表示,我们建议将 Vision Transformer 推广到图像集,从而实现全局信息集成,从而实现 3D 推理。高效的解码器转换器通过参与场景表示来渲染新视图来参数化光场。通过最小化新视图重建错误来端到端监督学习。我们表明,该方法在合成数据集的 PSNR 和速度方面优于最近的基线,包括为论文创建的新数据集。此外,我们证明了 SRT 可以扩展以支持使用街景图像的真实户外环境的交互式可视化和语义分割。

* 题目: BoxeR: Box-Attention for 2D and 3D Transformers
* 链接: https://arxiv.org/abs/2111.13087
* 作者: Duy-Kien Nguyen,Jihong Ju,Olaf Booji,Martin R. Oswald,Cees G. M. Snoek
* 摘要: 在本文中,我们提出了一种简单的注意力机制,我们称之为 Box-Attention。它实现了网格特征之间的空间交互,如从感兴趣的框中采样,并提高了转换器对多个视觉任务的学习能力。具体来说,我们提出 BoxeR,Box Transformer 的缩写,它通过从输入特征图上的参考窗口预测它们的变换来处理一组框。 BoxeR 通过考虑其网格结构来计算这些框的注意力权重。值得注意的是,BoxeR-2D 自然会在其注意力模块中对框信息进行推理,使其适用于端到端的实例检测和分割任务。通过在 box-attention 模块中学习旋转不变性,BoxeR-3D 能够从鸟瞰平面生成判别信息,用于 3D 端到端对象检测。我们的实验表明,所提出的 BoxeR-2D 在 COCO 检测上取得了更好的结果,并且在 COCO 实例分割上达到了与成熟且高度优化的 Mask R-CNN 相当的性能。 BoxeR-3D 已经在 Waymo Open 的车辆类别中获得了引人注目的性能,无需任何特定于类别的优化。代码将被发布。

* 题目: NomMer: Nominate Synergistic Context in Vision Transformer for Visual Recognition
* 链接: https://arxiv.org/abs/2111.12994
* 作者: Hao Liu,Xinghua Jiang,Xin Li,Zhimin Bao,Deqiang Jiang,Bo Ren
* 其他: Tech report
* 摘要: 最近,以自注意力(SA)为事实上的成分的视觉变换器(ViT)在计算机视觉社区中展示了巨大的潜力。为了在效率和性能之间进行权衡,一组作品仅在局部补丁内执行 SA 操作,而放弃了全局上下文信息,这对于视觉识别任务是必不可少的。为了解决这个问题,随后的全局-局部 ViT 尝试在模型中以并行或替代方式将局部 SA 与全局 SA 结合。然而,详尽结合的局部和全局上下文对于各种视觉数据可能存在冗余,并且每一层内的感受野是固定的。或者,一种更优雅的方式是全局和局部上下文本身可以自适应地贡献以适应不同的视觉数据。为了实现这一目标,我们在本文中提出了一种新的 ViT 架构,称为 NomMer,它可以动态提名视觉变换器中的协同全局-局部上下文。通过研究我们提议的 NomMer 的工作模式,我们进一步探索了关注的上下文信息。受益于这种“动态提名”机制,没有花里胡哨,NomMer 不仅可以在仅 7300 万个参数的情况下在 ImageNet 上达到 84.5% 的 Top-1 分类准确率,而且在密集预测任务(即对象检测和语义)上也表现出良好的性能分割。代码和模型将在~/url{this https URL.

* 题目: PolyViT: Co-training Vision Transformers on Images, Videos and Audio
* 链接: https://arxiv.org/abs/2111.12993
* 作者: Valerii Likhosherstov,Anurag Arnab,Krzysztof Choromanski,Mario Lucic,Yi Tay,Adrian Weller,Mostafa Dehghani
* 摘要: 我们能否训练一个能够处理多种模态和数据集的 Transformer 模型,同时共享几乎所有的可学习参数?我们展示了 PolyViT,这是一个经过图像、音频和视频训练的模型,可以回答这个问题。通过在单一模态上联合训练不同的任务,我们能够提高每个单独任务的准确性,并在 5 个标准视频和音频分类数据集上取得最先进的结果。在多种模态和任务上共同训练 PolyViT 会产生一个参数效率更高的模型,并学习跨多个域泛化的表示。此外,我们表明协同训练实施起来既简单又实用,因为我们不需要为每个数据集组合调整超参数,而可以简单地适应标准单任务训练中的超参数。

* 题目: Exploiting Both Domain-specific and Invariant Knowledge via a Win-win Transformer for Unsupervised Domain Adaptation
* 链接: https://arxiv.org/abs/2111.12941
* 作者: Wenxuan Ma,Jinming Zhang,Shuang Li,Chi Harold Liu,Yulin Wang,Wei Li
* 摘要: 无监督域适应 (UDA) 旨在将知识从标记的源域转移到未标记的目标域。大多数现有的 UDA 方法通过学习域不变表示和跨两个域共享一个分类器来实现知识转移。然而,忽略与任务相关的领域特定信息,并强制统一分类器适应两个领域将限制每个领域的特征表达能力。在本文中,通过观察具有可比参数的 Transformer 架构可以生成比 CNN 对应物更多的可转移表示,我们提出了一个 Win-Win TRansformer 框架(WinTR),它分别探索每个域的特定领域知识,同时跨域交换知识。具体来说,我们在 Transformer 中使用两个单独的分类标记来学习两种不同的映射,并为每个标记设计一个特定于域的分类器。跨域知识通过源引导标签细化和相对于源或目标的单边特征对齐进行传输,从而保持特定领域信息的完整性。在三个基准数据集上的大量实验表明,我们的方法优于最先进的 UDA 方法,验证了利用特定领域和不变性的有效性

* 题目: A Volumetric Transformer for Accurate 3D Tumor Segmentation
* 链接: https://arxiv.org/abs/2111.13300
* 作者: Himashi Peiris,Munawar Hayat,Zhaolin Chen,Gary Egan,Mehrtash Harandi
* 摘要: 本文提出了一种用于体积医学图像分割的 Transformer 架构。为体积分割设计计算效率高的 Transformer 架构是一项具有挑战性的任务。它需要在编码局部和全局空间线索时保持复杂的平衡,并沿体积数据的所有轴保留信息。拟议的体积变换器具有 U 形编码器-解码器设计,可整体处理输入体素。我们的编码器有两个连续的自注意力层来同时编码局部和全局线索,我们的解码器具有新颖的基于平行移动窗口的自注意力和交叉注意力块,通过包含傅里叶位置编码来捕获精细的细节以进行边界细化。我们提出的设计选择产生了计算效率高的架构,该架构在脑肿瘤分割 (BraTS) 2021 和用于肿瘤分割的医学分割十项全能(胰腺和肝脏)数据集上展示了有希望的结果。我们进一步表明,我们的模型学习的表示可以更好地跨数据集迁移,并且对数据损坏具有鲁棒性。 /href{this https URL}{我们的代码实现是公开的}。



三维视觉

* 题目: Neural Fields as Learnable Kernels for 3D Reconstruction
* 链接: https://arxiv.org/abs/2111.13674
* 作者: Francis Williams,Zan Gojcic,Sameh Khamis,Denis Zorin,Joan Bruna,Sanja Fidler,Or Litany
* 摘要: 我们提出了神经核场:一种基于学习的核脊回归重建隐式 3D 形状的新方法。我们的技术在从稀疏定向点重建 3D 对象和大场景时取得了最先进的结果,并且可以在几乎不降低精度的情况下重建训练集之外的形状类别。我们方法的核心见解是,当所选内核具有适当的归纳偏置时,内核方法对于重建形状非常有效。因此,我们将形状重建问题分解为两部分:(1)从数据中学习内核参数的骨干神经网络,以及(2)通过求解一个简单的正定问题来即时拟合输入点的内核岭回归使用学习到的内核的线性系统。由于这种分解,我们的重建在稀疏点密度下获得了数据驱动方法的好处,同时保持了插值行为,随着输入采样密度的增加,它会收敛到地面实况形状。我们的实验证明了对训练集类别和扫描场景之外的对象的强大泛化能力。此 https URL 提供源代码和预训练模型。

* 题目: 3D shape sensing and deep learning-based segmentation of strawberries
* 链接: https://arxiv.org/abs/2111.13663
* 作者: Justin Le Louëdec,Grzegorz Cielniak
* 其他: 14 pages, 13 figures, accepted to Computers and Electronics in Agriculture
* 摘要: 农业部门的自动化和机器人化被视为应对该行业面临的社会经济挑战的可行解决方案。该技术通常依赖于提供有关作物、植物和整个环境的信息的智能感知系统。现代 3D 视觉系统可以解决传统 2D 视觉系统面临的挑战,现代 3D 视觉系统可以直接定位对象、估计大小和形状或处理遮挡。到目前为止,3D 传感的使用主要限于室内或结构化环境。在本文中,我们评估了现代传感技术,包括用于农业 3D 形状感知的立体和飞行时间相机,并研究它们根据形状从背景中分离出软水果的可用性。为此,我们提出了一种新颖的 3D 深度神经网络,它利用了源自基于相机的 3D 传感器的信息的有组织的性质。与最先进的 3D 网络相比,我们展示了所提出架构的卓越性能和效率。通过模拟研究,我们还展示了 3D 传感范式在农业对象分割方面的潜力,并提供了对作物进一步分析所需和预期的形状质量的见解和分析。这项工作的结果应该鼓励研究人员和公司开发更准确和强大的 3D 传感技术,以确保它们在实际农业应用中得到更广泛的采用。

* 题目: Gradient-SDF: A Semi-Implicit Surface Representation for 3D Reconstruction
* 链接: https://arxiv.org/abs/2111.13652
* 作者: Christiane Sommer,Lu Sang,David Schubert,Daniel Cremers
* 其他: First two authors contributed equally
* 摘要: 我们提出了 Gradient-SDF,这是一种新颖的 3D 几何表示,结合了隐式和显式表示的优点。通过在每个体素上存储有符号距离场及其梯度矢量场,我们使用最初为显式表面制定的方法增强了隐式表示的能力。作为具体的例子,我们表明 (1) Gradient-SDF 允许我们从深度图像执行直接 SDF 跟踪,使用有效的存储方案,如哈希图,以及 (2) Gradient-SDF 表示使我们能够执行光度束调整直接在体素表示中(不转换为点云或网格),自然是几何和相机姿势的完全隐式优化以及简单的几何上采样。实验结果证实,这导致显着更清晰的重建。由于仍然遵循整体 SDF 体素结构,因此所提出的 Gradient-SDF 与相关方法同样适用于 (GPU) 并行化。

* 题目: Morphology Decoder: A Machine Learning Guided 3D Vision Quantifying Heterogenous Rock Permeability for Planetary Surveillance and Robotic Functions
* 链接: https://arxiv.org/abs/2111.13460
* 作者: Omar Alfarisi,Aikifa Raza,Djamel Ouzzane,Hongxia Li,Mohamed Sassi,Tiejun Zhang
* 摘要: 渗透率对天然流体的流动特性有主要影响。格子玻尔兹曼模拟器从纳米和微孔网络确定渗透率。该模拟器拥有数百万次流动动力学计算,其累积误差和计算能力消耗很大。为了有效和一致地预测渗透率,我们提出了一种形态解码器,一种从 3D 微型计算机断层扫描和核磁共振图像中机器学习分段异质白垩纪纹理的并行和串行流重建。对于 3D 视觉,我们引入了可控测量体积作为新的监督分割,其中一组独特的体素强度对应于颗粒和孔喉尺寸。形态解码器以一种新颖的方式划分和聚合形态边界以产生渗透性。形态解码器方法由五个新过程组成,在本文中进行了描述,这些新过程是:(1)几何 3D 渗透率,(2)机器学习引导的岩石形态 3D 属性识别,(3)渗透率的 3D 图像属性集成模型, (4) MRI Permeability Imager, 和 (5) Morphology Decoder(整合其他四个新流程的流程)。

* 题目: POEM: 1-bit Point-wise Operations based on Expectation-Maximization for Efficient Point Cloud Processing
* 链接: https://arxiv.org/abs/2111.13386
* 作者: Sheng Xu,Yanjing Li,Junhe Zhao,Baochang Zhang,Guodong Guo
* 其他: Accepted by BMVC 2021. arXiv admin note: text overlap with arXiv:2010.05501 by other authors
* 摘要: 实时点云处理是许多计算机视觉任务的基础,但仍然受到资源有限边缘设备上计算问题的挑战。为了解决这个问题,我们实现了基于 XNOR-Net 的二元神经网络 (BNN) 以进行高效的点云处理,但由于两个主要缺点,高斯分布权重和不可学习的比例因子,其性能受到严重影响。在本文中,我们将基于期望最大化(POEM)的逐点操作引入到 BNN 中,以实现高效的点云处理。 EM 算法可以有效地约束稳健双峰分布的权重。我们采用精心设计的重建损失来计算可学习的比例因子,以增强 1 位全连接 (Bi-FC) 层的表示能力。大量实验表明,我们的 POEM 以高达 6.7% 的显着优势超越了现有的最先进的二进制点云网络。

* 题目: Data Augmented 3D Semantic Scene Completion with 2D Segmentation Priors
* 链接: https://arxiv.org/abs/2111.13309
* 作者: Aloisio Dourado,Frederico Guth,Teofilo de Campos
* 其他: 10 pages, 5 figures
* 摘要: 语义场景完成 (SSC) 是一项具有挑战性的计算机视觉任务,具有许多实际应用,从机器人技术到辅助计算。它的目标是推断场景视野中的 3D 几何形状和体素的语义标签,包括遮挡区域。在这项工作中,我们提出了 SPAwN,这是一种新型的轻量级多模态 3D 深度 CNN,可将来自 RGB-D 图像深度分量的结构数据与来自双模态 2D 分割网络的语义先验无缝融合。该领域的一个关键困难是缺乏完全标记的真实世界 3D 数据集,这些数据集大到足以训练当前需要大量数据的深度 3D CNN。在二维计算机视觉任务中,已经提出了许多数据增强策略来提高 CNN 的泛化能力。然而,这些方法不能直接应用于 SSC 解决方案的 RGB-D 输入和输出量。在本文中,我们介绍了可应用于多模态 SSC 网络的 3D 数据增强策略的使用。我们通过全面且可重复的消融研究来验证我们的贡献。我们的解决方案始终以类似的复杂程度超越以前的作品。

* 题目: Medial Spectral Coordinates for 3D Shape Analysis
* 链接: https://arxiv.org/abs/2111.13295
* 作者: Morteza Rezanejad,Mohammad Khodadad,Hamidreza Mahyar,Herve Lombaert,Michael Gruninger,Dirk B. Walther,Kaleem Siddiqi
* 摘要: 近年来,我们社区对由表面网格、其体素化内部或表面点云表示的 3D 对象的形状分析重新产生了兴趣。在某种程度上,RGBD 相机的可用性增加以及计算机视觉在自动驾驶、医学成像和机器人技术中的应用激发了这种兴趣。在这些设置中,光谱坐标已显示出形状表示的前景,因为它们能够以对等距变换定性不变的方式结合局部和全局形状属性。然而,令人惊讶的是,迄今为止,此类坐标通常只考虑局部表面位置或派生信息。在本文中,我们建议为光谱坐标配备中间(物体宽度)信息,以丰富它们。关键思想是通过邻接矩阵的权重耦合共享一个内侧球的表面点。我们使用这个想法开发了一个光谱特征,以及计算它的算法。对象宽度和中间耦合的结合具有直接的好处,正如我们在对象分类、对象部分分割和表面点对应方面的实验所示。

* 题目: 3D Pose Estimation and Future Motion Prediction from 2D Images
* 链接: https://arxiv.org/abs/2111.13285
* 作者: Ji Yang,Youdong Ma,Xinxin Zuo,Sen Wang,Minglun Gong,Li Cheng
* 其他: Accepted by Pattern Recognition
* 摘要: 本文考虑联合解决估计 3D 人体姿势和从 RGB 图像序列预测未来 3D 运动的高度相关任务。基于李代数姿势表示,提出了一种新颖的自投影机制,可以自然地保留人体运动学。基于编码器-解码器拓扑的序列到序列多任务架构进一步促进了这一点,这使我们能够利用两个任务共享的共同点。最后,提出了一个全局优化模块来提高我们框架的性能。我们称为 PoseMoNet 的方法的有效性通过对 Human3.6M 和 HumanEva-I 基准的消融测试和实证评估证明,与最先进的技术相比,获得了有竞争力的性能。

* 题目: NeSF: Neural Semantic Fields for Generalizable Semantic Segmentation of 3D Scenes
* 链接: https://arxiv.org/abs/2111.13260
* 作者: Suhani Vora,Noha Radwan,Klaus Greff,Henning Meyer,Kyle Genova,Mehdi S. M. Sajjadi,Etienne Pot,Andrea Tagliasacchi,Daniel Duckworth
* 其他: Project website: this https URL
* 摘要: 我们提出了 NeSF,这是一种仅从构成的 RGB 图像生成 3D 语义场的方法。代替经典的 3D 表示,我们的方法建立在隐式神经场景表示的最新工作之上,其中 3D 结构由逐点函数捕获。我们利用这种方法来恢复 3D 密度场,然后在此基础上训练由构成的 2D 语义图监督的 3D 语义分割模型。尽管仅在 2D 信号上进行训练,我们的方法能够从新的相机姿势生成 3D 一致的语义图,并且可以在任意 3D 点进行查询。值得注意的是,NeSF 与任何产生密度场的方法兼容,其精度随着密度场质量的提高而提高。我们的实证分析表明,在复杂的、真实渲染的合成场景上,其质量可与竞争性 2D 和 3D 语义分割基线相媲美。我们的方法是第一个提供真正密集的 3D 场景分割,只需要 2D 监督进行训练,并且不需要任何语义输入来推理新场景。我们鼓励读者访问项目网站。

* 题目: GeomNet: A Neural Network Based on Riemannian Geometries of SPD Matrix Space and Cholesky Space for 3D Skeleton-Based Interaction Recognition
* 链接: https://arxiv.org/abs/2111.13089
* 作者: Xuan Son Nguyen
* 其他: Accepted in ICCV 2021
* 摘要: 在本文中,我们提出了一种从 3D 骨架序列表示和分类两人交互的新方法。我们方法的关键思想是使用高斯分布来捕获 R n 和对称正定 (SPD) 矩阵空间上的统计数据。主要的挑战是如何参数化这些分布。为此,我们开发了基于李群和黎曼对称空间理论在矩阵群中嵌入高斯分布的方法。我们的方法依赖于底层流形的黎曼几何,并且具有从 3D 关节位置编码高阶统计数据的优势。我们表明,所提出的方法在 3D 人类活动理解的三个基准上的两人交互识别中取得了有竞争力的结果。

* 题目: Rotation Equivariant 3D Hand Mesh Generation from a Single RGB Image
* 链接: https://arxiv.org/abs/2111.13023
* 作者: Joshua Mitton,Chaitanya Kaul,Roderick Murray-Smith
* 摘要: 我们开发了一个旋转等变模型,用于从 2D RGB 图像生成 3D 手部网格。这保证了当手的输入图像旋转时,生成的网格会经历相应的旋转。此外,这消除了通常由没有旋转等方差的方法生成的网格中的不良变形。通过构建旋转等变模型,通过考虑问题中的对称性,我们减少了对非常大的数据集进行训练以实现良好网格重建的需要。编码器获取定义在 $/mathbb{Z}^{2}$ 上的图像,并将这些图像映射到定义在 $C_{8}$ 组上的潜在函数。我们引入了一个新的向量映射函数来将 $C_{8}$ 上定义的函数映射到 $/mathrm{SO}(2)$ 组上定义的潜在点云空间。此外,我们引入了一个 3D 投影函数,该函数从 $/mathrm{SO}(2)$ 潜在空间中学习 3D 函数。最后,我们使用 $/mathrm{SO}(3)$ 等变解码器来确保旋转等变。我们的旋转等变模型在现实世界的数据集上优于最先进的方法,并且我们证明它在输入手的旋转下准确地捕获了生成的网格中的形状和姿势。

* 题目: Joint stereo 3D object detection and implicit surface reconstruction
* 链接: https://arxiv.org/abs/2111.12924
* 作者: Shichao Li,Kwang-Ting Cheng
* 摘要: 我们提出了第一个基于学习的框架,用于基于野外的一对立体 RGB 图像进行类别级 3D 对象检测和隐式形状估计。传统的立体 3D 对象检测方法仅使用 3D 边界框描述检测到的对象,无法推断其完整的表面几何形状,这使得创建逼真的户外沉浸式体验变得困难。相比之下,我们提出了一种新模型 S-3D-RCNN,它可以执行精确定位,并为检测到的对象提供完整且与分辨率无关的形状描述。我们首先使用全局-局部框架将对象坐标系的估计与形状重建解耦。然后,我们提出了一个新的实例级网络,该网络通过从立体感兴趣区域中提取基于点的表示来解决看不见的表面幻觉问题,并用预测的完整表面几何形状推断隐式形状代码。大量实验使用 KITTI 基准上的现有和新指标验证了我们的方法的卓越性能。此 https URL 将提供代码和预训练模型。

* 题目: Multiway Non-rigid Point Cloud Registration via Learned Functional Map Synchronization
* 链接: https://arxiv.org/abs/2111.12878
* 作者: Jiahui Huang,Tolga Birdal,Zan Gojcic,Leonidas J. Guibas,Shi-Min Hu
* 摘要: 我们提出了 SyNoRiM,这是一种通过同步与点云上定义的学习函数相关的地图来联合注册多个非刚性形状的新方法。尽管处理非刚性形状的能力在从计算机动画到 3D 数字化的各种应用中至关重要,但文献仍然缺乏一个强大而灵活的框架来匹配和对齐在遮挡下观察到的真实、嘈杂的扫描集合。给定一组这样的点云,我们的方法首先计算通过功能映射参数化的成对对应关系。我们同时学习潜在的非正交基函数以有效地规范变形,同时以优雅的方式处理遮挡。为了最大限度地受益于推断的成对变形场提供的多路信息,我们将成对功能图同步为循环一致的整体,这要归功于我们新颖且有原则的优化公式。我们通过大量实验证明,我们的方法在配准精度方面达到了最先进的性能,同时灵活高效,因为我们在统一框架中处理非刚性和多体情况,并避免了代价高昂的点优化通过使用基函数映射的明智排列。

* 题目: Exploiting full Resolution Feature Context for Liver Tumor and Vessel Segmentation via Fusion Encoder: Application to Liver Tumor and Vessel 3D reconstruction
* 链接: https://arxiv.org/abs/2111.13299
* 作者: Xiangyu Meng,Xudong Zhang,Gan Wang,Ying Zhang,Xin Shi,Huanhuan Dai,Zixuan Wang,Xun Wang
* 其他: 15 pages, 6 Figures
* 摘要: 肝癌是世界上最常见的恶性肿瘤之一。 CT图像中肝脏肿瘤和血管的分割和标记可以为医生进行肝脏肿瘤的诊断和手术干预提供便利。在过去的几十年里,基于深度学习的自动 CT 分割方法在医学领域受到了广泛的关注。在此期间出现了许多最先进的分割算法。然而,现有的分割方法大多只关心局部特征上下文,对医学图像的全局相关性存在感知缺陷,严重影响肝脏肿瘤和血管的分割效果。我们介绍了一种基于 Transformer 和 SEBottleNet 的称为 TransFusionNet 的多尺度特征上下文融合网络。该网络可以准确检测和识别肝血管感兴趣区域的细节,同时利用CT图像的全局信息可以提高对肝脏肿瘤形态学边缘的识别。实验表明 TransFusionNet 在公共数据集 LITS 和 3Dircadb 以及我们的临床数据集上都优于最先进的方法。最后,我们提出了一种基于训练模型的自动 3D 重建算法。该算法可以在1秒内快速准确地完成重建。



视频处理

* 题目: Detecting and Tracking Small and Dense Moving Objects in Satellite Videos: A Benchmark
* 链接: https://arxiv.org/abs/2111.12960
* 作者: Qian Yin,Qingyong Hu,Hao Liu,Feng Zhang,Yingqian Wang,Zaiping Lin,Wei An,Yulan Guo
* 其他: This paper has been accepted by IEEE Transactions on Geoscience and Remote Sensing. Qian Yin and Qingyong Hu have equal contributions to this work and are co-first authors. The dataset is available at this https URL
* 摘要: 卫星摄像机可以提供大范围区域的连续观测,这对许多遥感应用很重要。然而,由于物体的外观信息不足和缺乏高质量的数据集,在卫星视频中实现运动物体检测和跟踪仍然具有挑战性。在本文中,我们首先为运动目标检测和跟踪任务构建了一个具有丰富注释的大规模卫星视频数据集。该数据集由吉林一号卫星星座收集,由 47 个高质量视频组成,其中包含 1,646,038 个用于对象检测的感兴趣实例和 3,711 条用于对象跟踪的轨迹。然后,我们引入了一个运动建模基线,以基于累积多帧差分和稳健矩阵完成来提高检测率并减少误报。最后,我们为卫星视频中的运动物体检测和跟踪建立了第一个公共基准,并广泛评估了几种代表性方法在我们的数据集上的性能。还提供了全面的实验分析和深刻的结论。该数据集可在此 https URL 处获得。

* 题目: Layered Controllable Video Generation
* 链接: https://arxiv.org/abs/2111.12747
* 作者: Jiahui Huang,Yuhe Jin,Kwang Moo Yi,Leonid Sigal
* 摘要: 我们引入了分层可控的视频生成,在没有任何监督的情况下,我们将视频的初始帧分解为前景和背景层,用户可以通过简单地操纵前景蒙版来控制视频生成过程。主要挑战是无监督的前景 - 背景分离,这是模棱两可的,以及仅访问原始视频序列来预测用户操作的能力。我们通过提出一个两阶段的学习程序来应对这些挑战。在第一阶段,利用丰富的损失集和动态前景大小,我们学习如何将帧分成前景和背景层,并以这些层为条件,如何使用 VQ-VAE 生成器生成下一帧。在第二阶段,我们通过将(参数化)控制拟合到来自未来帧的掩码来微调该网络以预测对掩码的编辑。我们展示了这种学习和更细粒度的控制机制的有效性,同时在两个基准数据集上展示了最先进的性能。我们在此 https URL 上提供视频摘要和一些视频结果



分割

* 题目: Mask Transfiner for High-Quality Instance Segmentation
* 链接: https://arxiv.org/abs/2111.13673
* 作者: Lei Ke,Martin Danelljan,Xia Li,Yu-Wing Tai,Chi-Keung Tang,Fisher Yu
* 其他: Project page: http://vis.xyz/pub/transfiner
* 摘要: 两阶段和基于查询的实例分割方法取得了显着的效果。然而,它们的分割掩码仍然非常粗糙。在本文中,我们提出了用于高质量和高效实例分割的 Mask Transfiner。我们的 Mask Transfiner 不是对常规密集张量进行操作,而是将图像区域分解并表示为四叉树。我们基于转换器的方法仅处理检测到的容易出错的树节点并并行地自我纠正它们的错误。虽然这些稀疏像素仅占总数的一小部分,但它们对最终掩模质量至关重要。这允许 Mask Transfiner 以较低的计算成本预测高度准确的实例掩码。大量实验表明,Mask Transfiner 在三个流行的基准测试中优于当前的实例分割方法,在 COCO 和 BDD100K 上以 +3.0 的掩码 AP 和在 Cityscapes 上 +6.6 的边界 AP 显着改善了两阶段和基于查询的框架。我们的代码和训练有素的模型将在 http://vis.xyz/pub/transfiner 上提供。

* 题目: Modeling Human Preference and Stochastic Error for Medical Image Segmentation with Multiple Annotators
* 链接: https://arxiv.org/abs/2111.13410
* 作者: Liao Zehui,Hu Shishuai,Xie Yutong,Xia Yong
* 摘要: 医学图像的人工标注是高度主观的,导致不可避免的巨大标注偏差。深度学习模型可能会在各种任务上超越人类的表现,但它们也可能模仿或放大这些偏见。虽然我们可以有多个注释者并融合他们的注释以减少随机错误,但我们不能使用这种策略来处理由注释者的偏好引起的偏差。在本文中,我们强调了医学图像分割任务中与注释器相关的偏差问题,并提出了一个涉及偏好的注释分布学习 (PADL) 框架,从使用分布学习将注释器的偏好与随机误差解开的角度来解决这个问题,因此不仅生成元分割,还生成每个注释者可能进行的分割。在这个框架下,一个随机误差建模(SEM)模块估计元分割图和平均随机误差图,一系列人类偏好建模(HPM)模块估计每个注释者的分割和相应的随机误差。我们在具有不同成像模式的两个医学图像基准上评估了我们的 PADL 框架,这些基准已由多个医学专业人员进行注释,并在所有五个医学图像分割任务上取得了可喜的性能。

* 题目: Efficient Self-Ensemble Framework for Semantic Segmentation
* 链接: https://arxiv.org/abs/2111.13280
* 作者: Walid Bousselham,Guillaume Thibault,Lucas Pagano,Archana Machireddy,Joe Gray,Young Hwan Chang,Xubo Song
* 其他: Code available at this https URL
* 摘要: 众所周知,整体预测比单独进行的单个预测表现更好。然而,对于需要大量计算资源的任务,/textit{e.g.} 语义分割,创建需要单独训练的学习器集合很难处理。在这项工作中,我们建议利用集成方法提供的性能提升来增强语义分割,同时避免集成的传统繁重训练成本。我们的自集成框架利用特征金字塔网络方法产生的多尺度特征集来馈送独立的解码器,从而在单个模型中创建一个集成。与集成类似,最终预测是每个学习器所做预测的聚合。与之前的工作相比,我们的模型可以进行端到端的训练,减轻了传统繁琐的多阶段集成训练。我们的自集成框架在用于语义分割的基准数据集 ADE20K、Pascal Context 和 COCO-Stuff-10K 上优于当前的最新技术,并且在 Cityscapes 上具有竞争力。代码将在此 http URL 上可用。

* 题目: Surface Segmentation Using Implicit Divergence Constraint Between Adjacent Minimal Paths
* 链接: https://arxiv.org/abs/2111.13111
* 作者: Jozsef Molnar,Peter Horvath
* 摘要: 我们介绍了一种使用修改后的最小路径 Eikonal 方程从 3D 图像进行对象分割的新方法。所提出的方法利用隐式约束 - 对非均匀最小路径 Eikonal 的二阶校正 - 防止相邻的最小路径轨迹无法控制地发散。提议的修改大大减少了最小路径未覆盖的表面积,允许使用计算的最小路径集作为近似表面的参数线。它还与同样推导出的真实最小表面 Eikonal 方程有松散的联系。

* 题目: Towards Fewer Annotations: Active Learning via Region Impurity and Prediction Uncertainty for Domain Adaptive Semantic Segmentation
* 链接: https://arxiv.org/abs/2111.12940
* 作者: Binhui Xie,Longhui Yuan,Shuang Li,Chi Harold Liu,Xinjing Cheng
* 其他: 18 pages
* 摘要: 自训练极大地促进了域自适应语义分割,它在目标域上迭代生成伪标签并重新训练网络。然而,由于现实的分割数据集高度不平衡,目标伪标签通常偏向于大多数类别并且基本上是嘈杂的,导致容易出错和次优的模型。为了解决这个问题,我们提出了一种基于区域的主动学习方法,用于域转移下的语义分割,旨在自动查询要标记的一小部分图像区域,同时最大限度地提高分割性能。我们的算法,通过区域杂质和预测不确定性进行主动学习 (AL-RIPU),引入了一种新颖的采集策略,该策略表征图像区域的空间相邻性以及预测置信度。我们表明,所提出的基于区域的选择策略比基于图像或基于点的选择策略更有效地利用有限的预算。同时,我们在源图像上强制像素与其最近邻居之间的局部预测一致性。此外,我们开发了一个负学习损失来增强目标域上的判别式表示学习。大量实验表明,我们的方法只需要很少的注释即可几乎达到监督性能,并且大大优于最先进的方法。

* 题目: Perturbed and Strict Mean Teachers for Semi-supervised Semantic Segmentation
* 链接: https://arxiv.org/abs/2111.12903
* 作者: Yuyuan Liu,Yu Tian,Yuanhong Chen,Fengbei Liu,Vasileios Belagiannis,Gustavo Carneiro
* 摘要: 使用输入图像、特征或网络扰动的一致性学习在半监督语义分割中显示出显着的结果,但这种方法可能会受到未标记训练图像的不准确预测的严重影响。这些不准确的预测有两个后果:1)基于“严格”交叉熵(CE)损失的训练很容易过拟合预测错误,导致确认偏差; 2)应用于这些不准确预测的扰动将使用潜在的错误预测作为训练信号,降低一致性学习。在本文中,我们通过均值教师 (MT) 模型的新扩展来解决一致性学习方法的预测精度问题,其中包括一个新的辅助教师,以及用更严格的置信度替换 MT 的均方误差 (MSE) -加权交叉熵(Conf-CE)损失。该模型的准确预测使我们能够使用网络、输入数据和特征扰动的具有挑战性的组合来改进一致性学习泛化,其中特征扰动由新的对抗性扰动组成。公共基准测试的结果表明,我们的方法比该领域以前的 SOTA 方法取得了显着的改进。

* 题目: Uncertainty Aware Proposal Segmentation for Unknown Object Detection
* 链接: https://arxiv.org/abs/2111.12866
* 作者: Yimeng Li,Jana Kosecka
* 其他: Accepted to WACV 2022 DNOW Workshop
* 摘要: 最近在现实世界应用程序(例如自动驾驶)中部署深度神经网络进行对象检测的努力假设在训练期间已观察到所有相关的对象类别。当测试数据未在训练集中表示时,量化这些模型在设置中的性能主要集中在为语义分割训练的模型的像素级不确定性估计技术上。本文提出利用语义分割模型的额外预测并量化其置信度,然后将对象假设分类为已知与未知、分布对象之外的对象。我们使用区域提议网络 (RPN) 生成的对象提议,并使用径向基函数网络 (RBFN) 调整语义分割的距离感知不确定性估计,以进行类别不可知的对象掩码预测。然后使用增强的对象提议来训练已知与未知对象类别的分类器。实验结果表明,所提出的方法与用于未知物体检测的最先进方法实现了并行性能,并且还可以有效地用于降低物体检测器的误报率。我们的方法非常适合通过语义分割获得的非对象背景类别的预测可靠的应用。

* 题目: Towards an Efficient Semantic Segmentation Method of ID Cards for Verification Systems
* 链接: https://arxiv.org/abs/2111.12764
* 作者: Rodrigo Lara,Andres Valenzuela,Daniel Schulz,Juan Tapia,Christoph Busch
* 摘要: 去除 ID 卡图像中的背景对于远程验证系统来说是一个真正的挑战,因为许多重新数字化的图像呈现出杂乱的背景、较差的照明条件、失真和遮挡。 ID 卡图像中的背景混淆了分类器和文本提取。由于缺乏可用于研究的图像,该领域代表了当今计算机视觉中的一个悬而未决的问题。这项工作提出了一种使用身份证语义分割去除背景的方法。最后,使用由 45,007 张图像组成的手动标记数据集,使用来自三个国家(智利、阿根廷和墨西哥)的五种类型的身份证,包括典型的演示攻击场景,在实际操作中野外捕获的图像。这种方法可以帮助改进常规身份验证或文档篡改检测系统中的以下阶段。探索了两种基于 MobileUNet 和 DenseNet10 的深度学习方法。最好的结果是使用 MobileUNet 获得的,有 650 万个参数。在包含 4,988 张图像的私人测试数据集上,智利身份证的平均交集比 (IoU) 为 0.9926。来自智利、阿根廷和墨西哥的身份证图像融合多国数据集的最佳结果达到了 0.9911 的 IoU。所提出的方法足够轻量级,可用于移动设备上的实时操作。

* 题目: Efficient Multi-Organ Segmentation Using SpatialConfiguration-Net with Low GPU Memory Requirements
* 链接: https://arxiv.org/abs/2111.13630
* 作者: Franz Thaler,Christian Payer,Horst Bischof,Darko Stern
* 摘要: 尽管存在许多能够在许多医学数据集上表现良好的语义分割方法,但它们通常并不是为直接用于临床实践而设计的。两个主要问题是泛化具有不同视觉外观的不可见数据,例如使用不同扫描仪获取的图像,以及计算时间和所需图形处理单元 (GPU) 内存方面的效率。在这项工作中,我们采用基于空间配置网络 (SCN) 的多器官分割模型,该模型集成了标记器官之间空间配置的先验知识,以解决网络输出中的虚假响应。此外,我们修改了分割模型的架构,以在不显着影响预测质量的情况下尽可能减少其内存占用。最后,我们实现了一个最小的推理脚本,我们优化了执行时间和所需的 GPU 内存。

* 题目: Non Parametric Data Augmentations Improve Deep-Learning based Brain Tumor Segmentation
* 链接: https://arxiv.org/abs/2111.12991
* 作者: Hadas Ben-Atya,Ori Rajchert,Liran Goshen,Moti Freiman
* 摘要: 来自磁共振成像 (MRI) 数据的自动脑肿瘤分割在评估肿瘤对治疗的反应和个性化治疗分层方面起着重要作用。手动分割既乏味又主观。基于深度学习的脑肿瘤分割算法有可能提供客观和快速肿瘤分割。然而,此类算法的训练需要大量数据集,而这些数据集并不总是可用的。数据增强技术可能会减少对大型数据集的需求。然而,目前的方法大多是参数化的,可能会导致性能欠佳。我们介绍了两种用于脑肿瘤分割的非参数化数据增强方法:混合结构正则化 (MSR) 和随机像素噪声(SPN)。我们评估了 MSR 和 SPN 增强在脑肿瘤分割 (BraTS) 2018 挑战数据集上的附加值,使用编码器-解码器 nnU-Net 架构作为分割算法。MSR 和 SPN 都改进了 nnU-Net 分割与参数高斯噪声增强相比的准确性。分别将 MSR 与肿瘤核心和整个肿瘤实验的非参数增强进行比较时,平均骰子得分从 80% 增加到 82%,p 值 = 0.0022、0.0028。建议的 MSR 和 SPN 增强也有可能提高神经网络在其他任务中的性能。



非强监督

* 题目: Self-supervised Pretraining with Classification Labels for Temporal Activity Detection
* 链接: https://arxiv.org/abs/2111.13675
* 作者: Kumara Kahatapitiya,Zhou Ren,Haoxiang Li,Zhenyu Wu,Michael S. Ryoo
* 摘要: 与活动分类(即活动识别)中所做的视频级预测相比,时间活动检测旨在预测每帧的活动类别。由于检测需要昂贵的帧级注释,检测数据集的规模是有限的。因此,以前关于时间活动检测的工作通常采用微调在大规模分类数据集(例如 Kinetics-400)上预训练的分类模型。然而,由于预训练和下游微调任务之间的差异,这种预训练模型对于下游检测性能并不理想。这项工作提出了一种新颖的自监督预训练方法,用于利用分类标签进行检测,通过引入帧级伪标签、多动作帧和动作段来减轻这种差异。我们表明,使用提议的自监督检测任务预训练的模型在多个具有挑战性的活动检测基准(包括 Charades 和 MultiTHUMOS)上的表现优于先前的工作。我们广泛的消融进一步提供了有关何时以及如何使用所提出的模型进行活动检测的见解。代码和模型将在线发布。

* 题目: In-painting Radiography Images for Unsupervised Anomaly Detection
* 链接: https://arxiv.org/abs/2111.13495
* 作者: Tiange Xiang,Yongyi Liu,Alan L. Yuille,Chaoyi Zhang,Weidong Cai,Zongwei Zhou
* 摘要: 我们提出了空间感知内存队列,用于修复和检测射线照相图像(缩写为 SQUID)中的异常。放射成像协议专注于特定的身体区域,因此产生非常相似的图像并在患者中产生反复出现的解剖结构。为了利用这种结构化信息,我们的 SQUID 由一个新的内存队列和特征空间中的一个新的修复块组成。我们表明 SQUID 可以将根深蒂固的解剖结构分类为反复出现的模式;并且在推理中,SQUID 可以识别图像中的异常(未看到/修改的模式)。在两个胸部 X 射线基准数据集上,SQUID 在无监督异常检测方面超越了最先进的技术水平超过 5 个点。此外,我们创建了一个新的数据集 (DigitAnatomy),它综合了胸部解剖结构的空间相关性和一致的形状。我们希望 DigitAnatomy 能够促进异常检测方法的开发、评估和可解释性,特别是对于放射成像。

* 题目: ContIG: Self-supervised Multimodal Contrastive Learning for Medical Imaging with Genetics
* 链接: https://arxiv.org/abs/2111.13424
* 作者: Aiham Taleb,Matthias Kirchler,Remo Monti,Christoph Lippert
* 摘要: 高注释成本是将现代深度学习架构应用于临床相关医学用例的一个重大瓶颈,这证实了对从未标记数据中学习的新算法的需求。在这项工作中,我们提出了 ContIG,这是一种自我监督的方法,可以从未标记的医学图像和遗传数据的大型数据集中学习。我们的方法使用对比损失在特征空间中对齐图像和几种遗传模式。我们设计的方法是将每个人的多种模态端到端地集成到同一模型中,即使可用的模态因人而异。我们的程序在所有评估的下游基准任务上都优于最先进的自监督方法。我们还采用了基于梯度的可解释性算法,以更好地理解图像和遗传模态之间学习到的跨模态关联。最后,我们对模型学习的特征进行全基因组关联研究,揭示图像和遗传数据之间的有趣关系。

* 题目: Data Invariants to Understand Unsupervised Out-of-Distribution Detection
* 链接: https://arxiv.org/abs/2111.13362
* 作者: Lars Doorenbos,Raphael Sznitman,Pablo Márquez-Neila
* 摘要: 无监督分布外 (U-OOD) 检测由于其在关键任务系统中的重要性以及对其监督对应物的更广泛适用性,最近引起了很多关注。尽管关注度有所增加,但 U-OOD 方法仍存在重大缺陷。通过对不同基准和图像模态进行大规模评估,我们在这项工作中表明,最流行的最先进方法无法始终胜过基于马哈拉诺比斯距离 (MahaAD) 的简单且相对未知的异常检测器.这些方法不一致的一个关键原因是缺乏对 U-OOD 的正式描述。受一个简单的思想实验的启发,我们提出了基于训练数据集不变量的 U-OOD 表征。我们展示了这种表征如何在不知不觉中体现在得分最高的 MahaAD 方法中,从而解释其质量。此外,我们的方法可用于解释 U-OOD 检测器的预测,并提供对评估未来 U-OOD 方法的良好实践的见解。

* 题目: Contrastive Vicinal Space for Unsupervised Domain Adaptation
* 链接: https://arxiv.org/abs/2111.13353
* 作者: Jaemin Na,Dongyoon Han,Hyung Jin Chang,Wonjun Hwang
* 其他: 10 pages, 7 figures, 5 tables
* 摘要: 利用源域和目标域之间的相邻空间是最近的无监督域适应方法之一。然而,标签的平衡崩溃问题从未得到解决,其中源标签在邻近实例的预测中优于目标标签。在本文中,我们提出了一种基于实例的极小极大策略,以最小化邻近空间中高不确定性实例的熵来解决它。我们通过极大极小问题的求解将邻域空间划分为两个子空间:对比空间和共识空间。在对比空间中,通过约束实例具有对比视图和标签来减轻域间差异,共识空间减少了域内类别之间的混淆。我们方法的有效性在公共基准测试中得到了证明,包括 Office-31、Office-Home 和 VisDA-C,它们实现了最先进的性能。我们进一步表明,我们的方法在 PACS 上优于当前最先进的方法,这表明我们的实例方法也适用于多源域适应。

* 题目: Self-supervised Correlation Mining Network for Person Image Generation
* 链接: https://arxiv.org/abs/2111.13307
* 作者: Zijian Wang,Xingqun Qi,Kun Yua,Muyi Sun
* 摘要: 人物图像生成旨在对源图像执行非刚性变形,这通常需要未对齐的数据对进行训练。最近,自监督方法通过合并解开的表示进行自我重建,在这项任务中表现出巨大的前景。然而,这些方法未能利用解开特征之间的空间相关性。在本文中,我们提出了一种自监督相关挖掘网络(SCM-Net)来重新排列特征空间中的源图像,其中集成了两个协作模块,分解样式编码器(DSE)和相关挖掘模块(CMM)。具体来说,DSE 首先在特征级别创建未对齐的对。然后,CMM 建立空间相关字段以进行特征重排。最终,翻译模块将重新排列的特征转换为真实的结果。同时,为了提高跨尺度姿势变换的保真度,我们提出了一种基于图的身体结构保留损失(BSR Loss)来保留半身到全身生成的合理身体结构。在 DeepFashion 数据集上进行的大量实验证明了我们的方法与其他有监督和无监督方法相比的优越性。此外,面部生成的令人满意的结果表明我们的方法在其他变形任务中的多功能性。

* 题目: Disentangled Unsupervised Image Translation via Restricted Information Flow
* 链接: https://arxiv.org/abs/2111.13279
* 作者: Ben Usman,Dina Bashkirova,Kate Saenko
* 摘要: 无监督的图像到图像转换方法旨在将图像从一个域映射到另一个域的似是而非的示例,同时保留跨两个域共享的结构。在多对多设置中,来自目标域的附加指导示例用于确定生成图像的特定于域的属性。在没有属性注释的情况下,方法必须在训练期间从数据中推断出哪些因素特定于每个域。许多最先进的方法将所需的共享与特定拆分硬编码到其架构中,从而严重限制了问题的范围。在本文中,我们提出了一种不依赖于这种归纳架构偏差的新方法,并通过使用翻译诚实损失和对特定领域能力的惩罚来约束通过网络的信息流,从而从数据中推断出哪些属性是特定领域的。嵌入。我们表明,所提出的方法在跨越各种特定领域和共享属性的两个合成数据集和一个自然数据集上实现了始终如一的高操作准确性。

* 题目: Learning from Temporal Gradient for Semi-supervised Action Recognition
* 链接: https://arxiv.org/abs/2111.13241
* 作者: Junfei Xiao,Longlong Jing,Lin Zhang,Ju He,Qi She,Zongwei Zhou,Alan Yuille,Yingwei Li
* 摘要: 半监督视频动作识别往往使深度神经网络即使在标记数据非常有限的情况下也能实现卓越的性能。然而,现有的方法主要是从当前基于图像的方法(例如,FixMatch)转移而来的。如果没有专门利用时间动态和固有的多模态属性,他们的结果可能是次优的。为了更好地利用视频中编码的时间信息,我们在本文中引入了时间梯度作为一种额外的模式,用于更细心的特征提取。具体来说,我们的方法明确地从时间梯度(TG)中提取细粒度的运动表示,并在不同的模态(即 RGB 和 TG)之间施加一致性。在推理过程中无需额外计算或参数,半监督动作识别的性能得到显着提高。我们的方法在几种典型的半监督设置(即不同比例的标记数据)下,在三个视频动作识别基准(即 Kinetics-400、UCF-101 和 HMDB-51)上实现了最先进的性能.

* 题目: Semantic-Aware Generation for Self-Supervised Visual Representation Learning
* 链接: https://arxiv.org/abs/2111.13163
* 作者: Yunjie Tian,Lingxi Xie,Xiaopeng Zhang,Jiemin Fang,Haohang Xu,Wei Huang,Jianbin Jiao,Qi Tian,Qixiang Ye
* 其他: 13 pages, 5 figures, 11 tables
* 摘要: 在本文中,我们提出了一种自监督的视觉表示学习方法,它涉及生成代理和判别代理,我们通过要求目标网络根据中级特征恢复原始图像来关注前一部分。与先前主要关注原始图像和生成图像之间像素级相似性的工作不同,我们提倡语义感知生成(SaGe)以促进更丰富的语义,而不是在生成的图像中保留细节。实现 SaGe 的核心思想是使用一个评估器,一个没有标签的预训练的深度网络,用于提取语义感知特征。 SaGe 用特定于视图的特征补充目标网络,从而减轻了密集数据增强带来的语义退化。我们在 ImageNet-1K 上执行 SaGe 并评估五个下游任务的预训练模型,包括最近邻测试、线性分类和精细缩放的图像识别,展示其学习更强视觉表示的能力。

* 题目: Self-Distilled Self-Supervised Representation Learning
* 链接: https://arxiv.org/abs/2111.12958
* 作者: Jiho Jang,Seonhoon Kim,Kiyoon Yoo,Jangho Kim,Nojun Kwak
* 其他: 15 pages
* 摘要: 自监督学习中最先进的框架最近表明,与传统的 CNN 模型相比,充分利用基于变压器的模型可以提高性能。为了最大化图像的两个视图的互信息,现有作品将对比损失应用于最终表示。在我们的工作中,我们通过允许中间表示通过对比损失从最终层学习来进一步利用这一点,这是最大化原始目标的上限和两层之间的互信息。我们的方法,Self-Distilled Self-Supervised Learning (SDSSL),在各种任务和数据集上使用 ViT 优于竞争基线(SimCLR、BYOL 和 MoCo v3)。在线性评估和 k-NN 协议中,SDSSL 不仅在最终层中具有出色的性能,而且在大多数较低层中也具有出色的性能。此外,正和负对齐用于解释如何更有效地形成表示。代码将可用。

* 题目: ACPL: Anti-curriculum Pseudo-labelling forSemi-supervised Medical Image Classification
* 链接: https://arxiv.org/abs/2111.12918
* 作者: Fengbei Liu,Yu Tian,Yuanhong Chen,Yuyuan Liu,Vasileios Belagiannis,Gustavo Carneiro
* 摘要: 医学影像分析 (MIA) 中有效的半监督学习 (SSL) 必须解决两个挑战:1) 在多类(例如,病变分类)和多标签(例如,多种疾病诊断)问题上都有效,和 2)处理不平衡的学习(因为疾病流行的高方差)。 SSL MIA 中探索的一种策略是基于伪标签策略,但它有一些缺点。伪标签的准确率普遍低于一致性学习,它不是专门针对多类和多标签问题设计的,并且可能受到不平衡学习的挑战。在本文中,与通过阈值选择置信伪标签的传统方法不同,我们提出了一种新的 SSL 算法,称为反课程伪标签(ACPL),它引入了新技术来选择信息性未标记样本,提高训练平衡并允许模型适用于多标签和多类问题,并通过准确的分类器集成来估计伪标签(提高伪标签准确性)。我们运行了大量实验来评估两个公共医学图像分类基准上的 ACPL:胸部 X-Ray14 用于胸部疾病多标签分类和 ISIC2018 用于皮肤病变多类分类。我们的方法在两个数据集上都优于以前的 SOTA SSL 方法。

* 题目: Robust Equivariant Imaging: a fully unsupervised framework for learning to image from noisy and partial measurements
* 链接: https://arxiv.org/abs/2111.12855
* 作者: Dongdong Chen,Julián Tachella,Mike E. Davies
* 其他: Tech report
* 摘要: 深度网络在从医学成像到计算摄影的多个成像逆问题中提供了最先进的性能。然而,大多数现有网络都是用干净的信号训练的,这些信号通常很难或不可能获得。等变成像 (EI) 是最近的一种自监督学习框架,它利用信号分布中存在的组不变性来仅从部分测量数据中学习重建函数。虽然 EI 结果令人印象深刻,但其性能会随着噪声的增加而降低。在本文中,我们提出了一种鲁棒等变成像 (REI) 框架,该框架可以单独从嘈杂的部分测量中学习成像。所提出的方法使用 Stein 的无偏风险估计器 (SURE) 来获得对噪声具有鲁棒性的完全无监督的训练损失。我们表明,REI 在线性和非线性逆问题上带来了可观的性能提升,从而为具有深度网络的鲁棒无监督成像铺平了道路。代码将在以下位置提供:此 https URL。



未分类

* 题目: ManiFest: Manifold Deformation for Few-shot Image Translation
* 链接: https://arxiv.org/abs/2111.13681
* 作者: Fabio Pizzati,Jean-François Lalonde,Raoul de Charette
* 摘要: 大多数图像到图像的翻译方法需要大量的训练图像,这限制了它们的适用性。相反,我们提出 ManiFest:一个用于少镜头图像翻译的框架,它仅从几个图像中学习目标域的上下文感知表示。为了加强特征一致性,我们的框架学习了源和代理锚域(假设由大量图像组成)之间的样式流形。通过基于补丁的对抗性和特征统计对齐损失,学习到的流形被内插和变形到少镜头目标域。所有这些组件都在单个端到端循环中同时进行训练。除了一般的少镜头翻译任务之外,我们的方法还可以以单个示例图像为条件,以重现其特定风格。大量实验证明了 ManiFest 在多项任务上的有效性,在所有指标以及基于一般和示例的场景中均优于最先进的技术。我们的代码将是开源的。

* 题目: GMFlow: Learning Optical Flow via Global Matching
* 链接: https://arxiv.org/abs/2111.13680
* 作者: Haofei Xu,Jing Zhang,Jianfei Cai,Hamid Rezatofighi,Dacheng Tao
* 其他: Tech report
* 摘要: 基于学习的光流估计一直以带有卷积的成本量管道为主导,用于流回归,其本质上仅限于局部相关性,因此难以解决长期存在的大位移挑战。为了缓解这种情况,最先进的方法,即 RAFT,通过大量迭代改进产生一系列流更新,逐渐提高其预测的质量,实现了卓越的性能,但降低了推理速度。为了实现高精度和高效的光流估计,我们通过将光流重新定义为全局匹配问题来彻底改造主导流回归管道。具体来说,我们提出了一个 GMFlow 框架,它由三个主要组件组成:一个用于特征增强的定制 Transformer,一个用于全局特征匹配的相关和 softmax 层,以及一个用于流传播的自注意力层。此外,我们进一步引入了一个细化步骤,以更高分辨率重用 GMFlow 进行残余流预测。我们的新框架在具有挑战性的 Sintel 基准测试中优于 32 次迭代 RAFT 的性能,同时仅使用一项改进并且运行速度更快,为高效准确的光流估计提供了新的可能性。此 https URL 将提供代码。

* 题目: NeRF in the Dark: High Dynamic Range View Synthesis from Noisy Raw Images
* 链接: https://arxiv.org/abs/2111.13679
* 作者: Ben Mildenhall,Peter Hedman,Ricardo Martin-Brualla,Pratul Srinivasan,Jonathan T. Barron
* 其他: Project page: this https URL
* 摘要: 神经辐射场 (NeRF) 是一种从构成的输入图像集合中合成高质量新视图的技术。与大多数视图合成方法一样,NeRF 使用色调映射低动态范围 (LDR) 作为输入;这些图像已由有损相机管道处理,该管道可平滑细节、剪辑高光并扭曲原始传感器数据的简单噪声分布。我们修改 NeRF 以直接在线性原始图像上训练,从而保留场景的完整动态范围。通过从生成的 NeRF 渲染原始输出图像,我们可以执行新颖的高动态范围 (HDR) 视图合成任务。除了改变相机视点之外,我们还可以在事后操纵焦点、曝光和色调映射。尽管单个原始图像看起来比后处理的图像噪声大得多,但我们表明 NeRF 对原始噪声的零均值分布具有高度的鲁棒性。当对许多嘈杂的原始输入 (25-200) 进行优化时,NeRF 产生的场景表示非常准确,以至于其渲染的新颖视图优于在相同宽基线输入图像上运行的专用单图像和多图像深度原始降噪器。因此,我们称为 RawNeRF 的方法可以从近乎黑暗中捕获的极其嘈杂的图像重建场景。

* 题目: SWAT: Spatial Structure Within and Among Tokens
* 链接: https://arxiv.org/abs/2111.13677
* 作者: Kumara Kahatapitiya,Michael S. Ryoo
* 摘要: 近年来,将视觉数据建模为标记(即图像块),并在其上应用注意力机制或前馈网络已证明非常有效。此类方法中的常见管道包括标记化方法,然后是一组用于在标记内和标记之间进行信息混合的层/块。在通常的实践中,图像块在转换为标记时会被展平,从而丢弃每个块内的空间结构。接下来,诸如多头自注意力之类的模块捕获令牌之间的成对关系并将它们混合。在本文中,我们认为,在标记化中保留空间结构并在混合阶段明确使用时,模型可以获得显着的收益。我们提出了两个关键贡献:(1)结构感知标记化和(2)结构感知混合,两者都可以以最小的努力与现有模型相结合。我们介绍了一系列模型 (SWAT),在包括 ImageNet 分类和 ADE20K 分割在内的多个基准测试中显示了对 DeiT、MLP-Mixer 和 Swin Transformer 等模型的改进。我们的代码和模型将在线发布。

* 题目: Immortal Tracker: Tracklet Never Dies
* 链接: https://arxiv.org/abs/2111.13672
* 作者: Qitai Wang,Yuntao Chen,Ziqi Pang,Naiyan Wang,Zhaoxiang Zhang
* 摘要: 以前的在线 3D 多对象跟踪 (3DMOT) 方法在跟踪与几帧的新检测无关时终止跟踪。但如果一个物体变暗,比如被其他物体暂时遮挡或只是离开 FOV,过早终止轨迹将导致身份转换。我们发现过早的 tracklet 终止是现代 3DMOT 系统中身份转换的主要原因。为了解决这个问题,我们提出了 Immortal Tracker,这是一个简单的跟踪系统,它利用轨迹预测来维护变暗物体的轨迹。我们采用简单的卡尔曼滤波器进行轨迹预测,并在目标不可见时通过预测保留轨迹。使用这种方法,我们可以避免 96% 的车辆身份转换因轨道过早终止而导致。在没有任何学习参数的情况下,我们的方法在 Waymo 开放数据集测试集上实现了 0.0001 级别的失配率和具有竞争力的车辆类别的 MOTA。我们的失配率比以前发布的任何方法低数十倍。 nuScenes 上也报告了类似的结果。我们相信提议的 Immortal Tracker 可以提供一个简单而强大的解决方案来推动 3DMOT 的极限。我们的代码可在此 https URL 处获得。

* 题目: Towards Low-Cost and Efficient Malaria Detection
* 链接: https://arxiv.org/abs/2111.13656
* 作者: Waqas Sultani1,Wajahat Nawaz,Syed Javed,Muhammad Sohail Danish,Asma Saadia,Mohsen Ali
* 摘要: 疟疾是一种致命但可治愈的疾病,每年夺去数十万人的生命。早期和正确的诊断对于避免健康复杂性至关重要,但是,这取决于昂贵的显微镜的可用性和训练有素的专家来分析血液涂片载玻片。基于深度学习的方法不仅可以减轻专家的负担,还可以提高低成本显微镜的诊断准确性。然而,这受到缺乏合理大小的数据集的阻碍。最具挑战性的方面之一是专家不愿在低成本显微镜上以低倍率对数据集进行注释。我们提供了一个数据集,以在低倍率下通过低成本显微镜进一步研究疟疾显微镜。我们的大规模数据集包括来自几名疟疾感染患者的血液涂片载玻片图像,这些图像是通过显微镜以两种不同的成本范围和多种放大倍率收集的。在通过高倍率的高成本显微镜收集的图像上,疟疾细胞被注释用于定位和生命阶段分类任务。我们设计了一种机制,将这些注释从高倍率的高成本显微镜转移到低成本的多倍率显微镜。多目标检测器和域适应方法作为基线呈现。此外,引入了部分监督域适应方法来使物体检测器适应从低成本显微镜收集的图像。该数据集将在发布后公开提供。

* 题目: Contrastive Object-level Pre-training with Spatial Noise Curriculum Learning
* 链接: https://arxiv.org/abs/2111.13651
* 作者: Chenhongyi Yang,Lichao Huang,Elliot J. Crowley
* 摘要: 基于对比学习的预训练的目标是利用大量未标记的数据来生成一个可以轻松适应下游的模型。当前的方法围绕解决图像辨别任务:给定一个锚图像、该图像的增强对应物和一些其他图像,模型必须生成表示,使得锚与其对应物之间的距离很小,并且锚和其他图像很大。这种方法有两个重要的问题:(i)通过对比图像级的表示,很难生成对下游对象级任务(例如实例分割)有益的详细的对象敏感特征; (ii) 生成增强对应物的增强策略是固定的,这使得在预训练的后期学习效率较低。在这项工作中,我们引入了课程对比对象级预训练(CCOP)来解决这些问题:(i)我们使用选择性搜索来查找粗糙的对象区域,并使用它们来构建图像间对象级对比损失和图像内对象级区分损失进入我们的预训练目标; (ii) 我们提出了一种课程学习机制,可以自适应地增加生成的区域,即使在预训练的后期阶段,这也使模型能够始终如一地获得有用的学习信号。我们的实验表明,在对多对象场景图像数据集进行预训练时,我们的方法在多个对象级任务上大大改进了 MoCo v2 基线。此 https URL 提供代码。

* 题目: VL-LTR: Learning Class-wise Visual-Linguistic Representation for Long-Tailed Visual Recognition
* 链接: https://arxiv.org/abs/2111.13579
* 作者: Changyao Tian,Wenhai Wang,Xizhou Zhu,Xiaogang Wang,Jifeng Dai,Yu Qiao
* 其他: Technical report; 14 pages, 9 figures;
* 摘要: 在现实世界中处理长尾数据时,基于深度学习的模型会遇到挑战。现有的解决方案通常采用一些平衡策略或迁移学习来处理基于图像模态的类不平衡问题。在这项工作中,我们提出了一个视觉语言长尾识别框架,称为 VL-LTR,并对引入文本模态进行长尾识别 (LTR) 的好处进行实证研究。与现有方法相比,所提出的 VL-LTR 具有以下优点。 (1)我们的方法不仅可以从图像中学习视觉表示,还可以从从互联网收集的嘈杂的类级文本描述中学习相应的语言表示; (2) 我们的方法可以有效地利用学习到的视觉语言表示来提高视觉识别性能,特别是对于图像样本较少的类。我们还进行了广泛的实验,并在广泛使用的 LTR 基准测试中设置了新的最先进的性能。值得注意的是,我们的方法在 ImageNet-LT 上实现了 77.2% 的整体准确率,明显优于之前的最佳方法 17 个百分点以上,并且接近于完整 ImageNet 上的流行性能训练。代码将被释放。

* 题目: Using Fictitious Class Representations to Boost Discriminative Zero-Shot Learners
* 链接: https://arxiv.org/abs/2111.13550
* 作者: Mohammed Dabbah,Ran El-yaniv
* 摘要: 专注于判别性零样本学习,在这项工作中,我们引入了一种新颖的机制,该机制在训练所见类集期间动态增加以产生额外的虚构类。这些虚构的类减少了模型在训练期间关注出现在训练集中但不会出现在新暴露的类中的属性相关性的倾向。所提出的模型在零样本学习框架的两个公式中进行了测试;即广义零样本学习(GZSL)和经典零样本学习(CZSL)。我们的模型提高了 CUB 数据集上的最新性能,并在其他常见数据集 AWA2 和 SUN 上达到了可比较的结果。我们研究了我们方法的优缺点,包括在训练端到端零样本模型时灾难性遗忘的影响。

* 题目: Inside Out Visual Place Recognition
* 链接: https://arxiv.org/abs/2111.13546
* 作者: Sarah Ibrahimi,Nanne van Noord,Tim Alpherts,Marcel Worring
* 其他: Accepted at British Machine Vision Conference (BMVC) 2021
* 摘要: 视觉地点识别 (VPR) 通常与定位户外图像有关。然而,定位包含部分室外场景的室内场景对于广泛的应用可能具有很大的价值。在本文中,我们介绍了由内而外视觉位置识别 (IOVPR),这是一项旨在基于通过窗户可见的室外场景定位图像的任务。对于这项任务,我们展示了新的大规模数据集阿姆斯特丹-XXXL,其中包含在阿姆斯特丹拍摄的图像,其中包含 640 万张全景街景图像和 1000 个用户生成的室内查询。此外,我们引入了一种新的训练协议 Inside Out 数据增强,以适应视觉地点识别方法来定位室内图像,展示了 Inside Out 视觉地点识别的潜力。我们凭经验展示了我们提出的数据增强方案在较小规模上的好处,同时证明了现有方法的大规模数据集的难度。通过这项新任务,我们旨在鼓励开发 IOVPR 方法。数据集和代码可在此 https URL 用于研究目的

* 题目: GeoNeRF: Generalizing NeRF with Geometry Priors
* 链接: https://arxiv.org/abs/2111.13539
* 作者: Mohammad Mahdi Johari,Yann Lepoittevin,François Fleuret
* 摘要: 我们提出了 GeoNeRF,这是一种基于神经辐射场的可推广的真实感新视图合成方法。我们的方法包括两个主要阶段:几何推理器和渲染器。为了渲染新视图,几何推理器首先为每个附近的源视图构建级联成本量。然后,使用基于 Transformer 的注意力机制和级联成本量,渲染器推断几何和外观,并通过经典的体积渲染技术渲染详细图像。这种架构尤其允许复杂的遮挡推理,从一致的源视图中收集信息。此外,我们的方法可以轻松地在单个场景上进行微调,并使用每场景优化的神经渲染方法以一小部分计算成本呈现具有竞争力的结果。实验表明,GeoNeRF 在各种合成和真实数据集上的表现优于最先进的可泛化神经渲染模型。最后,对几何推理器稍作修改,我们还提出了一种适用于 RGBD 图像的替代模型。由于深度传感器,该模型直接利用通常可用的深度信息。实现代码将公开可用。

* 题目: Not All Relations are Equal: Mining Informative Labels for Scene Graph Generation
* 链接: https://arxiv.org/abs/2111.13517
* 作者: Arushi Goel,Basura Fernando,Frank Keller,Hakan Bilen
* 其他: 11 pages
* 摘要: 场景图生成 (SGG) 旨在捕获对象对之间的各种交互,这对于全场景理解至关重要。由于训练数据中的各种偏差,在整个关系集上训练的现有 SGG 方法无法获得关于视觉和文本相关性的复杂推理。学习指示通用空间配置(如“开”)而不是信息关系(如“停在”)的琐碎关系不会强制执行这种复杂的推理,从而损害概括。为了解决这个问题,我们提出了一种新的 SGG 训练框架,该框架基于它们的信息量来利用关系标签。我们的模型不可知训练程序为训练数据中信息较少的样本计算缺失的信息关系,并在已计算的标签和现有注释上训练 SGG 模型。我们表明,这种方法可以成功地与最先进的 SGG 方法结合使用,并在标准 Visual Genome 基准测试的多个指标中显着提高其性能。此外,我们在更具挑战性的零样本设置中获得了对看不见的三胞胎的显着改进。

* 题目: SurfEmb: Dense and Continuous Correspondence Distributions for Object Pose Estimation with Learnt Surface Embeddings
* 链接: https://arxiv.org/abs/2111.13489
* 作者: Rasmus Laurvig Haugaard,Anders Glent Buch
* 摘要: 我们提出了一种方法,可以从没有视觉模糊(如对称性)的先验知识的数据中学习对象表面上密集、连续的 2D-3D 对应分布。我们还提出了一种使用学习到的分布对刚性物体进行 6D 姿态估计的新方法,以对姿态假设进行采样、评分和细化。对应分布是通过对比损失学习的,在特定于对象的潜在空间中由编码器-解码器查询模型和小型全连接密钥模型表示。我们的方法在视觉歧义方面是无监督的,但我们表明查询模型和关键模型学会了表示准确的多模态表面分布。我们的姿态估计方法在综合 BOP 挑战赛上显着提高了最新技术,即使与在真实数据上训练的方法相比,也完全基于合成数据进行训练。项目站点位于此 https URL 。

* 题目: QMagFace: Simple and Accurate Quality-Aware Face Recognition
* 链接: https://arxiv.org/abs/2111.13475
* 作者: Philipp Terhörst,Malte Ihlefeld,Marco Huber,Naser Damer,Florian Kirchbuchner,Kiran Raja,Arjan Kuijper
* 其他: Code will be made publicly-available in December 2021
* 摘要: 人脸识别系统必须处理可能导致不正确匹配决策的大变化(例如不同的姿势、光照和表情)。这些可变性可以根据面部图像质量来衡量,面部图像质量是在识别样本的效用上定义的。以前的人脸识别工作要么没有使用这些有价值的信息,要么使用非固有的拟合质量估计。在这项工作中,我们提出了一种简单有效的人脸识别解决方案 (QMagFace),它将质量感知比较分数与基于幅度感知角边缘损失的识别模型相结合。所提出的方法在比较过程中包括特定于模型的人脸图像质量,以提高无约束情况下的识别性能。利用由使用的损失引起的质量与其比较分数之间的线性关系,我们的质量感知比较函数简单且具有高度可推广性。在几个人脸识别数据库和基准上进行的实验表明,引入的质量意识导致识别性能的持续改进。此外,所提出的 QMagFace 方法在具有挑战性的情况下表现特别好,例如交叉姿势、跨年龄或跨质量。因此,它在多个人脸识别基准测试中取得了最先进的性能,例如 AgeDB 上的 98.50%、XQLFQ 上的 83.97% 和 CFP-FP 上的 98.74%。 QMagFace 的代码是公开的。

* 题目: TDAN: Top-Down Attention Networks for Enhanced Feature Selectivity in CNNs
* 链接: https://arxiv.org/abs/2111.13470
* 作者: Shantanu Jaiswal,Basura Fernando,Cheston Tan
* 摘要: 卷积神经网络 (CNN) 的注意力模块是一种提高网络在多个计算机视觉任务上的性能的有效方法。虽然许多工作侧重于通过适当的通道、空间和自注意力建模来构建更有效的模块,但它们主要以前馈方式运行。因此,注意力机制在很大程度上取决于单个输入特征激活的表示能力,并且可以从语义更丰富的高级激活的结合中受益,这些激活可以通过自上而下的信息流指定“看什么和看哪里”。这种反馈连接在灵长类视觉皮层中也很普遍,并且被神经科学家认为是灵长类视觉注意力的关键组成部分。因此,在这项工作中,我们提出了一个轻量级的自上而下 (TD) 注意力模块,它迭代地生成“视觉探照灯”以对其输入执行自上而下的通道和空间调制,从而在每个计算步骤中输出更多的选择性特征激活。我们的实验表明,在 CNN 中集成 TD 增强了它们在 ImageNet-1k 分类上的性能,并且在参数和内存效率更高的同时优于突出的注意力模块。此外,我们的模型对推理过程中输入分辨率的变化更加稳健,并且在没有任何明确监督的情况下,通过在每个计算步骤中定位单个对象或特征来学习“转移注意力”。除了在细粒度和多标签分类方面的改进之外,此功能还使 ResNet50 在弱监督对象定位方面提高了 5%。

* 题目: How Well Do Sparse Imagenet Models Transfer?
* 链接: https://arxiv.org/abs/2111.13445
* 作者: Eugenia Iofinova,Alexandra Peste,Mark Kurtz,Dan Alistarh
* 其他: 19 pages, 8 figures
* 摘要: 迁移学习是一种经典范式,通过这种范式,在大型“上游”数据集上预训练的模型适用于在“下游”专用数据集上产生良好结果。一般来说,可以理解,“上游”数据集上的模型越准确,“下游”的转移精度就越高。在这项工作中,我们在 ImageNet 数据集上训练的卷积神经网络 (CNN) 的背景下对这种现象进行了深入调查,这些网络已被修剪 - 即通过稀疏它们的连接进行压缩。具体来说,我们在十二个标准转移任务的背景下,考虑使用通过应用几种最先进的修剪方法获得的非结构化修剪模型进行转移,包括基于幅度的、二阶的、再增长和正则化方法。简而言之,我们的研究表明,即使在高度稀疏的情况下,稀疏模型也可以匹配甚至超过密集模型的传输性能,并且在这样做的同时,可以导致显着的推理甚至训练加速。同时,我们观察和分析了不同修剪方法的行为的显着差异。

* 题目: Towards Explainable End-to-End Prostate Cancer Relapse Prediction from H&E Images Combining Self-Attention Multiple Instance Learning with a Recurrent Neural Network
* 链接: https://arxiv.org/abs/2111.13439
* 作者: Esther Dietrich,Patrick Fuhlert,Anne Ernst,Guido Sauter,Maximilian Lennartz,H. Siegfried Stiehl,Marina Zimmermann,Stefan Bonn
* 其他: Accepted as a regular conference paper at ML4H 2021
* 摘要: 对组织病理学图像数据的临床决策支持主要集中在强监督注释上,它提供直观的可解释性,但受专家表现的约束。在这里,我们提出了一个可解释的癌症复发预测网络 (eCaReNet),并表明没有强注释的端到端学习提供了最先进的性能,同时可以通过注意力机制包括可解释性。在前列腺癌生存预测的用例中,使用 14,479 张图像和仅作为注释的复发时间,我们在验证集上达到了 0.78 的累积动态 AUC,与专家病理学家相当(在单独的测试中 AUC 为 0.77)放)。我们的模型经过良好校准并输出生存曲线以及每个患者的风险评分和分组。利用多实例学习层的注意力权重,我们表明恶性补丁比良性补丁对预测的影响更大,从而提供了对预测的直观解释。我们的代码可在此 http URL 处获得。

* 题目: Reinforcement Explanation Learning
* 链接: https://arxiv.org/abs/2111.13406
* 作者: Siddhant Agarwal,Owais Iqbal,Sree Aditya Buridi,Madda Manjusha,Abir Das
* 其他: Accepted in NeurIPS 2021 workshop on eXplainable AI approaches for debugging and diagnosis. Project Page: this https URL
* 摘要: 深度学习变得过于复杂,并且在解决图像分类、目标检测等几个经典问题方面取得了巨大成功。已经提出了几种解释这些决策的方法。生成显着图的黑盒方法特别有趣,因为它们不利用模型的内部结构来解释决策。大多数黑盒方法会扰乱输入并观察输出的变化。我们将显着图生成制定为一个顺序搜索问题,并利用强化学习 (RL) 从输入图像中积累证据,这些证据最有力地支持分类器所做的决策。这种策略鼓励智能地搜索将导致高质量解释的扰动。虽然成功的黑盒解释方法需要依赖大量计算并受到小样本近似的影响,但我们的方法学习的确定性策略使其在推理过程中更加高效。在三个基准数据集上的实验证明了所提出的方法在推理时间上优于最先进的方法而不会损害性能。项目页面:这个https URL

* 题目: PicArrange -- Visually Sort, Search, and Explore Private Images on a Mac Computer
* 链接: https://arxiv.org/abs/2111.13363
* 作者: Klaus Jung,Kai Uwe Barthel,Nico Hezel,Konstantin Schall
* 其他: 5 pages, 3 figures
* 摘要: 原生 macOS 应用程序 PicArrange 集成了最先进的图像排序和相似性搜索,使用户能够更好地了解他们的图像。添加了许多文件和图像管理功能,使其成为解决完整图像管理工作流程的工具。 Self Sorting Map 算法的修改可以在不丢失视觉排序的情况下实现类似列表的图像排列。视觉特征的高效计算和存储以及许多 macOS API 的使用导致应用程序使用流畅。

* 题目: Neural Collaborative Graph Machines for Table Structure Recognition
* 链接: https://arxiv.org/abs/2111.13359
* 作者: Hao Liu,Xin Li,Bing Liu,Deqiang Jiang,Yinsong Liu,Bo Ren
* 其他: Tech report
* 摘要: 最近,表结构识别在深度图模型的帮助下取得了令人瞩目的进展。他们中的大多数利用表格元素的单一视觉线索,或者通过早期融合简单地将视觉线索与其他形式结合来推理它们的图形关系。然而,无论是早期融合还是在多种模态方面的单独推理都不适用于具有极大多样性的所有种类的表格结构。相反,对于不同的表案例,不同的模式应该以不同的模式相互协作。在社区中,表结构推理的内部模态交互的重要性仍有待探索。在本文中,我们将其定义为异构表结构识别(Hetero-TSR)问题。为了填补这一空白,我们提出了一种配备堆叠协作块的新型神经协作图机(NCGM),它交替地提取模态内上下文并以分层方式对模态间交互进行建模。它可以更稳健地表示表格元素的内部模态关系,从而显着提高识别性能。我们还表明,所提出的 NCGM 可以根据模态内线索的上下文调节不同模态的协作模式,这对于多样化的表格案例至关重要。基准测试的实验结果表明,我们提出的 NCGM 实现了最先进的性能,并在很大程度上击败了其他当代方法,尤其是在具有挑战性的场景下。

* 题目: Revisiting Efficient Object Detection Backbones from Zero-Shot Neural Architecture Search
* 链接: https://arxiv.org/abs/2111.13336
* 作者: Zhenhong Sun,Ming Lin,Xiuyu Sun,Zhiyu Tan,Rong Jin
* 摘要: 在对象检测模型中,检测主干消耗了总推理成本的一半以上。最近的研究试图通过在神经架构搜索 (NAS) 的帮助下优化主干架构来降低这种成本。然而,现有的 NAS 对象检测方法需要数百到数千个 GPU 小时的搜索,这使得它们在快节奏的研发中不切实际。在这项工作中,我们提出了一种新颖的零样本 NAS 方法来解决这个问题。所提出的方法名为 ZenDet,无需训练网络参数即可自动设计高效的检测主干,将架构设计成本降低到几乎为零,同时提供最先进的 (SOTA) 性能。在引擎盖下,ZenDet 最大化了检测主干的差分熵,从而在相同的计算预算下为目标检测提供了更好的特征提取器。经过仅仅一天的 GPU 全自动设计,ZenDet 在几乎没有人工干预的情况下,在多个检测基准数据集上创新了 SOTA 检测主干。与 ResNet-50 骨干网相比,使用相同数量的 FLOP/参数时,ZenDet 在 mAP 上的性能提高了 +2.0%,在相同 mAP 下,在 NVIDIA V100 上的性能提高了 1.54 倍。代码和预训练模型将在稍后发布。

* 题目: Predict, Prevent, and Evaluate: Disentangled Text-Driven Image Manipulation Empowered by Pre-Trained Vision-Language Model
* 链接: https://arxiv.org/abs/2111.13333
* 作者: Zipeng Xu,Tianwei Lin,Hao Tang,Fu Li,Dongliang He,Nicu Sebe,Radu Timofte,Luc Van Gool,Errui Ding
* 摘要: 为了实现解开的图像处理,以前的工作在很大程度上依赖于手动注释。同时,可用的操作仅限于训练模型的预定义集合。在本文中,我们提出了一种新颖的框架,即预测、预防和评估(PPE),用于解开文本驱动的图像处理,它不需要手动注释,因此不限于固定操作。我们的方法通过深入利用大规模预训练视觉语言模型 CLIP 的能力来接近目标。具体来说,我们首先预测给定文本命令的可能纠缠属性。然后,基于预测的属性,我们引入了纠缠损失以防止训练过程中出现纠缠。最后,我们提出了一个新的评估指标来评估解开的图像处理。我们验证了我们的方法在具有挑战性的面部编辑任务上的有效性。大量实验表明,与最新的 StyleCLIP 基线相比,所提出的 PPE 框架实现了更好的定量和定性结果。

* 题目: Traditional Chinese Synthetic Datasets Verified with Labeled Data for Scene Text Recognition
* 链接: https://arxiv.org/abs/2111.13327
* 作者: Yi-Chang Chen,Yu-Chuan Chang,Yen-Cheng Chang,Yi-Ren Yeh
* 摘要: 场景文本识别(STR)已在学术界和工业界得到广泛研究。训练文本识别模型通常需要大量标记数据,但数据标记可能困难、昂贵或耗时,尤其是对于繁体中文文本识别。据我们所知,缺乏用于繁体中文文本识别的公共数据集。本文提出了一个旨在提高文本识别模型性能的繁体中文合成数据引擎框架。我们生成了超过 2000 万个合成数据,并收集了 7000 多个手动标记数据 TC-STR 7k-word 作为基准。实验结果表明,通过使用我们生成的合成数据从头开始训练或使用 TC-STR 7k 字进一步微调,文本识别模型可以获得更高的准确性。

* 题目: Hierarchical Motion Encoder-Decoder Network for Trajectory Forecasting
* 链接: https://arxiv.org/abs/2111.13324
* 作者: Qifan Xue,Shengyi Li,Xuanpeng Li,Jingwen Zhao,Weigong Zhang
* 摘要: 轨迹预测在智能汽车或社交机器人领域起着举足轻重的作用。最近的工作侧重于对空间社会影响或时间运动注意力进行建模,但忽略了运动的内在属性,即运动趋势和驾驶意图。本文提出了一种用于车辆轨迹预测的上下文无关分层运动编码器-解码器网络 (HMNet)。 HMNet 首先推断运动的层次差异,以编码具有运动趋势和驾驶意图高表现力的物理兼容模式。然后,目标(端点)嵌入式解码器根据位置-速度-加速度相关模式分层构建多模态预测。此外,我们提出了一个修改后的社交池模块,它考虑了某些运动属性来表示社交互动。 HMNet 能够做出准确的、单峰/多峰的和物理社会合规的预测。在三个公共轨迹预测数据集上的实验,即 NGSIM、HighD 和 Interaction 表明,我们的模型在数量和质量上都达到了最先进的性能。我们将在这里发布我们的代码:这个 https URL。

* 题目: Going Grayscale: The Road to Understanding and Improving Unlearnable Examples
* 链接: https://arxiv.org/abs/2111.13244
* 作者: Zhuoran Liu,Zhengyu Zhao,Alex Kolmus,Tijn Berns,Twan van Laarhoven,Tom Heskes,Martha Larson
* 摘要: 最近的工作表明,不可察觉的扰动可用于制作不可学习的示例 (ULE),即其内容不能在训练期间用于改进分类器的图像。在本文中,我们揭示了研究人员在理解 ULE 和改进最初制定的 ULE (ULEO) 时应该遵循的道路。这篇论文有四点贡献。首先,我们表明 ULEOs 利用颜色,因此,它们的影响可以通过简单的灰度预过滤来减轻,而无需求助于对抗性训练。其次,我们提出了对 ULEO 的扩展,称为 ULEO-GrayAugs,通过在优化过程中利用灰度知识和数据增强来强制生成的 ULE 远离通道颜色扰动。第三,我们表明使用多层感知器 (MLP) 生成的 ULEO 在复杂的卷积神经网络 (CNN) 分类器的情况下是有效的,这表明 CNN 对 ULE 具有特定的脆弱性。第四,我们证明了当分类器在 ULEO 上进行训练时,对抗性训练将防止在干净图像和对抗性图像上测量的准确度下降。总而言之,我们的贡献代表了不可学习示例的艺术状态的重大进步,但也揭示了它们行为的重要特征,必须更好地理解这些特征才能实现进一步的改进。

* 题目: Look at here : Utilizing supervision to attend subtle key regions
* 链接: https://arxiv.org/abs/2111.13233
* 作者: Changhwan Lee,Yeesuk Kim,Bong Gun Lee,Doosup Kim,Jongseong Jang
* 其他: Under review
* 摘要: 尽管深度学习在计算机视觉中取得了成功,但识别细微和小物体(或区域)的算法仍然具有挑战性。例如,识别地面场景中的棒球或飞盘或 X 射线图像中的骨折很容易导致过度拟合,除非有大量可用的训练数据。为了缓解这个问题,我们需要一种方法来强制模型识别有限训练数据中的细微区域。在本文中,我们提出了一种简单但有效的监督增强方法,称为 Cut/&Remain。与其他监督增强和显式指导方法相比,它在各种医学图像域(内部来源和公共数据集)和自然图像域(MS-COCO$_s$)上取得了更好的性能。此外,使用类激活图,我们发现 Cut/&Remain 方法驱动模型有效地关注相关的细微和小区域。我们还表明,性能沿着 Cut/&Remain 比率单调增加,表明即使只应用了有限数量的 Cut/&Remain 模型也可以改进,因此它允许较低的监督(注释)成本进行改进。

* 题目: FedDropoutAvg: Generalizable federated learning for histopathology image classification
* 链接: https://arxiv.org/abs/2111.13230
* 作者: Gozde N. Gunesli,Mohsin Bilal,Shan E Ahmed Raza,Nasir M. Rajpoot
* 其他: This work has been submitted to the IEEE for possible publication. Copyright may be transferred without notice, after which this version may no longer be accessible
* 摘要: 联合学习 (FL) 支持深度学习模型的协作学习,而无需共享参与站点的数据。医学图像分析任务中的 FL 相对较新,并且对增强开放。在这项研究中,我们提出了 FedDropoutAvg,这是一种新的联邦学习方法,用于训练可泛化模型。所提出的方法在客户端选择和联合平均过程中都利用了随机性。我们将 FedDropoutAvg 与真实世界多站点组织病理学图像分类任务中 FL 场景中的几种算法进行了比较。我们表明,使用 FedDropoutAvg,最终模型可以获得比其他 FL 方法更好的性能,并且更接近于需要共享所有数据以进行集中训练的经典深度学习模型。我们在包含来自 21 个不同中心的 120 万个图像块的大型数据集上测试训练模型。为了评估所提出方法的泛化能力,我们使用来自数据用于 FL 的中心的保留测试集,以及来自其他独立中心的未见数据,其数据未用于联合训练。我们表明,所提出的方法比其他最先进的联合训练方法更具普遍性。据我们所知,我们是第一项在联合设置中使用随机客户端和本地模型参数选择程序进行医学图像分析任务的研究。

* 题目: Cross-Domain Object Detection via Adaptive Self-Training
* 链接: https://arxiv.org/abs/2111.13216
* 作者: Yu-Jhe Li,Xiaoliang Dai,Chih-Yao Ma,Yen-Cheng Liu,Kan Chen,Bichen Wu,Zijian He,Kris Kitani,Peter Vadja
* 其他: 15 pages. arXiv admin note: text overlap with arXiv:2003.00707, arXiv:1904.11245, arXiv:1910.11319, arXiv:2003.09152 by other authors
* 摘要: 我们解决了对象检测中的域适应问题,其中源域(有监督的域)和目标域(没有监督的感兴趣域)之间存在显着的域转换。作为一种广泛采用的领域适应方法,自训练师生框架(学生模型从教师模型生成的伪标签中学习)在目标领域取得了显着的准确度增益。然而,由于其对源域的偏见,它仍然受到教师生成的大量低质量伪标签(例如,误报)的影响。为了解决这个问题,我们提出了一种称为自适应无偏教师(AUT)的自我训练框架,在相互学习期间利用对抗性学习和弱强数据增强来解决领域转移。具体来说,我们在学生模型中采用特征级对抗训练,确保从源域和目标域中提取的特征共享相似的统计数据。这使学生模型能够捕获域不变特征。此外,我们在目标域上的教师模型和两个域上的学生模型之间应用了弱-强增强和相互学习。这使得教师模型能够逐渐从学生模型中受益,而不会遭受领域转移。我们表明,AUT 显着优于所有现有方法,甚至优于 Oracle(完全监督)模型。例如,我们在 Foggy Cityscape (Clipart1K) 上实现了 50.9% (49.3%) mAP,分别比之前的 state-of-the-art 和 Oracle 高 9.2% (5.2%) 和 8.2% (11.0%)

* 题目: OTB-morph: One-Time Biometrics via Morphing applied to Face Templates
* 链接: https://arxiv.org/abs/2111.13213
* 作者: Mahdi Ghafourian,Julian Fierrez,Ruben Vera-Rodriguez,Ignacio Serna,Aythami Morales
* 摘要: 可取消的生物识别技术是指一组技术,其中在处理或存储之前使用密钥有意地转换生物识别输入。这种转换是可重复的,可以进行后续的生物特征比较。本文介绍了一种可取消生物识别的新方案,旨在保护模板免受潜在攻击,适用于任何基于生物识别的识别系统。我们提出的方案基于从变形随机生物特征信息中获得的时变密钥。针对面部生物识别技术给出了所提出方案的实验实现。结果证实,所提出的方法能够抵御泄漏攻击,同时提高识别性能。

* 题目: Multiple target tracking with interaction using an MCMC MRF Particle Filter
* 链接: https://arxiv.org/abs/2111.13184
* 作者: Helder F. S. Campos,Nuno Paulino
* 摘要: 本文提出并讨论了一种多目标跟踪方法的实现,该方法能够处理目标交互并防止由于劫持导致的跟踪器故障。参考方法使用马尔可夫链蒙特卡罗 (MCMC) 采样步骤来评估过滤器并构建有效的提议密度以生成新样本。该密度基于每个时间步长生成的马尔可夫随机场 (MRF) 集成了目标交互项。 MRF 对目标之间的相互作用进行建模,以尝试减少跟踪多个目标时典型粒子滤波器所遭受的跟踪模糊性。使用包含 20 只在密闭空间中相互作用的蚂蚁的 662 个灰度帧的测试序列来测试所提出的方法和一组基于重要性采样的独立粒子过滤器,以建立性能比较。结果表明,使用 MRF 对目标交互进行建模的实施方法成功地纠正了许多由独立的、不知道交互的粒子滤波器造成的跟踪错误。

* 题目: Computer Vision User Entity Behavior Analytics
* 链接: https://arxiv.org/abs/2111.13176
* 作者: Sameer Khanna
* 其他: Computer Vision and Pattern Recognition (cs.CV)
* 摘要: 内部威胁代价高昂,难以检测,不幸的是,它的发生率越来越高。为了改进对此类威胁的检测,我们开发了新技术,使我们能够提取强大的特征,生成高质量的图像编码,并增强攻击向量以提高分类能力。结合起来,它们形成了计算机视觉用户和实体行为分析,这是一个从头开始设计的检测系统,旨在改进学术界的进步并减轻阻止在工业中使用高级模型的问题。拟议的系统击败了学术界和工业界使用的最先进的方法。

* 题目: Homogeneous Low-Resolution Face Recognition Method based Correlation Features
* 链接: https://arxiv.org/abs/2111.13175
* 作者: Xuan Zhao
* 其他: 8 pages, 9 figures
* 摘要: 人脸识别技术已被广泛应用于多种关键任务场景,如人员身份识别、受控入场、移动设备访问等。安全监控是人脸识别技术的典型场景。由于监控视频和图像的低分辨率特征使得高分辨率人脸识别算法难以提取有效的特征信息,因此应用于高分辨率人脸识别的算法很难直接迁移到低分辨率情况。随着在密集城市化时代,安防监控中的人脸识别变得越来越重要,开发能够在处理低分辨率监控摄像头生成的视频帧时提供令人满意的性能的算法至关重要。本文研究了基于相关特征的人脸识别(CoFFaR)方法,该方法用于同质低分辨率监控视频,详细阐述了理论、实验细节和实验结果。实验结果验证了相关特征方法的有效性,该方法提高了监控安全场景中同质人脸识别的准确性。

* 题目: DA$^{/textbf{2}}$-Net : Diverse & Adaptive Attention Convolutional Neural Network
* 链接: https://arxiv.org/abs/2111.13157
* 作者: Abenezer Girma,Abdollah Homaifar,M Nabil Mahmoud,Xuyang Yan,Mrinmoy Sarkar
* 摘要: 标准卷积神经网络 (CNN) 设计很少关注明确捕获不同特征以提高网络性能的重要性。相反,大多数现有方法遵循增加或调整网络深度和宽度的间接方法,这在许多情况下会显着增加计算成本。受生物视觉系统的启发,我们提出了一个多样化和自适应注意力卷积网络 (DA$^{2}$-Net),它使任何前馈 CNN 能够明确捕获不同的特征,并自适应地选择和强调信息量最大的特征以有效提升网络性能。 DA$^{2}$-Net 产生的计算开销可以忽略不计,它旨在与任何 CNN 架构轻松集成。我们在具有各种 CNN 架构的基准数据集(包括 CIFAR100、SVHN 和 ImageNet)上广泛评估了 DA$^{2}$-Net。实验结果表明 DA$^{2}$-Net 以非常小的计算开销提供了显着的性能改进。

* 题目: Country-wide Retrieval of Forest Structure From Optical and SAR Satellite Imagery With Bayesian Deep Learning
* 链接: https://arxiv.org/abs/2111.13154
* 作者: Alexander Becker,Stefania Russo,Stefano Puliti,Nico Lang,Konrad Schindler,Jan Dirk Wegner
* 其他: 19 pages, 11 figures
* 摘要: 以知情的方式监测和管理地球森林是应对生物多样性丧失和气候变化等挑战的重要要求。虽然传统的森林评估现场或空中活动为区域层面的分析提供了准确的数据,但几乎不可能以高时间分辨率将它们扩展到整个国家和其他地区。在这项工作中,我们提出了一种贝叶斯深度学习方法,使用免费可用的卫星图像作为输入,以 10 米的分辨率在国家范围内密集估计森林结构变量。我们的方法将 Sentinel-2 光学图像和 Sentinel-1 合成孔径雷达图像联合转换为五个不同森林结构变量的地图:第 95 个高度百分位数、平均高度、密度、基尼系数和覆盖率。我们在挪威 41 次机载激光扫描任务的参考数据上训练和测试我们的模型,并证明它能够推广到看不见的测试区域,实现 11% 到 15% 之间的归一化平均绝对误差,具体取决于变量。我们的工作也是第一个提出贝叶斯深度学习方法的工作,以便通过校准良好的不确定性估计来预测森林结构变量。这些增加了模型的可信度及其对需要可靠置信度估计的下游任务的适用性,例如明智的决策。我们提出了一系列广泛的实验来验证预测地图的准确性以及预测不确定性的质量。为了证明可扩展性,我们为五个森林结构变量提供了挪威范围的地图。

* 题目: Scene Graph Generation with Geometric Context
* 链接: https://arxiv.org/abs/2111.13131
* 作者: Vishal Kumar,Albert Mundu,Satish Kumar Singh
* 其他: Paper accepted at 6th IAPR International Conference on Computer Vision & Image Processing (CVIP2021), IIT Ropar, India
* 摘要: 随着视觉问答、图像字幕、自动驾驶汽车、人群行为分析、活动识别等图像理解项目的需求不断增长,场景图生成在计算机视觉研究中备受关注。场景图是图像的视觉基础图形结构,极大地有助于简化图像理解任务。在这项工作中,我们引入了一种称为几何上下文的后处理算法,以更好地几何理解视觉场景。我们使用这种后处理算法将对象对之间的几何关系添加和细化到先验模型。我们通过计算对象对之间的方向和距离来利用这个上下文。我们使用知识嵌入式路由网络 (KERN) 作为我们的基线模型,使用我们的算法扩展工作,并在最近的最先进算法上显示可比较的结果。

* 题目: GPR1200: A Benchmark for General-Purpose Content-Based Image Retrieval
* 链接: https://arxiv.org/abs/2111.13122
* 作者: Konstantin Schall,Kai Uwe Barthel,Nico Hezel,Klaus Jung
* 摘要: 尽管已经广泛表明深度神经网络的检索特定训练有利于最近邻图像搜索质量,但这些模型中的大多数都是在地标图像领域进行训练和测试的。然而,一些应用程序使用来自其他各种领域的图像,因此需要一个具有良好泛化特性的网络 - 通用 CBIR 模型。据我们所知,到目前为止,还没有引入测试协议来针对一般图像检索质量对模型进行基准测试。在分析了流行的图像检索测试集后,我们决定手动管理 GPR1200,这是一个易于使用且易于访问但具有挑战性的基准数据集,具有广泛的图像类别。该基准随后用于评估不同架构的各种预训练模型的泛化质量。我们表明大规模预训练显着提高了检索性能,并展示了如何通过适当的微调进一步增加这些属性的实验。有了这些有希望的结果,我们希望增加对通用 CBIR 研究课题的兴趣。

* 题目: VaxNeRF: Revisiting the Classic for Voxel-Accelerated Neural Radiance Field
* 链接: https://arxiv.org/abs/2111.13112
* 作者: Naruya Kondo,Yuya Ikeda,Andrea Tagliasacchi,Yutaka Matsuo,Yoichi Ochiai,Shixiang Shane Gu
* 摘要: 神经辐射场 (NeRF) 是数据驱动的 3D 重建中的一种流行方法。鉴于其简单性和高质量渲染,许多 NeRF 应用程序正在开发中。然而,NeRF 的一大限制是它的速度慢。许多尝试加速 NeRF 训练和推理,包括复杂的代码级优化和缓存、复杂数据结构的使用以及通过多任务和元学习进行摊销。在这项工作中,我们通过 NeRF 之前的经典技术的镜头重新审视 NeRF 的基本构建块。我们提出了体素加速 NeRF (VaxNeRF),将 NeRF 与视觉外壳相结合,这是一种经典的 3D 重建技术,每幅图像只需要二进制前景-背景像素标签。可以在大约 10 秒内优化的 Visual hull 可以提供粗略的进出场分离,以省略 NeRF 中的大量网络评估。我们在流行的 JaxNeRF 代码库上提供了一个干净的、完全基于 Python 的、基于 JAX 的实现,仅包含大约 30 行代码更改和一个模块化的可视化外壳子例程,并在高性能 JaxNeRF 之上实现了大约 2-8 倍的学习速度渲染质量零退化的基线。有了足够的计算,这有效地将完整的 NeRF 训练从几小时缩短到 30 分钟。我们希望 VaxNeRF——经典技术与深度方法(可以说是取代它)的精心组合——能够以其简单性、可移植性和可靠的性能提升来增强和加速新的 NeRF 扩展和应用程序。代码可在此 https URL 处获得。

* 题目: Few-Shot Real Image Restoration via Distortion-Relation Guided Transfer Learning
* 链接: https://arxiv.org/abs/2111.13078
* 作者: Xin Li,Xin Jin,Jun Fu,Xiaoyuan Yu,Bei Tong,Zhibo Chen
* 其他: 13 pages, first paper for few-shot real image restoration
* 摘要: 在现实世界中收集大量干净失真的训练图像对并非易事,这严重限制了这些基于监督学习的图像恢复 (IR) 方法的实际应用。以前的工作试图通过利用无监督学习技术来减轻对成对训练样本的依赖性来解决这个问题。然而,由于缺乏干净的图像监督,这些方法通常会遇到不令人满意的纹理合成。与纯粹的无监督解决方案相比,具有少镜头清洁图像 (FS-IR) 的未充分探索的方案更适合解决这一具有挑战性的真实图像恢复任务。在本文中,我们是第一个研究少镜头真实图像恢复并提出失真关系引导的转移学习(称为 DRTL)框架的人。 DRTL 分配一个知识图来捕捉辅助任务(即合成失真)和目标任务(即图像很少的真实失真)之间的失真关系,然后采用梯度加权策略来指导从辅助任务到目标任务的知识转移.通过这种方式,DRTL 可以从目标失真的先验失真中快速学习最相关的知识。我们将与预训练和元学习管道集成的 DRTL 实例化,作为实现失真关系感知 FS-IR 的一个实施例。在多个基准上的大量实验证明了 DRTL 在少拍真实图像恢复上的有效性。

* 题目: Exploring Versatile Prior for Human Motion via Motion Frequency Guidance
* 链接: https://arxiv.org/abs/2111.13074
* 作者: Jiachen Xu,Min Wang,Jingyu Gong,Wentao Liu,Chen Qian,Yuan Xie,Lizhuang Ma
* 其他: Accepted by 3DV2021
* 摘要: 先验在提供对人体运动的合理约束方面发挥着重要作用。以前的作品在不同情况下遵循各种范式设计运动先验,导致缺乏通用性。在本文中,我们首先总结了运动先验必不可少的特性,并相应地设计了一个框架来学习通用运动先验,该框架对人体运动的固有概率分布进行建模。具体来说,为了有效的先验表示学习,我们提出了全局方向归一化以去除原始运动数据空间中的冗余环境信息。此外,在编码阶段引入了基于序列和基于片段的两级频率引导。然后,我们采用去噪训练方案以可学习的方式从输入运动数据中分离环境信息,从而生成一致且可区分的表示。将我们的运动先验嵌入到三个不同任务的主流主干中,我们进行了广泛的实验,定量和定性结果都证明了我们的运动先验的多功能性和有效性。我们的模型和代码可在此 https URL 上找到。

* 题目: Continual Active Learning Using Pseudo-Domains for Limited Labelling Resources and Changing Acquisition Characteristics
* 链接: https://arxiv.org/abs/2111.13069
* 作者: Matthias Perkonigg,Johannes Hofmanninger,Christian Herold,Helmut Prosch,Georg Langs
* 摘要: 临床常规期间医学成像中的机器学习会因扫描仪协议、硬件或策略的变化而受损,从而导致一组异构的采集设置。在初始静态训练集上训练深度学习模型时,由于数据和目标可能变得不一致,因此模型性能和可靠性会受到采集特征变化的影响。通过对连续数据流进行训练,持续学习有助于使模型适应不断变化的环境。然而,医学影像的持续手动专家标记需要大量的努力。因此,在精心选择的新示例子集上有效使用标记资源的方法对于使该策略可行是必要的。在这里,我们提出了一种在多扫描仪设置中对医学图像流进行持续主动学习的方法。该方法自动识别图像采集特征(新领域)的变化,选择最佳示例进行标记并相应地调整训练。标签受限于有限的预算,类似于典型的现实世界场景。为了证明通用性,我们评估了我们的方法在三个任务上的有效性:心脏分割、肺结节检测和脑年龄估计。结果表明,所提出的方法优于其他主动学习方法,同时有效地抵消了灾难性遗忘。

* 题目: Robust Object Detection with Multi-input Multi-output Faster R-CNN
* 链接: https://arxiv.org/abs/2111.13065
* 作者: Sebastian Cygert,Andrzej Czyzewski
* 摘要: 近年来,许多基准测试在视觉识别方面取得了令人瞩目的进展,但是,在非分布环境中推广到现实世界仍然是一个重大挑战。用于鲁棒视觉识别的最先进方法是模型集成。然而,最近表明,通过使用多输入多输出架构 (MIMO),可以以更小的成本获得类似的竞争结果。在这项工作中,使用通用 Faster R-CNN 模型将 MIMO 方法的推广应用于目标检测任务。结果表明,使用 MIMO 框架可以构建强大的特征表示,并在仅使用两个输入/输出对时获得非常有竞争力的准确性。此外,与标准 Faster R-CNN 相比,它仅增加了 0.5% 的额外模型参数,并将推理时间增加了 15.9%。当使用相同数量的预测时,它在模型精度、对分布外设置的鲁棒性和不确定性校准方面也与深度集成方法相当或优于深度集成方法。这项工作为将 MIMO 方法应用于其他高级任务(如语义分割和深度估计)开辟了道路。

* 题目: MegLoc: A Robust and Accurate Visual Localization Pipeline
* 链接: https://arxiv.org/abs/2111.13063
* 作者: Shuxue Peng,Zihang He,Haotian Zhang,Ran Yan,Chuting Wang,Qingtian Zhu,Xiao Liu
* 摘要: 在本文中,我们提出了一种视觉定位管道,即 MegLoc,用于在不同场景下稳健而准确的 6-DoF 姿态估计,包括室内和室外场景、一天中的不同时间、一年中的不同季节,甚至跨年。 MegLoc 在一系列具有挑战性的数据集上取得了最先进的成果,包括赢得 ICCV 2021 年不断变化条件下长期视觉定位研讨会的室外和室内视觉定位挑战赛,以及自主重新定位挑战赛ICCV 2021 基于地图的自动驾驶定位研讨会的驾驶。

* 题目: Transferability Metrics for Selecting Source Model Ensembles
* 链接: https://arxiv.org/abs/2111.13011
* 作者: Andrea Agostinelli,Jasper Uijlings,Thomas Mensink,Vittorio Ferrari
* 摘要: 我们解决了迁移学习中的集成选择问题:给定大量源模型,我们希望选择一个模型集成,在对目标训练集进行微调后,在目标测试集上产生最佳性能。由于微调所有可能的集成在计算上是令人望而却步的,我们的目标是使用计算效率高的可迁移性度量来预测目标数据集的性能。我们为此任务提出了几个新的可迁移性指标,并在语义分割的具有挑战性和现实性的迁移学习设置中对其进行评估:我们通过考虑涵盖各种图像域的 17 个源数据集来创建一个庞大而多样化的源模型池,两个不同的体系结构和两个预训练方案。给定这个池,我们然后自动选择一个子集以形成一个在给定目标数据集上表现良好的集成。我们将我们的方法选择的集合与选择单个源模型的两个基线进行比较,要么 (1) 来自与我们的方法相同的池;或 (2) 来自包含大型源模型的池,每个模型都具有与集成相似的容量。平均超过 17 个目标数据集,我们分别比这些基线高出 6.0% 和 2.5% 的相对平均 IoU。

* 题目: Attribute-specific Control Units in StyleGAN for Fine-grained Image Manipulation
* 链接: https://arxiv.org/abs/2111.13010
* 作者: Rui Wang,Jian Chen,Gang Yu,Li Sun,Changqian Yu,Changxin Gao,Nong Sang
* 其他: ACM MultiMedia 2021.Project: https://wrong.wang/x/Control-Units-in-StyleGAN2/
* 摘要: 近年来,使用 StyleGAN 进行图像处理越来越受到关注。最近的工作在分析多个语义潜在空间以编辑生成图像的属性方面取得了巨大成功。然而,由于这些潜在空间中的语义和空间处理精度有限,现有的努力在细粒度的 StyleGAN 图像处理中失败了,即本地属性这个 http URL 解决了这个问题,我们发现了属性特定的控制单元,它由多个通道的特征图和调制样式组成。具体来说,我们在控制单元而不是单个单元中协作操纵调制风格通道和特征图,以获得语义和空间解开的控制。此外,我们提出了一种简单而有效的方法来检测特定于属性的控制单元。我们沿着特定的稀疏方向向量移动调制样式,并替换用于计算特征图的过滤样式以操纵这些控制单元。我们在各种面部属性操作任务中评估我们提出的方法。大量的定性和定量结果表明,我们提出的方法与最先进的方法相比表现良好。真实图像的处理结果进一步表明了我们方法的有效性。

* 题目: Investigation of domain gap problem in several deep-learning-based CT metal artefact reduction methods
* 链接: https://arxiv.org/abs/2111.12983
* 作者: Muge Du,Kaichao Liang,Yinong Liu,Yuxiang Xing
* 摘要: CT 图像中的金属伪影可能会破坏图像质量并干扰诊断。最近已经提出了许多基于深度学习的 CT 金属伪影减少(MAR)方法。当前的深度 MAR 方法可能会遇到域间隙问题,即在模拟数据上训练的方法无法在实际数据上表现良好。在这项工作中,我们在牙科数据集和躯干数据集上实验性地研究了两种图像域监督方法、两种双域监督方法和两种图像域无监督方法,以探索域间隙问题是否存在或被克服。我们发现 I-DL-MAR 和 DudoNet 对躯干数据集的实际数据有效,表明域间隙问题得到解决。然而,没有一种研究方法在牙科数据集的实际数据上表现令人满意。基于实验结果,我们进一步分析了每种方法和数据集的域间隙问题的原因,这可能有利于改进现有方法或设计新方法。研究结果表明,深度 MAR 方法中的域差距问题仍有待解决。

* 题目: CDNet is all you need: Cascade DCN based underwater object detection RCNN
* 链接: https://arxiv.org/abs/2111.12982
* 作者: Di Chang
* 其他: 6 pages, 6 figures. arXiv admin note: text overlap with arXiv:1906.09756 by other authors
* 摘要: 目标检测是计算机视觉领域非常重要的基础研究方向,也是计算机视觉领域其他高级任务的基本方法。它已广泛应用于目标跟踪、视频行为识别和水下机器人视觉等实际应用中。 Cascade-RCNN 和 Deformable Convolution Network 都是经典且优秀的目标检测算法。在本报告中,我们使用不同的工程技巧和增强对水下光学图像和声学图像数据集评估了基于 Cascade-DCN 的方法。

* 题目: AdvBokeh: Learning to Adversarially Defocus Blur
* 链接: https://arxiv.org/abs/2111.12971
* 作者: Yihao Huang,Felix Juefei-Xu,Qing Guo,Weikai Miao,Yang Liu,Geguang Pu
* 其他: 13 pages
* 摘要: 散景效果是一种自然的浅景深现象,可以模糊摄影中的失焦部分。为了追求美观的照片,人们通常将散景效果视为照片中不可或缺的一部分。由于其天然的优势和普遍性,以及许多视觉识别任务已经受到“自然散景”现象的负面影响,在这项工作中,我们从一个新的角度系统地研究了散景效果,即对抗性散景攻击 (AdvBokeh) 旨在将计算出的欺骗性信息嵌入到散景生成中,并生成一个自然的对抗性示例,而没有任何人类可察觉的噪声伪影。为此,我们首先提出了一种深度引导的散景合成网络(DebsNet),它能够通过一个阶段的训练过程灵活地合成、重新聚焦和调整图像的散景水平。 DebsNet 允许我们利用散景生成过程并根据后续视觉任务攻击生成逼真散景所需的深度图(即对抗性调整深度图)。为了进一步提高对抗散景的真实性,我们提出了基于深度引导的基于梯度的攻击来正则化梯度。可以穿透四种最先进的 (SOTA) 图像分类网络,即 ResNet50、VGG、DenseNet 和 MobileNetV2,具有高成功率和高图像质量。 AdvBokeh 获得的对抗样本在黑盒设置下也表现出高度的可转移性。此外,来自 AdvBokeh 的对抗性生成的散焦模糊图像实际上可以用来提高 SOTA 散焦去模糊系统,即 IFAN 的性能。

* 题目: ML-Decoder: Scalable and Versatile Classification Head
* 链接: https://arxiv.org/abs/2111.12933
* 作者: Tal Ridnik,Gilad Sharir,Avi Ben-Cohen,Emanuel Ben-Baruch,Asaf Noy
* 摘要: 在本文中,我们介绍了 ML-Decoder,一种新的基于注意力的分类头。 ML-Decoder 通过查询预测类标签的存在,与全局平均池化相比,可以更好地利用空间数据。通过重新设计解码器架构,并使用新颖的组解码方案,ML-Decoder 非常高效,并且可以很好地扩展到数千个类别。与使用更大的主干相比,ML-Decoder 始终提供更好的速度-准确性权衡。 ML-Decoder 也是多功能的——它可以用作各种分类头的替代品,并在使用单词查询操作时泛化到看不见的类别。新颖的查询增强进一步提高了其泛化能力。使用 ML-Decoder,我们在几个分类任务上取得了最先进的结果:在 MS-COCO 多标签上,我们达到了 91.4% 的 mAP;在 NUS-WIDE 零样本上,我们达到了 31.1% ZSL mAP;在 ImageNet 单标签上,我们使用 vanilla ResNet50 主干达到了 80.7% 的新最高分,无需额外的数据或蒸馏。公共代码位于:此 https URL

* 题目: Facial Depth and Normal Estimation using Single Dual-Pixel Camera
* 链接: https://arxiv.org/abs/2111.12928
* 作者: Minjun Kang,Jaesung Choe,Hyowon Ha,Hae-Gon Jeon,Sunghoon Im,In So Kweon
* 摘要: 许多移动制造商最近在其旗舰机型中采用了双像素 (DP) 传感器,以实现更快的自动对焦和美观的图像捕捉。尽管它们具有优势,但由于缺乏利用 DP 图像中的视差的数据集和算法设计,因此对其用于 3D 面部理解的研究受到限制。这是因为子孔径图像的基线极窄,离焦模糊区域存在视差。在本文中,我们介绍了一个面向 DP 的深度/法线网络,用于重建 3D 面部几何结构。为此,我们收集了 DP 面部数据,其中包含使用我们的多相机结构光系统拍摄的 101 个人的超过 135K 图像。它包含相应的地面实况 3D 模型,包括公制尺度的深度图和表面法线。我们的数据集允许将提议的匹配网络推广到 3D 面部深度/法线估计。所提出的网络由两个新颖的模块组成:自适应采样模块和自适应法线模块,它们专门用于处理 DP 图像中的散焦模糊。最后,与最近的基于 DP 的深度/法线估计方法相比,所提出的方法实现了最先进的性能。我们还展示了估计深度/法线对面部欺骗和重新照明的适用性。

* 题目: Rethinking Generic Camera Models for Deep Single Image Camera Calibration to Recover Rotation and Fisheye Distortion
* 链接: https://arxiv.org/abs/2111.12927
* 作者: Nobuhiko Wakai,Satoshi Sato,Yasunori Ishii,Takayoshi Yamashita
* 摘要: 尽管最近基于学习的校准方法可以从单个图像中预测外部和内部相机参数,但这些方法的准确性在鱼眼图像中会降低。这种退化是由实际投影和预期投影之间的不匹配引起的。为了解决这个问题,我们提出了一种通用相机模型,它有可能解决各种类型的失真。我们的通用相机模型通过相机投影的封闭形式数值计算用于基于学习的方法。同时为了恢复旋转和鱼眼失真,我们提出了一种使用相机模型的基于学习的校准方法。此外,我们提出了一种损失函数,可以减轻四个外部和内部相机参数的误差幅度偏差。大量实验表明,我们提出的方法在两个大型数据集和现成的鱼眼相机捕获的图像上优于传统方法。此外,我们是第一批使用各种类型的现成相机投影来分析基于学习的方法的性能的研究人员。

* 题目: ContourletNet: A Generalized Rain Removal Architecture Using Multi-Direction Hierarchical Representation
* 链接: https://arxiv.org/abs/2111.12925
* 作者: Wei-Ting Chen,Cheng-Che Tsai,Hao-Yu Fang,I-Hsiang Chen,Jian-Jiun Ding,Sy-Yen Kuo
* 其他: This paper is accepted by BMVC 2021
* 摘要: 从雨天场景中获取的图像通常可见度不佳,这可能会损害计算机视觉应用程序的性能。下雨场景可以分为两类:中雨场景和大雨场景。中雨场景主要由雨条纹组成,而大雨场景则包含雨条纹和遮蔽效果(类似于雾霾)。尽管现有的方法分别在这两种情况下都取得了优异的性能,但仍然缺乏有效解决大雨和中雨情况的通用架构。在本文中,我们通过使用轮廓波变换 (CT) 来构建分层多向表示网络来解决中雨和大雨场景。 CT 将图像分为多方向子带 (MS) 和语义子带 (SS)。首先,基于 CT 的多方位特性将雨条信息检索到 MS。其次,提出了一种分层架构来重建背景信息,包括 SS 中损坏的语义信息和遮蔽效应。最后,提出了带有反馈误差图的多级子带鉴别器。通过该模块,可以很好地优化所有子带。这是第一个可以有效解决这两种情况的架构。该代码在此 https URL 中可用。

* 题目: A dual benchmarking study of facial forgery and facial forensics
* 链接: https://arxiv.org/abs/2111.12912
* 作者: Minh Tam Pham,Thanh Trung Huynh,Van Vinh Tong,Thanh Tam Nguyen,Thanh Thi Nguyen,Hongzhi Yin,Quoc Viet Hung Nguyen
* 摘要: 近年来,视觉伪造已经达到人类无法识别欺诈的复杂程度,这对信息安全构成了重大威胁。虚假新闻、诽谤或勒索名人、冒充政客、散播谣言等恶意应用层出不穷。因此,已经提出了丰富的视觉取证技术,试图阻止这种危险的趋势。在本文中,我们提出了一个基准,该基准使用全面的实证方法提供对视觉伪造和视觉取证的深入见解。更具体地说,我们开发了一个独立的框架,该框架集成了最先进的伪造生成器和检测器,并使用各种标准来衡量这些技术的性能。我们还对标杆结果进行了详尽的分析,以确定在这场永无休止的措施与对策之间的战争中作为比较参考的方法的特征。

* 题目: Human and Scene Motion Deblurring using Pseudo-blur Synthesizer
* 链接: https://arxiv.org/abs/2111.12911
* 作者: Jonathan Samuel Lumentut,In Kyu Park
* 摘要: 当今基于深度学习的运动去模糊方法利用合成模糊和清晰数据对来回归任何特定框架。此任务旨在将模糊图像输入直接转换为其恢复版本作为输出。上述方法在很大程度上依赖于合成模糊数据的质量,这些数据仅在训练阶段之前可用。通过提供大量数据来处理这个问题对于普通用途来说是昂贵的。我们通过提供可在训练和测试阶段运行的动态模糊数据增强器来应对这一挑战。为了充分利用它,我们采用了一种非正统的去模糊框架方案,该方案采用了模糊-去模糊-再模糊-去模糊步骤的顺序。重新模糊步骤由重新模糊模块(合成器)协助,该模块提供其清晰或去模糊对应物的重新模糊版本(伪模糊)。所提出的模块还配备了使用最先进的人体统计模型提取的手工先验信息。该先验用于在对抗性学习期间映射人类和非人类区域,以充分感知人类关节和场景运动模糊的特征。通过采用这种方法,与最近最先进的去模糊算法相比,我们的去模糊模块变得自适应并取得了更好的结果。

* 题目: CIRCLE: Convolutional Implicit Reconstruction and Completion for Large-scale Indoor Scene
* 链接: https://arxiv.org/abs/2111.12905
* 作者: Haoxiang Chen,Jiahui Huang,Tai-Jiang Mu,Shi-Min Hu
* 摘要: 我们提出了 CIRCLE,这是一个基于局部隐式带符号距离函数的大规模场景完成和几何细化框架。它基于端到端稀疏卷积网络 CircNet,它联合建模局部几何细节和全局场景结构上下文,使其能够保留细粒度的对象细节,同时恢复传统 3D 场景数据中常见的缺失区域。一种新颖的可微渲染模块可实现测试时间细化,以实现更好的重建质量。在真实世界和合成数据集上的大量实验表明,我们简洁的框架高效且有效,比最接近的竞争对手实现了更好的重建质量,同时速度提高了 10-50 倍。

* 题目: Attend to Who You Are: Supervising Self-Attention for Keypoint Detection and Instance-Aware Association
* 链接: https://arxiv.org/abs/2111.12892
* 作者: Sen Yang,Zhicheng Wang,Ze Chen,Yanjie Li,Shoukui Zhang,Zhibin Quan,Shu-Tao Xia,Yiping Bao,Erjin Zhou,Wankou Yang
* 其他: 16 pages, 9 figures, 7 tables
* 摘要: 本文提出了一种利用Transformer解决关键点检测和实例关联的新方法。对于自下而上的多人姿态估计模型,他们需要检测关键点并学习关键点之间的关联信息。我们认为这些问题完全可以通过 Transformer 解决。具体来说,Transformer 中的 self-attention 测量任何一对位置之间的依赖关系,可以为关键点分组提供关联信息。然而,朴素的注意力模式仍然不受主观控制,因此不能保证关键点总是关注它们所属的实例。为了解决这个问题,我们提出了一种监督自我注意的新方法,用于多人关键点检测和实例关联。通过使用实例掩码来监督自我注意以实现实例感知,我们可以根据成对注意分数将检测到的关键点分配给相应的实例,而无需使用预定义的偏移向量场或像基于 CNN 的自下而上模型那样的嵌入.我们方法的另一个好处是可以直接从监督注意力矩阵中获得任意数量的人的实例分割结果,从而简化像素分配管道。 COCO 多人关键点检测挑战和人物实例分割任务的实验证明了所提出方法的有效性和简单性,并展示了一种有前途的方法来控制特定目的的自我注意行为。

* 题目: V2C: Visual Voice Cloning
* 链接: https://arxiv.org/abs/2111.12890
* 作者: Qi Chen,Yuanqing Li,Yuankai Qi,Jiaqiu Zhou,Mingkui Tan,Qi Wu
* 其他: 15 pages, 14 figures
* 摘要: 现有的语音克隆 (VC) 任务旨在将段落文本转换为具有由参考音频指定的所需语音的语音。这极大地促进了人工语音应用的发展。但是,也有很多场景不能被这些 VC 任务很好的体现,比如电影配音,这就要求演讲的情绪要与电影情节一致。为了填补这一空白,在这项工作中,我们提出了一项名为 Visual Voice Cloning (V2C) 的新任务,该任务旨在将一段文本转换为具有参考音频指定的所需语音和参考视频指定的所需情感的语音。为了促进该领域的研究,我们构建了一个数据集 V2C-Animation,并基于现有的最先进 (SoTA) VC 技术提出了一个强大的基线。我们的数据集包含 10,217 个动画电影剪辑,涵盖各种类型(例如喜剧、奇幻)和情感(例如快乐、悲伤)。我们进一步设计了一组名为 MCD-DTW-SL 的评估指标,它有助于评估真实语音与合成语音之间的相似性。大量实验结果表明,即使是 SoTA VC 方法也无法为我们的 V2C 任务生成令人满意的语音。我们希望提议的新任务连同构建的数据集和评估指标将促进语音克隆领域和更广泛的视觉和语言社区的研究。

* 题目: Effectiveness of Detection-based and Regression-based Approaches for Estimating Mask-Wearing Ratio
* 链接: https://arxiv.org/abs/2111.12888
* 作者: Khanh-Duy Nguyen,Huy H. Nguyen,Trung-Nghia Le,Junichi Yamagishi,Isao Echizen
* 摘要: 估算公共场所的口罩佩戴率很重要,因为它使卫生当局能够及时分析和实施政策。已经报道了基于图像分析来估计口罩佩戴率的方法。然而,仍然缺乏对方法论和数据集的全面研究。最近的大多数报告直接提出通过应用传统的对象检测和分类方法来估计比率。使用基于回归的方法来估计戴口罩的人数是可行的,尤其是对于人脸很小和被遮挡的拥挤场景,但这还没有得到很好的研究。仍然需要大规模且注释良好的数据集。在本文中,我们提出了两种利用基于检测或基于回归的方法进行比率估计的方法。对于基于检测的方法,我们改进了最先进的人脸检测器 RetinaFace,用于估计比率。对于基于回归的方法,我们对基线网络 CSRNet 进行了微调,用于估计蒙面和未蒙面人脸的密度图。我们还展示了第一个大规模数据集“NFM 数据集”,其中包含从 17 个街景视频的 18,088 个视频帧中提取的 581,108 个面部注释。实验表明,基于 RetinaFace 的方法在各种情况下具有更高的准确性,基于 CSRNet 的方法由于其紧凑性而具有更短的运算时间。

* 题目: Active Learning at the ImageNet Scale
* 链接: https://arxiv.org/abs/2111.12880
* 作者: Zeyad Ali Sami Emam,Hong-Min Chu,Ping-Yeh Chiang,Wojciech Czaja,Richard Leapman,Micah Goldblum,Tom Goldstein
* 摘要: 主动学习 (AL) 算法旨在识别用于注释的最佳数据子集,以便深度神经网络 (DNN) 在此标记子集上进行训练时可以获得更好的性能。 AL 在数据标记成本高且从业者使用各种可用工具来提高模型性能的工业规模环境中尤其具有影响力。最近自监督预训练 (SSP) 的成功凸显了利用大量未标记数据来提高模型性能的重要性。通过将 AL 与 SSP 相结合,我们可以利用未标记的数据,同时对特别有用的样本进行标记和训练。在这项工作中,我们在 ImageNet 上研究了 AL 和 SSP 的组合。我们发现,由于主动学习器选择的类别不平衡样本,小型玩具数据集的性能(文献中的典型基准设置)不能代表 ImageNet 的性能。在我们测试的现有基线中,流行的 AL 算法在各种小规模和大规模设置中无法胜过随机抽样。为了解决类别不平衡问题,我们提出了平衡选择 (BASE),这是一种简单、可扩展的 AL 算法,通过选择比现有方法更多的平衡样本进行注释,始终优于随机抽样。我们的代码位于:此 https URL 。

* 题目: Quantised Transforming Auto-Encoders: Achieving Equivariance to Arbitrary Transformations in Deep Networks
* 链接: https://arxiv.org/abs/2111.12873
* 作者: Jianbo Jiao,João F. Henriques
* 其他: BMVC 2021 | Project page: this https URL
* 摘要: 在这项工作中,我们研究如何在没有给出这些转换模型的情况下,完全从数据中实现深度网络中输入转换的等方差。例如,卷积神经网络 (CNN) 与图像平移等变,这是一种可以轻松建模的变换(通过垂直或水平移动像素)。其他变换,例如平面外旋转,不允许使用简单的解析模型。我们提出了一种自动编码器架构,其嵌入同时遵循一组任意的等方差关系,例如平移、旋转、颜色变化等。这意味着它可以获取输入图像,并生成按给定数量转换的版本,而这些版本之前未观察到(例如,同一对象的不同视角或颜色变化)。尽管扩展到许多(甚至非几何)变换,我们的模型在平移等方差的特殊情况下精确地减少到 CNN。等方差对于深度网络的可解释性和鲁棒性很重要,我们展示了在几个合成和真实数据集上成功重新渲染输入图像的转换版本的结果,以及对象姿态估计的结果。

* 题目: Less is More: Generating Grounded Navigation Instructions from Landmarks
* 链接: https://arxiv.org/abs/2111.12872
* 作者: Su Wang,Ceslee Montgomery,Jordi Orbay,Vighnesh Birodkar,Aleksandra Faust,Izzeddin Gur,Natasha Jaques,Austin Waters,Jason Baldridge,Peter Anderson
* 其他: Submitted to CVPR'22
* 摘要: 我们研究从室内路线上捕获的 360 度图像自动生成导航指令。现有的生成器缺乏视觉基础,导致它们依赖语言先验和幻觉对象。我们的MARKY-MT5系统通过关注视觉地标来解决这个问题;它包括一个第一阶段地标检测器和一个第二阶段生成器——一个多模式、多语言、多任务的编码器-解码器。为了训练它,我们在 Room-across-Room (RxR) 数据集之上引导接地地标注释。使用文本解析器、RxR 姿势轨迹的弱监督以及在 1.8b 图像上训练的多语言图像文本编码器,我们识别了 1.1m 英语、印地语和泰卢固语地标描述,并将它们定位到全景图中的特定区域。在 Room-to-Room 中,人类寻路者按照 MARKY-MT5 的指令获得 71% 的成功率 (SR),略低于他们按照人类指令的 75% SR——并且远高于其他生成器的 SR。对 RxR 更长、更多样化的路径的评估在三种语言上获得了 61-64% 的 SR。在新环境中生成如此高质量的导航指令是朝着对话式导航工具迈出的一步,可以促进对指令遵循代理的更大规模培训。

* 题目: Amortized Prompt: Lightweight Fine-Tuning for CLIP in Domain Generalization
* 链接: https://arxiv.org/abs/2111.12853
* 作者: Xin Zhang,Yusuke Iwasawa,Yutaka Matsuo,Shixiang Shane Gu
* 摘要: 域泛化 (DG) 是一个困难的迁移学习问题,旨在学习一个可泛化的模型到看不见的域。最近的大量预训练模型,如 CLIP 和 GPT-3,即基础模型 (FM),已被证明对许多分布变化具有鲁棒性,因此应该会导致 DG 的实质性改进。在这项工作中,我们研究了在图像分类中对 DG 问题采用 CLIP 的通用方法,我们评估了朴素的零样本学习和完整的 DG 学习设置。对于后者,我们提出了 AP(Amortized Prompt),作为一种以提示生成形式进行领域推理的新方法。在域泛化基准测试中使用多个标准数据集,即 PACS、VLCS、OfficeHome 和 TerraIncognita,CLIP 提供了可比的性能,而无需微调任何参数,表明 FM 在 DG 中的适用性和重要性。此外,我们表明,将域提示推理与 CLIP 相结合,使 AP 能够大幅超越强基线和朴素 CLIP 基线,将准确率从 71.3/% 提高到 79.3/%。我们希望我们的方法的简单性和成功强调了基础模型在域泛化领域的重要性,并导致更广泛地采用和分析基础模型。

* 题目: Cross Your Body: A Cognitive Assessment System for Children
* 链接: https://arxiv.org/abs/2111.12824
* 作者: Saif Sayed,Vassilis Athitsos
* 其他: Accepted in ISVC 2021
* 摘要: 虽然许多动作识别技术在公共基准测试中取得了巨大成功,但这种性能不一定能在真实世界场景中复制,其中数据来自特定的应用程序需求。我们在本文中关注的特定现实世界应用是对使用认知要求高的体力任务的儿童进行的认知评估。我们创建了一个名为 Cross-Your-Body 的系统并记录了数据,它在几个方面是独一无二的,包括任务是由心理学家设计的,对象是儿童,视频捕捉了现实世界的使用情况,因为他们记录了儿童在心理学家的真实世界评估中执行任务。我们系统的其他显着特点是它的分数可以直接转换为衡量执行功能,这是区分青少年儿童多动症发作的关键因素之一。由于儿童执行的动作不精确,并且存在细粒度的运动模式,我们系统地调查和评估记录数据的相关方法。我们的目标是该系统将有助于推进儿童认知评估的研究。

* 题目: Application of deep learning to camera trap data for ecologists in planning / engineering -- Can captivity imagery train a model which generalises to the wild?
* 链接: https://arxiv.org/abs/2111.12805
* 作者: Ryan Curry,Cameron Trotter,Andrew Stephen McGough
* 其他: Submitted to Big Data 2021
* 摘要: 了解一个物种的丰富程度是了解其长期可持续性和我们可能对其产生的影响的第一步。生态学家使用相机陷阱远程调查特定动物物种的存在。先前的研究表明,可以训练深度学习模型以高置信度自动检测和分类相机陷阱图像中的动物。然而,训练这些模型的能力取决于拥有足够的高质量训练数据。当动物稀有或数据集不存在时会发生什么?这项研究提出了一种使用圈养稀有动物(重点是苏格兰野猫)的图像来生成训练数据集的方法。我们探讨了在应用于野外收集的数据时,将在圈养数据上训练的模型泛化相关的挑战。该研究以生态学家在规划/工程方面的需求为背景。遵循其他研究的先例,该项目为对象检测、图像分割和图像分类模型建立了一个集合,然后使用不同的图像处理和类结构技术进行测试,以鼓励模型泛化。该研究得出结论,在苏格兰野猫的背景下,使用现有技术无法将在圈养图像上训练的模型推广到野生相机陷阱图像。然而,在只有 1% 的图像包含野猫的测试集上,基于 Wildcat 与 Not Wildcat 两类模型的最终模型性能实现了 81.6% 的整体准确度得分和 54.8% 的 Wildcat 准确度得分。这表明通过进一步研究使用圈养图像是可行的。这是第一项尝试基于圈养数据生成训练集的研究,也是第一项在生态学家规划/工程背景下探索此类模型开发的研究。

* 题目: Improving the Perceptual Quality of 2D Animation Interpolation
* 链接: https://arxiv.org/abs/2111.12792
* 作者: Shuhong Chen,Matthias Zwicker
* 其他: under review
* 摘要: 传统的 2D 动画是劳动密集型的,通常需要动画师每秒手动绘制 12 幅运动插图。虽然自动帧插值可以减轻这种负担,但 2D 动画固有的艺术效果使视频合成与照片级写实领域相比特别具有挑战性。较低的帧率会导致较大的位移和遮挡,离散的感知元素(例如线条和纯色区域)给面向纹理的卷积网络带来困难,并且夸大的非线性运动阻碍了训练数据的收集。以前的工作尝试解决这些问题,但使用了不可扩展的方法并专注于像素完美的性能。相比之下,我们为这个艺术领域构建了一个更适合以感知质量为中心的可扩展系统。首先,我们提出了一种轻量级架构,采用简单而有效的遮挡修复技术,以使用较少的可训练参数提高感知度量的收敛性。其次,我们设计了一个新颖的辅助模块,利用欧几里德距离变换来改善关键线和区域结构的保留。第三,我们通过定量滤除运动非线性,自动将现有的手动收集的数据集加倍,从而提高模型泛化能力。最后,我们通过用户研究确定了 LPIPS 和倒角距离比 PSNR 和 SSIM 更可取,从而验证了我们的系统对 2D 动画领域感知质量的重视。

* 题目: Fast mesh denoising with data driven normal filtering using deep variational autoencoders
* 链接: https://arxiv.org/abs/2111.12782
* 作者: Stavros Nousias,Gerasimos Arvanitis,Aris S. Lalos,Konstantinos Moustakas
* 其他: 12 pages, 12 figures
* 摘要: 3D 扫描技术的最新进展使 3D 模型能够在各种工业应用中部署,例如数字孪生、远程检查和逆向工程。尽管 3D 扫描仪的性能不断发展,但仍会在获取的密集模型中引入噪声和伪影。在这项工作中,我们为密集的 3D 扫描工业模型提出了一种快速而强大的去噪方法。所提出的方法采用条件变分自编码器来有效地过滤面部法线。训练和推理在滑动补丁设置中执行,减少了所需训练数据的大小和执行时间。我们使用 3D 扫描和 CAD 模型进行了广泛的评估研究。结果验证了合理的去噪结果,与其他最先进的方法相比,显示出相似或更高的重建精度。具体来说,对于具有超过 1e4 个面的 3D 模型,所提出的流水线是具有等效重建误差的方法的两倍。

* 题目: Transferability Estimation using Bhattacharyya Class Separability
* 链接: https://arxiv.org/abs/2111.12780
* 作者: Michal Pándy,Andrea Agostinelli,Jasper Uijlings,Vittorio Ferrari,Thomas Mensink
* 摘要: 迁移学习已成为在计算机视觉中利用预训练模型的流行方法。然而,如果不执行计算成本高的微调,就很难量化哪些预训练的源模型适合特定的目标任务,或者相反,预训练的源模型可以轻松适应哪些任务。在这项工作中,我们提出了高斯 Bhattacharyya 系数 (GBC),这是一种量化源模型和目标数据集之间可转移性的新方法。在第一步中,我们将所有目标图像嵌入源模型定义的特征空间中,并用每类高斯分布来表示它们。然后,我们使用 Bhattacharyya 系数估计它们的成对类可分离性,从而产生一个简单而有效的衡量源模型如何转移到目标任务的方法。我们在数据集和架构选择的背景下评估图像分类任务上的 GBC。此外,我们还对更复杂的语义分割可转移性估计任务进行了实验。我们证明了 GBC 在语义分割设置中的大多数评估标准上都优于最先进的可转移性指标,与图像分类中数据集可转移性的顶级方法的性能相匹配,并且在图像分类的架构选择问题上表现最佳。

* 题目: ACNet: Approaching-and-Centralizing Network for Zero-Shot Sketch-Based Image Retrieval
* 链接: https://arxiv.org/abs/2111.12757
* 作者: Hao Ren,Ziqiang Zheng,Yang Wu,Hong Lu,Yang Yang,Sai-Kit Yeung
* 摘要: 草图和照片之间的巨大领域差距以及高度抽象的草图表示给基于草图的图像检索(/underline{SBIR})带来了挑战。基于零镜头草图的图像检索(/underline{ZS-SBIR})更加通用和实用,但由于可见和不可见类别之间的额外知识差距而带来更大的挑战。为了同时缩小这两个差距,我们提出了一个 /textbf{A}pproaching-and-/textbf{C}entralizing /textbf{Net} 工作(称为“/textbf{ACNet}”)来共同优化草图到照片合成和图像检索。检索模块引导合成模块生成大量不同的类似照片的图像,这些图像逐渐接近照片域,从而比以往更好地为检索模块服务,以学习与领域无关的表示和与类别无关的常识,以推广到看不见的类别.这些通过检索指导生成的不同图像可以有效地缓解困扰具有高梯度的特定类别训练样本的过度拟合问题。我们还发现使用基于代理的 NormSoftmax 损失在零样本设置中是有效的,因为它的集中效应可以稳定我们的联合训练并促进对未知类别的泛化能力。我们的方法简单而有效,它在两个广泛使用的 ZS-SBIR 数据集上实现了最先进的性能,并且大大超过了以前的方法。

* 题目: Human Pose Manipulation and Novel View Synthesis using Differentiable Rendering
* 链接: https://arxiv.org/abs/2111.12731
* 作者: Guillaume Rochette,Chris Russell,Richard Bowden
* 其他: Accepted at Face and Gesture 2021, 8 pages, 7 figures
* 摘要: 我们提出了一种新方法来合成新姿势的人的新观点。我们新颖的可微渲染器可以从任何角度合成高度逼真的图像。我们的渲染器不是在基于网格的结构上操作,而是使用直接代表人类底层骨骼结构的漫反射高斯基元。渲染这些基元会产生一个高维的潜在图像,然后由解码器网络将其转换为 RGB 图像。该公式产生了一个完全可微的框架,可以进行端到端的训练。我们在 Human3.6M 和 Panoptic Studio 数据集上展示了我们的图像重建方法的有效性。我们展示了我们的方法如何用于个体之间的运动转移;仅从单个相机捕获的个人的新颖视图合成;从任何虚拟视点合成个体;并以新颖的姿势重新渲染人物。此 https URL 提供代码和视频结果。

* 题目: Online Adaptation for Implicit Object Tracking and Shape Reconstruction in the Wild
* 链接: https://arxiv.org/abs/2111.12728
* 作者: Jianglong Ye,Yuntao Chen,Naiyan Wang,Xiaolong Wang
* 摘要: 从杂乱的场景中跟踪和重建 3D 对象是计算机视觉、机器人和自动驾驶系统的关键组成部分。虽然隐函数(例如,DeepSDF)的最新进展在高质量 3D 形状重建方面显示出令人鼓舞的结果,但将其推广到杂乱且部分可观察的 LiDAR 数据仍然非常具有挑战性。在本文中,我们建议利用视频数据的连续性。我们引入了一种新颖且统一的框架,该框架利用 DeepSDF 模型在野外同时跟踪和重建 3D 对象。我们在线调整视频中的 DeepSDF 模型,迭代改进形状重建,同时改进跟踪,反之亦然。我们对 Waymo 和 KITTI 数据集进行了实验,并展示了对跟踪和形状重建的最先进方法的显着改进。

* 题目: Universal Captioner: Long-Tail Vision-and-Language Model Training through Content-Style Separation
* 链接: https://arxiv.org/abs/2111.12727
* 作者: Marcella Cornia,Lorenzo Baraldi,Giuseppe Fiameni,Rita Cucchiara
* 摘要: 虽然字幕模型在描述自然图像方面取得了令人信服的结果,但它们仍然没有涵盖现实世界概念的整个长尾分布。在本文中,我们通过对网络规模自动收集的数据集进行训练,解决了生成具有野外概念的类人描述的任务。为此,我们提出了一种模型,该模型可以利用嘈杂的图像-字幕对,同时保持 COCO 等传统人工注释数据集的描述风格。我们的模型通过使用关键字和风格标记将内容与风格分开,采用提示语言建模的单一目标,并且比其他最近的提议更简单。在实验上,我们的模型在字幕质量和描述长尾概念的能力方面始终优于现有方法,在零镜头设置中也是如此。根据 CIDEr 指标,我们在使用外部数据时获得了 COCO 和 nocaps 的最新技术。

* 题目: Latent Space Smoothing for Individually Fair Representations
* 链接: https://arxiv.org/abs/2111.13650
* 作者: Momchil Peychev,Anian Ruoss,Mislav Balunović,Maximilian Baader,Martin Vechev
* 摘要: 公平表示学习对用户数据进行编码以确保公平性和实用性,而不管下游应用程序如何。然而,学习个体公平的表示,即保证相似的个体得到相似的对待,在计算机视觉等高维环境中仍然具有挑战性。在这项工作中,我们介绍了 LASSI,这是第一种证明高维数据个体公平性的表示学习方法。我们的主要见解是利用生成建模的最新进展来捕获生成潜在空间中的一组相似个体。这允许通过使用对抗性训练来最小化他们的表示之间的距离,从而学习单独的公平表示,其中相似的个体被映射得很近。最后,我们采用随机平滑来证明将相似的个体紧密地映射在一起,从而确保下游应用程序的局部稳健性验证导致端到端的公平性认证。我们对具有挑战性的现实世界图像数据的实验评估表明,我们的方法将认证的个人公平性提高了 60%,而不会显着影响任务效用。

* 题目: Conditional Image Generation with Score-Based Diffusion Models
* 链接: https://arxiv.org/abs/2111.13606
* 作者: Georgios Batzolis,Jan Stanczuk,Carola-Bibiane Schönlieb,Christian Etmann
* 摘要: 基于分数的扩散模型已成为最有前途的深度生成建模框架之一。在这项工作中,我们对使用基于分数的扩散模型学习条件概率分布的不同方法进行了系统的比较和理论分析。特别是,我们证明的结果为最成功的条件分数估计器之一提供了理论依据。此外,我们引入了一个多速扩散框架,它产生了一个新的条件分数估计器,与以前的最先进方法相当。我们的理论和实验结果伴随着一个开源库 MSDiff,它允许应用和进一步研究多速扩散模型。

* 题目: $μ$NCA: Texture Generation with Ultra-Compact Neural Cellular Automata
* 链接: https://arxiv.org/abs/2111.13545
* 作者: Alexander Mordvintsev,Eyvind Niklasson
* 摘要: 我们使用高度紧凑的模型研究基于示例的程序纹理合成问题。给定样本图像,我们使用可微编程来训练生成过程,该过程由循环神经元胞自动机 (NCA) 规则参数化。与神经网络应该显着过度参数化的普遍看法相反,我们证明我们的模型架构和训练程序允许仅使用几百个学习参数来表示复杂的纹理模式,使其表达能力与手工设计的程序纹理生成程序相媲美.建议的 $/mu$NCA 系列中最小的模型缩减到 68 个参数。当使用量化为每个参数一个字节时,建议的模型可以缩小到 588 和 68 字节之间的大小范围。只需几行 GLSL 或 C 代码,就可以实现使用这些参数生成图像的纹理生成器。

* 题目: A model of semantic completion in generative episodic memory
* 链接: https://arxiv.org/abs/2111.13537
* 作者: Zahra Fayyaz,Aya Altamimi,Sen Cheng,Laurenz Wiskott
* 其他: 15 pages, 9 figures, 58 references
* 摘要: 许多不同的研究表明,情景记忆是一个生成过程,但大多数计算模型采用存储观点。在这项工作中,我们提出了一种生成情景记忆的计算模型。它基于海马体存储和检索事件的选定方面作为记忆痕迹的中心假设,这必然是不完整的。在回忆时,新皮层在我们称为语义完成的过程中根据一般语义信息合理地填充缺失的信息。作为剧集,我们使用由代表上下文的不同背景增强的数字图像 (MNIST)。我们的模型基于 VQ-VAE,它以索引矩阵的形式生成压缩的潜在表示,该表示仍然具有一定的空间分辨率。我们假设注意力选择了索引矩阵的某些部分,而其他部分则被丢弃,然后这代表了情节的要点并存储为记忆轨迹。在召回时,缺失的部分由 PixelCNN 填充,建模语义完成,然后完成的索引矩阵由 VQ-VAE 解码成完整图像。该模型能够以语义上合理的方式完成记忆痕迹的缺失部分,直到它可以从头开始生成合理的图像。由于索引矩阵中的组合,该模型可以很好地推广到未经训练的图像。压缩和语义完成有助于大大减少内存需求和对噪声的鲁棒性。最后,我们还模拟了一个情景记忆实验,并且可以重现语义一致的上下文总是比不一致的上下文更好地回忆,高注意力水平在两种情况下都提高了记忆准确性,并且没有正确记住的上下文在语义一致的情况下比完全错误的情况更常被记住。

* 题目: Confounder Identification-free Causal Visual Feature Learning
* 链接: https://arxiv.org/abs/2111.13420
* 作者: Xin Li,Zhizheng Zhang,Guoqiang Wei,Cuiling Lan,Wenjun Zeng,Xin Jin,Zhibo Chen
* 其他: 14 pages, 10 figures
* 摘要: 深度学习中的混杂因素通常不利于模型的泛化,因为它们会渗透到特征表示中。因此,学习不受混杂因素干扰的因果特征很重要。大多数以前的基于因果学习的方法采用后门标准来减轻某些特定混杂因素的不利影响,这需要明确识别混杂因素。然而,在实际场景中,混杂因素通常多种多样且难以识别。在本文中,我们提出了一种新颖的无混杂识别因果视觉特征学习 (CICF) 方法,该方法无需识别混杂因素。 CICF基于前门准则对不同样本之间的干预进行建模,然后从优化的角度近似全局范围的干预对实例级干预的影响。通过这种方式,我们的目标是找到一个可靠的优化方向,避免混杂因素的干扰,学习因果特征。此外,我们揭示了 CICF 与流行的元学习策略 MAML 之间的关系,并首次从因果学习的理论角度解释了 MAML 为何起作用。由于对因果特征的有效学习,我们的 CICF 使模型具有卓越的泛化能力。对域泛化基准数据集的大量实验证明了我们 CICF 的有效性,它实现了最先进的性能。

* 题目: Jointly Learning Agent and Lane Information for Multimodal Trajectory Prediction
* 链接: https://arxiv.org/abs/2111.13350
* 作者: Jie Wang,Caili Guo,Minan Guo,Jiujiu Chen
* 摘要: 预测附近代理可能的未来轨迹是自动驾驶汽车安全的核心挑战,它主要取决于两个外部线索:动态邻居代理和静态场景上下文。最近的方法在分别表征这两个线索方面取得了很大进展。然而,他们忽略了两个线索之间的相关性,并且大多数都难以实现地图自适应预测。在本文中,我们使用车道作为场景数据,并提出了一个分阶段网络,联合学习代理和车道信息以进行多模态轨迹预测(JAL-MTP)。 JAL-MTP 使用 Social to Lane (S2L) 模块将相邻代理的静态车道和动态运动共同表示为实例级车道,这是一种利用实例级车道预测车道的循环车道注意 (RLA) 机制地图自适应未来轨迹和两个选择器来识别典型和合理的轨迹。在公共 Argoverse 数据集上进行的实验表明,JAL-MTP 在定量和定性方面都明显优于现有模型。

* 题目: ArchRepair: Block-Level Architecture-Oriented Repairing for Deep Neural Networks
* 链接: https://arxiv.org/abs/2111.13330
* 作者: Hua Qi,Zhijie Wang,Qing Guo,Jianlang Chen,Felix Juefei-Xu,Lei Ma,Jianjun Zhao
* 其他: 33 pages, 7 figures
* 摘要: 在过去的几年中,深度神经网络(DNN)取得了巨大的成功,并在许多应用领域不断得到应用。然而,在工业任务的实际部署过程中,发现 DNN 由于各种原因而容易出错,例如过度拟合、在实际使用过程中缺乏对现实世界损坏的鲁棒性。为了应对这些挑战,最近进行了许多尝试,通过在神经层面上通过再训练、微调或直接权重固定来更新权重(即网络参数),从而在实际操作环境下修复 DNN 以进行版本更新。在这项工作中,作为第一次尝试,我们开始通过在更高(即块)级别联合优化架构和权重来修复 DNN。我们首先进行实证研究来调查整个网络级和层级修复的局限性,这促使我们探索块级 DNN 修复的新修复方向。为此,我们首先提出了针对易受攻击的块定位的对抗性感知频谱分析,该分析考虑了前向和后向过程中块中神经元的状态和权重的梯度,即使在几个例子下也能实现更准确的候选块定位以进行修复。然后,我们进一步提出了面向架构的基于搜索的修复,将目标块放松到更高深度特征级别的连续修复搜索空间。通过联合优化该空间中的架构和权重,我们可以确定一个更好的块架构。我们将我们提出的修复技术作为一种名为 ArchRepair 的工具实施,并进行了大量实验来验证所提出的方法。结果表明,我们的方法不仅可以修复,还可以提高准确性和鲁棒性,优于最先进的 DNN 修复技术。

* 题目: Generative Adversarial Networks and Adversarial Autoencoders: Tutorial and Survey
* 链接: https://arxiv.org/abs/2111.13282
* 作者: Benyamin Ghojogh,Ali Ghodsi,Fakhri Karray,Mark Crowley
* 其他: To appear as a part of an upcoming textbook on dimensionality reduction and manifold learning
* 摘要: 这是一篇关于生成对抗网络 (GAN)、对抗性自动编码器及其变体的教程和调查论文。我们首先解释对抗性学习和 vanilla GAN。然后,我们解释条件 GAN 和 DCGAN。引入了模式崩溃问题,并引入了各种方法来解决这个问题,包括小批量 GAN、展开 GAN、BourGAN、混合 GAN、D2GAN 和 Wasserstein GAN。然后,将解释 GAN 中的最大似然估计以及 f-GAN、对抗性变分贝叶斯和贝叶斯 GAN。然后,我们介绍了 GAN、InfoGAN、GRAN、LSGAN、基于能量的 GAN、CatGAN、MMD GAN、LapGAN、渐进式 GAN、三重 GAN、LAG、GMAN、AdaGAN、CoGAN、逆 GAN、BiGAN、ALI、SAGAN 中的特征匹配,小样本 GAN、SinGAN 以及 GAN 的插值和评估。然后,我们介绍了 GAN 的一些应用,例如图像到图像的转换(包括 PatchGAN、CycleGAN、DeepFaceDrawing、模拟 GAN、交互式 GAN)、文本到图像的转换(包括 StackGAN)和混合图像特征(包括 FineGAN 和混合N匹配)。最后,我们解释了基于对抗性学习的自动编码器,包括对抗性自动编码器、PixelGAN 和隐式自动编码器。

* 题目: Joint inference and input optimization in equilibrium networks
* 链接: https://arxiv.org/abs/2111.13236
* 作者: Swaminathan Gurumurthy,Shaojie Bai,Zachary Manchester,J. Zico Kolter
* 其他: Neurips 2021
* 摘要: 深度学习中的许多任务涉及优化网络的 /emph{inputs} 以最小化或最大化某些目标;示例包括优化生成模型中的潜在空间以匹配目标图像,或对抗性扰乱输入以降低分类器性能。然而,执行此类优化传统上非常昂贵,因为它涉及针对每个梯度步骤完整地向前和向后传递网络。在一项单独的工作中,最近的一项研究开发了深度均衡 (DEQ) 模型,这是一类放弃传统网络深度的模型,而是通过找到单个非线性层的不动点来计算网络的输出。在本文中,我们表明这两种设置之间存在天然的协同作用。虽然,天真地将 DEQ 用于这些优化问题是昂贵的(由于为每个梯度步骤计算固定点所需的时间),但我们可以利用基于梯度的优化可以/emph {本身} 被转换为固定点的事实迭代以大幅提高整体速度。也就是说,我们/emph{同时}都解决了DEQ 定点/emph{和}优化网络输入,所有这些都在一个单一的“增强”DEQ 模型中,该模型联合编码原始网络和优化过程。事实上,该过程足够快,它允许我们有效地/emph{train} DEQ 模型用于传统上依赖“内部”优化循环的任务。我们在各种任务上展示了这种策略,例如在优化潜在代码的同时训练生成模型、针对逆问题(如去噪和修复)、对抗性训练和基于梯度的元学习的训练模型。

* 题目: Intrinsic Dimension, Persistent Homology and Generalization in Neural Networks
* 链接: https://arxiv.org/abs/2111.13171
* 作者: Tolga Birdal,Aaron Lou,Leonidas Guibas,Umut Şimşekli
* 其他: Appears at NeurIPS 2021
* 摘要: 现代深度神经网络违背了统计学习理论的经典智慧,即使它们通常包含数百万个参数,也能很好地泛化。最近,已经表明迭代优化算法的轨迹可以具有分形结构,并且它们的泛化误差可以正式地与这种分形的复杂性联系起来。这种复杂性是由分形的内在维数来衡量的,这个量通常比网络中的参数数量小得多。尽管这个观点解释了为什么过度参数化的网络不会过度拟合,但计算内在维度(例如,用于在训练期间监控泛化)是一项众所周知的艰巨任务,现有方法即使在中等环境维度下通常也会失败。在这项研究中,我们从拓扑数据分析 (TDA) 的角度考虑这个问题,并开发了一种基于严格数学基础的通用计算工具。通过在学习理论和 TDA 之间建立新的联系,我们首先说明泛化误差可以等效地限制在称为“持久同源维数”(PHD)的概念中,与之前的工作相比,我们的方法不需要关于训练动态的任何其他几何或统计假设。然后,通过利用最近建立的理论结果和 TDA 工具,我们开发了一种有效的算法来估计现代深度神经网络规模的 PHD,并进一步提供可视化工具来帮助理解深度学习中的泛化。我们的实验表明,所提出的方法可以在各种设置中有效地计算网络的内在维度,这可以预测泛化误差。

* 题目: Robot Skill Adaptation via Soft Actor-Critic Gaussian Mixture Models
* 链接: https://arxiv.org/abs/2111.13129
* 作者: Iman Nematollahi,Erick Rosete-Beas,Adrian Röfer,Tim Welschehold,Abhinav Valada,Wolfram Burgard
* 其他: Submitted to the 2022 IEEE International Conference on Robotics and Automation (ICRA)
* 摘要: 在现实世界中行动的自主代理的核心挑战是调整其技能库以应对其嘈杂的感知和动态。为了将技能学习扩展到长期任务,机器人应该能够通过轨迹以结构化的方式学习并随后改进他们的技能,而不是在每个时间步单独做出即时决策。为此,我们提出了 Soft Actor-Critic Gaussian Mixture Model (SAC-GMM),这是一种新颖的混合方法,它通过动态系统学习机器人技能,并通过与环境的交互在自己的轨迹分布空间中调整学习到的技能。我们的方法结合了从演示中学习的经典机器人技术与深度强化学习框架,并利用了它们的互补性。我们表明,我们的方法利用仅在执行初步学习技能期间可用的传感器来提取相关特征,从而更快地改进技能。在模拟和现实环境中的广泛评估证明了我们的方法通过利用物理交互、高维感官数据和稀疏任务完成奖励来改进机器人技能的有效性。视频、代码和预训练模型可在 /url{this http URL} 获得。

* 题目: A Novel Framework for Image-to-image Translation and Image Compression
* 链接: https://arxiv.org/abs/2111.13105
* 作者: Fei Yang,Yaxing Wang,Luis Herranz,Yongmei Cheng,Mikhail Mozerov
* 摘要: 使用机器学习的数据驱动范式在图像处理和通信中变得无处不在。特别是,图像到图像 (I2I) 转换是一种通用且广泛使用的图像处理问题方法,例如图像合成、样式转换和图像恢复。与此同时,神经图像压缩已成为视觉通信中传统编码方法的数据驱动替代方案。在本文中,我们研究将这两种范式组合成一个联合的 I2I 压缩和翻译框架,重点是多域图像合成。我们首先通过将量化和熵编码集成到 I2I 翻译框架(即 I2Icodec)中来提出分布式 I2I 翻译。在实践中,图像压缩功能(即自动编码)也是可取的,需要与 I2Icodec 一起部署常规图像编解码器。因此,我们进一步提出了一个统一的框架,允许在单个编解码器中同时具备翻译和自动编码功能。以转换/压缩模式为条件的自适应残差块提供对所需功能的灵活适应。实验表明,使用单个模型在 I2I 转换和图像压缩方面都取得了可喜的成果。

* 题目: Path Guiding Using Spatio-Directional Mixture Models
* 链接: https://arxiv.org/abs/2111.13094
* 作者: Ana Dodik,Marios Papas,Cengiz Öztireli,Thomas Müller
* 其他: 17 pages
* 摘要: 我们在路径跟踪算法中提出了一种基于学习的光路构建方法,该方法从我们称为空间方向高斯混合模型 (SDMM) 的模型中迭代优化和采样。特别是,我们将事件辐射近似为通过 $k$D 树加速的在线训练的 $5$D 混合物。使用相同的框架,我们将 BSDF 近似为预训练的 $n$D 混合,其中 $n$ 是 BSDF 参数的数量。这种方法解决了路径引导模型中的两个主要挑战。首先,$5$D 辐射度表示自然地捕捉了空间和方向维度之间的相关性。这种相关性存在于例如视差和焦散中。其次,通过使用高斯的切线空间参数化,我们的空间方向混合可以使用任意方向的 BSDF 执行近似乘积采样。现有模型只能通过上述混合成分的各向异性或通过在局部(法线对齐)坐标中表示辐射场来做到这一点,这两者都使辐射场更难以学习。切线空间参数化的另一个好处是,每个单独的高斯函数都映射到实心球体,在其质心附近具有低失真。我们的方法在具有小型局部灯具的场景中表现特别好,这些灯具会在入射辐射中产生高空间方向相关性。

* 题目: Learning Algebraic Representation for Systematic Generalization in Abstract Reasoning
* 链接: https://arxiv.org/abs/2111.12990
* 作者: Chi Zhang,Sirui Xie,Baoxiong Jia,Ying Nian Wu,Song-Chun Zhu,Yixin Zhu
* 摘要: 智能是由联结主义者还是古典主义者实现的?虽然联结主义方法已经取得了超人的表现,但越来越多的证据表明,这种特定于任务的优势在系统概括中特别脆弱。这一观察在于联结主义者和古典主义者之间的中心辩论,后者不断提倡在认知架构中进行代数处理。在这项工作中,我们遵循古典主义者的呼吁,并提出了一种混合方法来改进推理中的系统概括。具体来说,我们展示了一个具有代数表示的原型,用于 Raven 渐进矩阵 (RPM) 的抽象时空推理任务,并展示了代数感知神经半符号 (ALANS) 学习器。 ALANS 学习者的动机是抽象代数和表示理论。它由一个神经视觉感知前端和一个代数抽象推理后端组成:前端从基于对象的表示中总结视觉信息,而后端将其转换为代数结构并动态引入隐藏算子。稍后执行诱导算子以预测答案的表示,并选择与预测最相似的选项作为解决方案。大量实验表明,通过结合代数处理,ALANS 学习器在需要系统泛化的领域中优于各种纯联结主义模型。我们进一步表明,学习到的代数表示可以通过同构进行解码以生成答案。

* 题目: Towards Practical Deployment-Stage Backdoor Attack on Deep Neural Networks
* 链接: https://arxiv.org/abs/2111.12965
* 作者: Xiangyu Qi,Tinghao Xie,Ruizhe Pan,Jifeng Zhu,Yong Yang,Kai Bu
* 摘要: AI 安全社区的一个主要目标是为现实世界的应用程序安全可靠地生成和部署深度学习模型。为此,近年来对生产阶段(或训练阶段)的深度神经网络(DNN)的基于数据中毒的后门攻击和相应的防御进行了广泛的探索。具有讽刺意味的是,部署阶段的后门攻击经常发生在非专业用户的设备上,因此在现实世界中可能更具威胁性,却很少引起社区的关注。我们将这种警惕性的不平衡归因于现有部署阶段后门攻击算法的弱实用性和现实世界攻击演示的不足。为了填补空白,在这项工作中,我们研究了部署阶段后门攻击对 DNN 的现实威胁。我们的研究基于常用的部署阶段攻击范式——对抗性权重攻击,其中对手有选择地修改模型权重以将后门嵌入到部署的 DNN 中。为了接近现实实用性,我们提出了第一个用于后门注入的灰盒和物理可实现权重攻击算法,即子网替换攻击(SRA),它只需要受害者模型的架构信息,并且可以支持现实世界中的物理触发器。进行了广泛的实验模拟和系统级真实世界的攻击演示。我们的结果不仅表明了所提出的攻击算法的有效性和实用性,而且还揭示了一种新型计算机病毒的实际风险,该病毒可能会广泛传播并秘密地将后门注入用户设备的 DNN 模型中。通过我们的研究,我们呼吁更多地关注 DNN 在部署阶段的脆弱性。

* 题目: Morphological feature visualization of Alzheimer's disease via Multidirectional Perception GAN
* 链接: https://arxiv.org/abs/2111.12886
* 作者: Wen Yu,Baiying Lei,Yanyan Shen,Shuqiang Wang,Yong Liu,Zhiguang Feng,Yong Hu,Michael K. Ng
* 摘要: 阿尔茨海默病 (AD) 早期阶段的诊断对于及时治疗以减缓进一步恶化至关重要。可视化 AD 早期阶段的形态特征具有重要的临床价值。在这项工作中,提出了一种新颖的多向感知生成对抗网络(MP-GAN)来可视化指示不同阶段患者 AD 严重程度的形态学特征。具体来说,通过在模型中引入一种新的多向映射机制,所提出的 MP-GAN 可以有效地捕获显着的全局特征。因此,通过利用来自生成器的类别判别图,所提出的模型可以通过源域和预定义目标域之间的 MR 图像变换清楚地描绘出细微的病变。此外,通过整合对抗性损失、分类损失、循环一致性损失和 /emph{L}1 惩罚,MP-GAN 中的单个生成器可以学习多个类别的类别判别图。阿尔茨海默病神经影像学倡议 (ADNI) 数据集的大量实验结果表明,与现有方法相比,MP-GAN 实现了卓越的性能。 MP-GAN 可视化的病变也与临床医生观察到的一致。

* 题目: Coded Illumination for Improved Lensless Imaging
* 链接: https://arxiv.org/abs/2111.12862
* 作者: Yucheng Zheng,M. Salman Asif
* 其他: Supplementary material available at this https URL
* 摘要: 基于掩模的无镜头相机可以是扁平、薄且重量轻的,这使得它们适用于具有大表面积和任意形状的计算成像系统的新颖设计。尽管最近在无镜头相机方面取得了进展,但由于基础测量系统的不良状况,从无镜头相机恢复的图像质量通常很差。在本文中,我们建议使用编码照明来提高使用无镜头相机重建的图像质量。在我们的成像模型中,当无镜头相机记录传感器测量值时,场景/物体被多个编码照明模式照亮。我们设计并测试了许多照明图案,并观察到移动点(和相关的正交)图案提供了最佳的整体性能。我们提出了一种快速且低复杂度的恢复算法,该算法利用了我们系统中的可分离性和块对角线结构。我们展示了仿真结果和硬件实验结果,以证明我们提出的方法可以显着提高重建质量。

* 题目: Extending the Relative Seriality Formalism for Interpretable Deep Learning of Normal Tissue Complication Probability Models
* 链接: https://arxiv.org/abs/2111.12854
* 作者: Tahir I. Yusufaly
* 摘要: 我们正式证明了 Kallman 等人的相对序列模型。完全映射到一种简单类型的卷积神经网络。这种方法分别在旁观者效应和分层组织组织方面对卷积层和堆叠中间池层中的前馈连接进行自然解释。这些结果用作使用大规模成像和剂量学数据集对正常组织并发症概率进行放射生物学可解释深度学习的原理证明。

* 题目: Geometric Priors for Scientific Generative Models in Inertial Confinement Fusion
* 链接: https://arxiv.org/abs/2111.12798
* 作者: Ankita Shukla,Rushil Anirudh,Eugene Kur,Jayaraman J. Thiagarajan,Peer-Timo Bremer,Brian K. Spears,Tammy Ma,Pavan Turaga
* 其他: 5 pages, 4 figures, Fourth Workshop on Machine Learning and the Physical Sciences, NeurIPS 2021
* 摘要: 在本文中,我们为惯性约束融合应用中的多模态数据开发了具有超球面先验的 Wasserstein 自动编码器 (WAE)。与典型的超球面生成模型不同,该模型需要从 von Mis Fisher 等分布中进行低效采样,我们从正态分布中采样,然后是生成器之前的投影层。最后,为了确定生成样本的有效性,我们利用数据集中模态之间的已知关系作为科学约束,并研究所提出模型的不同属性。

* 题目: JoinABLe: Learning Bottom-up Assembly of Parametric CAD Joints
* 链接: https://arxiv.org/abs/2111.12772
* 作者: Karl D.D. Willis,Pradeep Kumar Jayaraman,Hang Chu,Yunsheng Tian,Yifei Li,Daniele Grandi,Aditya Sanghi,Linh Tran,Joseph G. Lambourne,Armando Solar-Lezama,Wojciech Matusik
* 摘要: 实体产品通常是复杂的装配体,结合了在计算机辅助设计 (CAD) 软件中建模的大量 3D 零件。 CAD 设计师通过使用称为关节的约束将单个零件彼此对齐来构建这些组件。在本文中,我们介绍了 JoinABLe,这是一种基于学习的方法,可将零件组装在一起形成关节。 JoinABLe 使用标准参数化 CAD 文件中可用的弱监督,而无需对象类标签或人工指导的帮助。我们的结果表明,通过对实体模型的图形表示进行网络预测,我们可以以接近人类表现 (80%) 的准确度 (79.53%) 胜过多种基线方法。最后,为了支持未来的研究,我们发布了 Fusion 360 Gallery 装配数据集,其中包含有关接头、接触面、孔和底层装配图结构的丰富信息的装配。

关键词:关键,更新

74
73
25
news

版权所有© 亿企邦 1997-2025 保留一切法律许可权利。

为了最佳展示效果,本站不支持IE9及以下版本的浏览器,建议您使用谷歌Chrome浏览器。 点击下载Chrome浏览器
关闭