arXiv每日更新-2021.12.7(今日关键词:detection, segmentation, transformer)
时间:2023-04-21 13:54:01 | 来源:网站运营
时间:2023-04-21 13:54:01 来源:网站运营
arXiv每日更新-2021.12.7(今日关键词:detection, segmentation, transformer):
Transformer
* 题目: DoodleFormer: Creative Sketch Drawing with Transformers
* 链接:
https://arxiv.org/abs/2112.03258* 作者: Ankan Kumar Bhunia,Salman Khan,Hisham Cholakkal,Rao Muhammad Anwer,Fahad Shahbaz Khan,Jorma Laaksonen,Michael Felsberg
* 摘要: 创意素描或涂鸦是一种富有表现力的活动,在这种活动中,可以绘制出日常视觉对象的富有想象力和以前未曾见过的描绘。创意草图图像生成是一个具有挑战性的视觉问题,其任务是生成具有视觉世界对象看不见的组合的多样化但逼真的创意草图。在这里,我们提出了一种新颖的由粗到细的两阶段框架 DoodleFormer,它将创意草图生成问题分解为粗略草图合成的创建,然后在草图中加入精细细节。我们引入了图形感知转换器编码器,可有效捕获不同身体部位之间的全局动态和局部静态结构关系。为了确保生成的创意草图的多样性,我们引入了一个概率粗略草图解码器,它明确地模拟要绘制的每个草图身体部分的变化。实验在两个创意草图数据集上进行:Creative Birds 和 Creative Creatures。我们的定性、定量和基于人的评估表明,DoodleFormer 在两个数据集上都优于最先进的技术,生成了逼真且多样化的创意草图。在 Creative Creatures 上,DoodleFormer 在 Fr`echet 起始距离 (FID) 方面比最先进的技术获得了 25 的绝对增益。我们还展示了 DoodleFormer 对文本相关应用到创意草图生成和草图完成的有效性。
* 题目: PTTR: Relational 3D Point Cloud Object Tracking with Transformer
* 链接:
https://arxiv.org/abs/2112.02857* 作者: Changqing Zhou,Zhipeng Luo,Yueru Luo,Tianrui Liu,Liang Pan,Zhongang Cai,Haiyu Zhao,Shijian Lu
* 摘要: 在点云序列中,3D 对象跟踪旨在在给定模板点云的情况下预测当前搜索点云中对象的位置和方向。受 Transformer 成功的启发,我们提出了 Point Tracking TRansformer (PTTR),它在 Transformer 操作的帮助下以粗到细的方式有效地预测高质量的 3D 跟踪结果。 PTTR 由三个新颖的设计组成。 1)我们设计了关系感知采样而不是随机采样,以在子采样期间保留给定模板的相关点。 2)此外,我们提出了一个点关系变换器(PRT),它由一个自注意力和一个交叉注意力模块组成。全局自注意力操作捕获远程依赖项,以分别增强搜索区域和模板的编码点特征。随后,我们通过交叉注意匹配两组点特征来生成粗略跟踪结果。 3)基于粗略的跟踪结果,我们采用一种新颖的预测细化模块来获得最终的细化预测。此外,我们基于 Waymo 开放数据集创建了一个大规模点云单对象跟踪基准。大量实验表明,PTTR 在精度和效率方面都实现了卓越的点云跟踪。
* 题目: GETAM: Gradient-weighted Element-wise Transformer Attention Map for Weakly-supervised Semantic segmentation
* 链接:
https://arxiv.org/abs/2112.02841* 作者: Weixuan Sun,Jing Zhang,Zheyuan Liu,Yiran Zhong,Nick Barnes
* 摘要: 弱监督语义分割 (WSSS) 具有挑战性,尤其是在使用图像级标签来监督像素级预测时。为了弥补它们的差距,通常会生成类激活图 (CAM) 以提供像素级伪标签。卷积神经网络中的 CAM 受到部分激活的影响,即,只有最具辨别力的区域被激活。另一方面,基于 Transformer 的方法在通过远程依赖建模探索全局上下文方面非常有效,可能会缓解“部分激活”问题。在本文中,我们提出了第一个基于变换器的 WSSS 方法,并介绍了梯度加权元素明智变换器注意图 (GETAM)。 GETAM 显示了所有特征图元素的精细尺度激活,揭示了跨变换器层的对象的不同部分。此外,我们提出了一个激活感知标签完成模块来生成高质量的伪标签。最后,我们使用双重反向传播将我们的方法整合到 WSSS 的端到端框架中。在 PASCAL VOC 和 COCO 上的大量实验表明,我们的结果以显着优势击败了最先进的端到端方法,并且优于大多数多阶段方法。
* 题目: Dynamic Token Normalization Improves Vision Transformer
* 链接:
https://arxiv.org/abs/2112.02624* 作者: Wenqi Shao,Yixiao Ge,Zhaoyang Zhang,Xuyuan Xu,Xiaogang Wang,Ying Shan,Ping Luo
* 其他: 18 pages, 12 Tables, 9 Figures
* 摘要: Vision Transformer (ViT) 及其变体(例如 Swin、PVT)由于能够学习远程上下文信息,在各种计算机视觉任务中取得了巨大成功。层归一化 (LN) 是这些模型中的重要组成部分。然而,我们发现普通 LN 使不同位置的令牌在量级上相似,因为它标准化了每个令牌内的嵌入。 Transformers 很难用 LN 捕获归纳偏差,例如图像中的位置上下文。我们通过提出一个新的规范化器来解决这个问题,称为动态令牌规范化 (DTN),其中规范化在每个令牌(令牌内)和不同令牌(令牌间)内执行。 DTN 有几个优点。首先,它建立在统一的公式之上,因此可以代表各种现有的归一化方法。其次,DTN 学习以令牌内和令牌间的方式规范化令牌,使 Transformer 能够捕获全局上下文信息和本地位置上下文。 {第三,通过简单地替换 LN 层,DTN 可以轻松插入各种视觉转换器,例如 ViT、Swin、PVT、LeViT、T2T-ViT、BigBird 和 Reformer。大量实验表明,配备 DTN 的变压器在额外参数和计算开销最小的情况下始终优于基线模型。例如,DTN 在 ImageNet 上的 top-1 准确度比 LN 高 $0.5/%$ - $1.2/%$,在 COCO 基准测试中的对象检测比 box AP 高 $2.3/%$ - $3.9/%$ mCE ImageNet-C 上的鲁棒性实验,在 Long-Range Arena 上的 Long ListOps 精度提高了 $0.5/%$ - $0.8/%$。} 代码将在 /url{this https URL} 公开
* 题目: Learning Tracking Representations via Dual-Branch Fully Transformer Networks
* 链接:
https://arxiv.org/abs/2112.02571* 作者: Fei Xie,Chunyu Wang,Guangting Wang,Wankou Yang,Wenjun Zeng
* 其他: ICCV21 Workshops
* 摘要: 我们提出了一个类似 Siamese 的双分支网络,仅基于 Transformers 进行跟踪。给定一个模板和一个搜索图像,我们将它们分成不重叠的补丁,并根据每个补丁与注意力窗口内其他补丁的匹配结果为每个补丁提取一个特征向量。对于每个token,我们估计它是否包含目标对象以及对应的大小。该方法的优点是特征是从匹配中学习的,最终用于匹配。因此特征与对象跟踪任务对齐。该方法获得了更好或可比的结果,作为性能最好的方法,首先使用 CNN 提取特征,然后使用 Transformer 融合它们。它在 GOT-10k 和 VOT2020 基准测试中优于最先进的方法。此外,该方法在一个 GPU 上实现了实时推理速度(约 40 美元 fps)。将发布代码和模型。
* 题目: Adaptive Channel Encoding Transformer for Point Cloud Analysis
* 链接:
https://arxiv.org/abs/2112.02507* 作者: Guoquan Xu,Hezhi Cao,Jianwei Wan,Ke Xu,Yanxin Ma,Cong Zhang
* 摘要: Transformer 在计算机视觉的各个领域发挥着越来越重要的作用,在点云分析方面也取得了显着的成就。由于他们主要关注逐点变换器,因此本文提出了一种自适应信道编码变换器。具体来说,称为 Transformer-Conv 的通道卷积旨在对通道进行编码。它可以通过捕获坐标和特征之间的潜在关系来编码特征通道。与简单地为每个通道分配注意力权重相比,我们的方法旨在对通道进行自适应编码。此外,我们的网络采用低级和高级双语义感受野的邻域搜索方法来提高性能。大量实验表明,我们的方法在三个基准数据集上优于最先进的点云分类和分割方法。
* 题目: Pose-guided Feature Disentangling for Occluded Person Re-identification Based on Transformer
* 链接:
https://arxiv.org/abs/2112.02466* 作者: Tao Wang,Hong Liu,Pinhao Song,Tianyu Guo,Wei Shi
* 其他: Accepted by AAAI2022
* 摘要: 被遮挡的人重新识别是一项具有挑战性的任务,因为在某些场景中,人体部位可能会被某些障碍物(例如树木、汽车和行人)遮挡。一些现有的姿势引导方法通过根据图匹配对齐身体部位来解决这个问题,但这些基于图的方法并不直观和复杂。因此,我们提出了一种基于变换器的姿态引导特征解缠 (PFD) 方法,利用姿态信息清楚地解开语义成分(例如人体或关节部位),并相应地选择性地匹配未遮挡的部分。首先,Vision Transformer(ViT)以其强大的能力用于提取patch特征。其次,为了初步从补丁信息中分离出姿势信息,在姿势引导特征聚合(PFA)模块中利用了匹配和分配机制。第三,在转换器解码器中引入了一组可学习的语义视图,以隐式增强解开的身体部位特征。但是,在没有额外监督的情况下,不能保证这些语义视图与主体相关。因此,提出了姿势视图匹配(PVM)模块来显式匹配可见的身体部位并自动分离遮挡特征。第四,为了更好地防止遮挡的干扰,我们设计了一个 Pose-guided Push Loss 来强调可见身体部位的特征。对两个任务(遮挡和整体 Re-ID)的五个具有挑战性的数据集的广泛实验表明,我们提出的 PFD 非常有前途,与最先进的方法相比表现出色。代码可在此 https URL 获得
* 题目: TransCMD: Cross-Modal Decoder Equipped with Transformer for RGB-D Salient Object Detection
* 链接:
https://arxiv.org/abs/2112.02363* 作者: Youwei Pang,Xiaoqi Zhao,Lihe Zhang,Huchuan Lu
* 其他: Manuscript Version
* 摘要: 现有的RGB-D显着目标检测方法大多利用卷积运算,构建复杂的交织融合结构,实现跨模态信息集成。卷积操作固有的局部连接性将基于卷积的方法的性能限制在一个上限。在这项工作中,我们从全局信息对齐和转换的角度重新思考这项任务。具体而言,所提出的方法(TransCMD)级联多个跨模态集成单元以构建自上而下的基于变压器的信息传播路径(TIPP)。 TransCMD 将多尺度和多模态特征集成视为建立在转换器上的序列到序列上下文传播和更新过程。此外,考虑二次复杂性 w.r.t.输入令牌的数量,我们设计了一个具有可接受的计算成本的补丁式令牌重新嵌入策略(PTRE)。七个 RGB-D SOD 基准数据集的实验结果表明,当配备 TIPP 时,简单的两流编码器-解码器框架可以超越最先进的纯基于 CNN 的方法。
* 题目: U2-Former: A Nested U-shaped Transformer for Image Restoration
* 链接:
https://arxiv.org/abs/2112.02279* 作者: Haobo Ji,Xin Feng,Wenjie Pei,Jinxing Li,Guangming Lu
* 摘要: 虽然 Transformer 在各种高级视觉任务中取得了非凡的表现,但在图像恢复中充分发挥 Transformer 的潜力仍然具有挑战性。关键在于在典型的编码器 - 解码器框架中应用 Transformer 进行图像恢复的深度有限,这是由于大量的自注意力计算负载和跨不同深度(尺度)层的低效率通信造成的。在本文中,我们提出了一种深度有效的基于 Transformer 的图像恢复网络,称为 U2-Former,它能够以 Transformer 为核心操作在深度编码和解码空间中执行图像恢复。具体来说,它利用嵌套的 U 形结构来促进具有不同尺度特征图的不同层之间的交互。此外,我们通过引入特征过滤机制来压缩令牌表示来优化基本 Transformer 块的计算效率。除了图像恢复的典型监督方式外,我们的 U2-Former 还进行了多方面的对比学习,以进一步将噪声成分与背景图像分离。在各种图像恢复任务上的大量实验,包括反射去除、雨痕去除和去雾,证明了所提出的 U2-Former 的有效性。
* 题目: LAVT: Language-Aware Vision Transformer for Referring Image Segmentation
* 链接:
https://arxiv.org/abs/2112.02244* 作者: Zhao Yang,Jiaqi Wang,Yansong Tang,Kai Chen,Hengshuang Zhao,Philip H.S. Torr
* 其他: 10 pages, 8 figures
* 摘要: 引用图像分割是一项基本的视觉语言任务,旨在从图像中分割出自然语言表达式所引用的对象。此任务背后的主要挑战之一是利用引用表达式来突出显示图像中的相关位置。解决这个问题的一个范例是利用强大的视觉语言(“跨模式”)解码器来融合从视觉编码器和语言编码器独立提取的特征。最近的方法通过利用 Transformer 作为跨模式解码器,在这种范式上取得了显着进步,同时 Transformer 在许多其他视觉语言任务中取得了压倒性的成功。在这项工作中采用不同的方法,我们表明,通过在视觉 Transformer 编码器网络的中间层中早期融合语言和视觉特征,可以实现明显更好的跨模式对齐。通过在视觉特征编码阶段进行跨模态特征融合,我们可以利用 Transformer 编码器经过充分验证的相关建模能力来挖掘有用的多模态上下文。通过这种方式,可以使用轻量级掩码预测器轻松获得准确的分割结果。没有花里胡哨,我们的方法大大超过了之前在 RefCOCO、RefCOCO+ 和 G-Ref 上的最先进方法。
三维视觉
* 题目: Input-level Inductive Biases for 3D Reconstruction
* 链接:
https://arxiv.org/abs/2112.03243* 作者: Wang Yifan,Carl Doersch,Relja Arandjelović,João Carreira,Andrew Zisserman
* 摘要: 我们使用通用感知模型探索 3D 重建,最近的 Perceiver IO 摄取无序和扁平输入(例如像素)矩阵。该模型使用查询矩阵进行查询,并为每个查询生成一个输出——在本文中,输出是输入图像对的所有像素的深度值。我们将对于多视图几何有用的归纳偏置纳入到这个通用模型中,而不必触及其架构,而是将它们直接编码为附加输入。
* 题目: 3D Hierarchical Refinement and Augmentation for Unsupervised Learning of Depth and Pose from Monocular Video
* 链接:
https://arxiv.org/abs/2112.03045* 作者: Guangming Wang,Jiquan Zhong,Shijie Zhao,Wenhua Wu,Zhe Liu,Hesheng Wang
* 其他: 10 pages, 7 figures, under review
* 摘要: 深度和自我运动估计对于自主机器人和自主驾驶的定位和导航至关重要。最近的研究使得从未标记的单目视频中学习每像素深度和自我运动成为可能。提出了一种新的无监督训练框架,使用显式 3D 几何进行 3D 分层细化和增强。在这个框架中,深度和姿态估计是分层的,相互耦合,以逐层细化估计的姿态。中间视图图像是通过使用估计的深度和粗略姿态扭曲图像中的像素来提出和合成的。然后,可以从新的视图图像和相邻帧的图像中估计残差姿态变换,以细化粗略姿态。本文采用可微分的方式进行迭代细化,使整个框架统一优化。同时,通过合成新的视图图像,提出了一种新的图像增强方法用于姿态估计,该方法创造性地增强了 3D 空间中的姿态,但得到了新的增强 2D 图像。 KITTI 上的实验表明,我们的深度估计达到了最先进的性能,甚至超越了最近利用其他辅助任务的方法。我们的视觉里程计优于所有最近的基于无监督单目学习的方法,并在后端优化的基于几何的方法 ORB-SLAM2 中实现了具有竞争力的性能。
* 题目: 4DContrast: Contrastive Learning with Dynamic Correspondences for 3D Scene Understanding
* 链接:
https://arxiv.org/abs/2112.02990* 作者: Yujin Chen,Matthias Nießner,Angela Dai
* 其他: Video: this https URL
* 摘要: 我们提出了一种新方法,通过无监督预训练将 4D 动态对象先验灌输到学习的 3D 表示中。我们观察到对象在环境中的动态运动提供了关于其对象性的重要线索,因此建议将这种动态理解灌输到学习的 3D 表示中,然后可以有效地转移到下游 3D 语义场景理解任务中提高性能。我们提出了一种新的数据增强方案,利用在静态 3D 环境中移动的合成 3D 形状,并在 3D-4D 约束下采用对比学习,将 4D 不变性编码到学习的 3D 表示中。实验表明,我们的无监督表示学习导致下游 3D 语义分割、对象检测和实例分割任务的改进,此外,还显着提高了数据稀缺场景中的性能。
* 题目: No-Reference Point Cloud Quality Assessment via Domain Adaptation
* 链接:
https://arxiv.org/abs/2112.02851* 作者: Qi Yang,Yipeng Liu,Siheng Chen,Yiling Xu,Jun Sun
* 摘要: 我们提出了一种新颖的无参考质量评估指标,即用于 3D 点云的图像传输点云质量评估 (IT-PCQA)。对于质量评估,深度神经网络 (DNN) 在无参考度量设计方面表现出引人注目的性能。然而,无参考 PCQA 最具挑战性的问题是我们缺乏大规模的主观数据库来驱动强大的网络。我们的动机是人类视觉系统 (HVS) 是决策者,无论用于质量评估的媒体类型如何。利用自然图像丰富的主观评分,我们可以通过 DNN 查询人类感知的评价标准,并将预测能力转移到 3D 点云上。特别是,我们将自然图像作为源域,点云作为目标域,并通过无监督的对抗域自适应来推断点云质量。为了提取有效的潜在特征并最小化域差异,我们提出了一个分层特征编码器和一个条件判别网络。考虑到最终目的是回归客观分数,我们在条件判别网络中引入了一种新的条件交叉熵损失来惩罚阻碍质量回归网络收敛的负样本。实验结果表明,与传统的无参考指标相比,所提出的方法可以获得更高的性能,甚至可以与全参考指标相媲美。所提出的方法还提出了评估特定媒体内容质量的可行性,而无需进行昂贵且繁琐的主观评估。
* 题目: Joint Symmetry Detection and Shape Matching for Non-Rigid Point Cloud
* 链接:
https://arxiv.org/abs/2112.02713* 作者: Abhishek Sharma,Maks Ovsjanikov
* 其他: Under Review. arXiv admin note: substantial text overlap with arXiv:2110.02994
* 摘要: 尽管深度功能图在非刚性 3D 形状匹配中取得了成功,但不存在同时对自对称和形状匹配进行建模的学习框架。尽管由于对称性不匹配导致的错误是非刚性形状匹配中的主要挑战。在本文中,我们提出了一种新颖的框架,可以同时学习自对称以及一对形状之间的成对映射。我们的关键思想是通过正则化项将自对称映射和成对映射耦合在一起,该正则化项为两者提供联合约束,从而导致更准确的映射。我们在几个基准测试中验证了我们的方法,它在两个任务上都优于许多有竞争力的基准。
* 题目: Adaptive Channel Encoding for Point Cloud Analysis
* 链接:
https://arxiv.org/abs/2112.02509* 作者: Guoquan Xu,Hezhi Cao,Yifan Zhang,Jianwei Wan,Ke Xu,Yanxin Ma
* 摘要: 注意力机制在点云分析中发挥着越来越重要的作用,通道注意力是热点之一。通道信息如此之多,神经网络很难筛选出有用的通道信息。因此,本文提出了一种自适应信道编码机制来捕获信道关系。它通过显式编码其特征通道之间的相互依赖性来提高网络生成的表示质量。具体来说,提出了一种通道级卷积(Channel-Conv)来自适应地学习坐标和特征之间的关系,从而对通道进行编码。与流行的注意力权重方案不同,本文提出的Channel-Conv在卷积运算中实现了适应性,而不是简单地为通道分配不同的权重。对现有基准的大量实验验证了我们的方法达到了最先进的水平。
* 题目: PointCLIP: Point Cloud Understanding by CLIP
* 链接:
https://arxiv.org/abs/2112.02413* 作者: Renrui Zhang,Ziyu Guo,Wei Zhang,Kunchang Li,Xupeng Miao,Bin Cui,Yu Qiao,Peng Gao,Hongsheng Li
* 其他: Open sourced, Code and Model Available
* 摘要: 最近,通过对比视觉语言预训练 (CLIP) 进行的零样本和少样本学习在 2D 视觉识别方面表现出鼓舞人心的表现,该方法学习在开放词汇设置中将图像与其相应的文本进行匹配。然而,通过 2D 中的大规模图像-文本对预训练的 CLIP 是否可以推广到 3D 识别,仍有待探索。在本文中,我们通过提出 PointCLIP 来确定这种设置是可行的,它在 CLIP 编码的点云和 3D 类别文本之间进行对齐。具体来说,我们通过将点云投影到多视图深度图中而不进行渲染来编码点云,并聚合视图方式的零镜头预测以实现从 2D 到 3D 的知识转移。最重要的是,我们设计了一个视图间适配器,以更好地提取全局特征,并将从 3D 中学到的小样本知识自适应地融合到 2D 中预训练的 CLIP 中。通过在少拍设置中微调轻量级适配器,PointCLIP 的性能可以大大提高。此外,我们观察到 PointCLIP 和经典 3D 监督网络之间的互补特性。通过简单的集成,PointCLIP 提高了基线的性能,甚至超越了最先进的模型。因此,PointCLIP 是在低资源成本和数据机制下通过 CLIP 进行有效 3D 点云理解的有前途的替代方案。我们对广泛采用的 ModelNet10、ModelNet40 和具有挑战性的 ScanObjectNN 进行了彻底的实验,以证明 PointCLIP 的有效性。该代码在此 https URL 上发布。
* 题目: Sphere Face Model:A 3D Morphable Model with Hypersphere Manifold Latent Space
* 链接:
https://arxiv.org/abs/2112.02238* 作者: Diqiong Jiang,Yiwei Jin,Fanglue Zhang,Zhe Zhu,Yun Zhang,Ruofeng Tong,Min Tang
* 摘要: 3D 可变形模型 (3DMM) 是面部形状和外观的生成模型。然而,传统 3DMM 的形状参数满足多元高斯分布,而身份嵌入满足超球面分布,这种冲突使得人脸重建模型难以同时保持忠实度和形状一致性。为了解决这个问题,我们提出了球形人脸模型(SFM),这是一种用于单目人脸重建的新型 3DMM,它可以保持形状保真度和身份一致性。我们的 SFM 的核心是可用于重建 3D 人脸形状的基础矩阵,基本矩阵是通过采用两阶段训练方法学习的,其中 3D 和 2D 训练数据分别用于第一和第二阶段。为了解决分布不匹配,我们设计了一种新的损失,使形状参数具有超球面潜在空间。大量实验表明,SFM 具有较高的表示能力和形状参数空间的聚类性能。此外,它产生保真人脸形状,并且形状在单眼人脸重建中具有挑战性的条件下是一致的。
* 题目: Joint Audio-Text Model for Expressive Speech-Driven 3D Facial Animation
* 链接:
https://arxiv.org/abs/2112.02214* 作者: Yingruo Fan,Zhaojiang Lin,Jun Saito,Wenping Wang,Taku Komura
* 摘要: 具有准确嘴唇同步的语音驱动的 3D 面部动画已被广泛研究。然而,很少有人探索在语音期间为整个面部合成逼真的运动。在这项工作中,我们提出了一个联合音频-文本模型来捕获用于表达性语音驱动的 3D 面部动画的上下文信息。收集现有数据集以覆盖尽可能多的不同音素而不是句子,从而限制了基于音频的模型学习更多不同上下文的能力。为了解决这个问题,我们建议利用从强大的预训练语言模型中提取的上下文文本嵌入,该模型从大规模文本数据中学习了丰富的上下文表示。我们的假设是文本特征可以消除与音频没有强相关性的上脸表情的变化。与从文本中学习音素级特征的先前方法相比,我们研究了语音驱动的 3D 面部动画的高级上下文文本特征。我们表明,组合的声学和文本模式可以合成逼真的面部表情,同时保持音频-嘴唇同步。我们进行定量和定性评估以及感知用户研究。结果表明,我们的模型相对于现有的最先进方法具有卓越的性能。
* 题目: Behind the Curtain: Learning Occluded Shapes for 3D Object Detection
* 链接:
https://arxiv.org/abs/2112.02205* 作者: Qiangeng Xu,Yiqi Zhong,Ulrich Neumann
* 摘要: LiDAR 传感器的进步提供了丰富的 3D 数据,支持 3D 场景理解。然而,由于遮挡和信号丢失,LiDAR 点云实际上是 2.5D,因为它们仅覆盖部分底层形状,这对 3D 感知构成了根本性挑战。为了应对这一挑战,我们提出了一种新的基于 LiDAR 的 3D 对象检测模型,称为幕后检测器 (BtcDet),该模型学习对象形状先验并估计点云中部分遮挡(遮挡)的完整对象形状。 BtcDet 首先识别受遮挡和信号缺失影响的区域。在这些区域中,我们的模型预测了占用概率,该概率指示一个区域是否包含对象形状。结合这个概率图,BtcDet 可以生成高质量的 3D 建议。最后,占用概率也被集成到一个提案细化模块中以生成最终的边界框。在 KITTI 数据集和 Waymo 开放数据集上进行的大量实验证明了 BtcDet 的有效性。特别是,对于 KITTI 基准上的汽车和骑自行车者的 3D 检测,BtcDet 以显着的优势超越了所有已发布的最先进方法。代码已发布(此 https URL}{此 https URL)。
* 题目: Fast 3D registration with accurate optimisation and little learning for Learn2Reg 2021
* 链接:
https://arxiv.org/abs/2112.03053* 作者: Hanna Siebert,Lasse Hansen,Mattias P. Heinrich
* 摘要: 当前用于可变形医学图像配准的方法通常难以满足以下所有标准:通用性强、计算或训练时间少,以及能够估计大变形。此外,用于注册监督训练的端到端网络通常变得过于复杂且难以训练。对于 Learn2Reg2021 挑战,我们旨在通过将特征学习和几何对齐解耦来解决这些问题。首先,我们引入了一种新的非常快速且准确的优化方法。通过使用离散位移和耦合凸优化程序,我们能够稳健地应对大变形。在基于 Adam 的实例优化的帮助下,我们实现了非常准确的配准性能,并且通过使用正则化,我们获得了平滑且合理的变形场。其次,为了适用于不同的注册任务,我们提取了模态和对比度不变的手工特征,并从特定于任务的分割 U-Net 中用语义特征补充它们。凭借我们的结果,我们能够在整体 Learn2Reg2021 挑战赛中获得第二名,赢得任务 1,并在其他两项任务中分别获得第二和第三名。
* 题目: Pose2Room: Understanding 3D Scenes from Human Activities
* 链接:
https://arxiv.org/abs/2112.03030* 作者: Yinyu Nie,Angela Dai,Xiaoguang Han,Matthias Nießner
* 其他: Project page: this https URL Video: this https URL
* 摘要: 使用可穿戴 IMU 传感器,人们可以通过可穿戴设备估计人体姿势,而无需视觉输入 /cite{von2017sparse}。在这项工作中,我们提出了一个问题:我们能否仅根据人类轨迹信息来推断现实世界环境中的对象结构?至关重要的是,我们观察到人类的运动和交互往往会提供关于场景中物体的强烈信息——例如,一个人坐着表明可能有椅子或沙发。为此,我们提出 P2R-Net 来学习场景中对象的概率 3D 模型,该模型以类类别和定向 3D 边界框为特征,基于在环境中观察到的人类轨迹的输入。 P2R-Net 对对象类别的概率分布以及对象框的深度高斯混合模型进行建模,从而能够从观察到的人类轨迹中对对象配置的多个、不同、可能的模式进行采样。在我们的实验中,我们证明了 P2R-Net 可以有效地学习人类运动的可能对象的多模态分布,并生成环境的各种似是而非的对象结构,即使没有任何视觉信息。
视频处理
* 题目: Reliable Propagation-Correction Modulation for Video Object Segmentation
* 链接:
https://arxiv.org/abs/2112.02853* 作者: Xiaohao Xu,Jinglu Wang,Xiao Li,Yan Lu
* 其他: 13 pages, 8 figures, AAAI 2022 Accepted
* 摘要: 错误传播是在线半监督视频对象分割中一个普遍但至关重要的问题。我们的目标是通过具有高可靠性的校正机制来抑制错误传播。关键的见解是用可靠的线索将校正与传统的掩模传播过程分开。我们引入了两个调制器,传播调制器和校正调制器,分别根据局部时间相关性和可靠参考对目标帧嵌入进行逐通道重新校准。具体来说,我们使用级联传播校正方案组装调制器。这避免了传播调制器对可靠校正调制器的影响。尽管带有真实标签的参考框架提供了可靠的线索,但它可能与目标框架非常不同,并引入不确定或不完整的相关性。我们通过向维护池补充可靠的特征补丁来增加参考线索,从而为调制器提供更全面和更具表现力的对象表示。此外,可靠性过滤器旨在检索可靠的补丁并将它们传递到后续帧中。我们的模型在 YouTube-VOS18/19 和 DAVIS17-Val/Test 基准测试中达到了最先进的性能。大量实验表明,该校正机制通过充分利用可靠的引导提供了可观的性能提升。代码位于:此 https URL。
* 题目: PP-MSVSR: Multi-Stage Video Super-Resolution
* 链接:
https://arxiv.org/abs/2112.02828* 作者: Lielin Jiang,Na Wang,Qingqing Dang,Rui Liu,Baohua Lai
* 其他: 8 pages, 6 figures, 3 tables
* 摘要: 与单幅图像超分辨率(SISR)任务不同,视频超分辨率(VSR)任务的关键是充分利用跨帧的互补信息来重建高分辨率序列。由于来自不同帧的图像具有不同的运动和场景,准确对齐多个帧并有效地融合不同的帧一直是 VSR 任务的重点研究工作。为了利用相邻帧的丰富互补信息,在本文中,我们提出了一种多级 VSR 深度架构,称为 PP-MSVSR,具有局部融合模块、辅助损失和重新对齐模块来逐步改进增强结果。具体来说,为了加强特征传播中跨帧特征的融合,在第一阶段设计了局部融合模块,在特征传播之前进行局部特征融合。此外,我们在第 2 阶段引入辅助损失,使传播模块获得的特征保留更多连接到 HR 空间的相关信息,并在第 3 阶段引入重新对齐模块,以充分利用上一阶段。大量实验证实,PP-MSVSR 实现了 Vid4 数据集的良好性能,仅用 1.45M 参数就实现了 28.13dB 的 PSNR。并且 PP-MSVSR-L 在具有相当大参数的 REDS4 数据集上超过了所有最先进的方法。代码和模型将在 PaddleGAN/footnote{this https URL.} 中发布。
* 题目: Make It Move: Controllable Image-to-Video Generation with Text Descriptions
* 链接:
https://arxiv.org/abs/2112.02815* 作者: Yaosi Hu,Chong Luo,Zhenzhong Chen
* 摘要: 生成符合用户意图的可控视频是计算机视觉中一个有吸引力但具有挑战性的话题。为了实现符合用户意图的可操作控制,提出了一种新的视频生成任务,称为文本图像到视频生成(TI2V)。 TI2V 具有可控的外观和运动,旨在从静态图像和文本描述生成视频。 TI2V 任务的主要挑战在于对齐来自不同模式的外观和运动,以及处理文本描述中的不确定性。为了应对这些挑战,我们提出了一种基于运动锚的视频生成器 (MAGE),它具有创新的运动锚 (MA) 结构来存储外观运动对齐的表示。为了对不确定性进行建模并增加多样性,它还允许注入显式条件和隐式随机性。通过三维轴向变换器,MA 与给定图像交互以递归地生成下一帧,并具有令人满意的可控性和多样性。伴随着新任务,我们基于 MNIST 和 CATER 构建了两个新的视频文本配对数据集进行评估。在这些数据集上进行的实验验证了 MAGE 的有效性,并展示了 TI2V 任务的吸引力。模型和数据集的源代码将很快可用。
* 题目: PolyphonicFormer: Unified Query Learning for Depth-aware Video Panoptic Segmentation
* 链接:
https://arxiv.org/abs/2112.02582* 作者: Haobo Yuan,Xiangtai Li,Yibo Yang,Guangliang Cheng,Jing Zhang,Yunhai Tong,Lefei Zhang,Dacheng Tao
* 摘要: 最近提出的深度感知视频全景分割(DVPS)旨在预测视频中的全景分割结果和深度图,这是一个具有挑战性的场景理解问题。在本文中,我们提出了 PolyphonicFormer,这是一种视觉转换器,用于统一 DVPS 任务下的所有子任务。我们的方法通过基于查询的学习探索深度估计和全景分割之间的关系。特别地,我们设计了三种不同的查询,包括事物查询、事物查询和深度查询。然后我们建议通过门控融合来学习这些查询之间的相关性。从实验中,我们从深度估计和全景分割方面证明了我们设计的好处。由于每个事物查询还对实例信息进行编码,因此通过使用外观学习裁剪实例掩码特征来执行跟踪是很自然的。我们的方法在 ICCV-2021 BMTT 挑战视频 + 深度跟踪中排名第一。据报道,消融研究显示了我们如何提高性能。此 https URL 将提供代码。
* 题目: An Annotated Video Dataset for Computing Video Memorability
* 链接:
https://arxiv.org/abs/2112.02303* 作者: Rukiye Savran Kiziltepe,Lorin Sweeney,Mihai Gabriel Constantin,Faiyaz Doctor,Alba Garcia Seco de Herrera,Claire-Helene Demarty,Graham Healy,Bogdan Ionescu,Alan F. Smeaton
* 其他: 11 pages
* 摘要: 使用一组公开可用的短片视频链接集合,每个短片的平均持续时间为 6 秒,1,275 名用户多次手动注释每个视频,以表明视频的长期和短期记忆性。这些注释是作为在线记忆游戏的一部分收集的,并测量了参与者在显示一组视频时回忆以前看过视频的能力。识别任务是对前几分钟内看到的视频进行短期记忆,在前 24 到 72 小时内看到的视频进行长期记忆。数据包括每个视频的每次识别的反应时间。与每个视频相关的是文本描述(字幕)以及应用于从每个视频(开始、中间和结束)中提取的 3 帧的图像级特征的集合。还提供了视频级功能。该数据集作为 2020 年 MediaEval 基准测试的一部分用于视频记忆性任务。
* 题目: Snapshot HDR Video Construction Using Coded Mask
* 链接:
https://arxiv.org/abs/2112.02522* 作者: Masheal Alghamdi,Qiang Fu,Ali Thabet,Wolfgang Heidrich
* 其他: 13 pages, 7 figures
* 摘要: 本文研究了从快照编码的 LDR 视频重建高动态范围 (HDR) 视频。构建 HDR 视频需要恢复每一帧的 HDR 值并保持连续帧之间的一致性。从单个图像捕获中获取 HDR 图像,也称为快照 HDR 成像,可以通过多种方式实现。例如,可重构快照HDR相机是通过在相机的光学堆栈中引入光学元件来实现的;通过在传感器前面一小段距离处放置一个编码掩模。可以使用深度学习方法从捕获的编码图像中恢复高质量的 HDR 图像。本研究利用 3D-CNN 从编码的 LDR 视频中执行联合去马赛克、去噪和 HDR 视频重建。我们通过引入考虑短期和长期一致性的时间损失函数来强制执行更时间一致的 HDR 视频重建。获得的结果很有希望,并且可以使用传统相机进行负担得起的 HDR 视频捕获。
分割
* 题目: Unsupervised Domain Adaptation for Semantic Image Segmentation: a Comprehensive Survey
* 链接:
https://arxiv.org/abs/2112.03241* 作者: Gabriela Csurka,Riccardo Volpi,Boris Chidlovskii
* 其他: 33 pages
* 摘要: 语义分割在各种计算机视觉应用中发挥着重要作用,为全球理解图像提供关键信息。然而,最先进的模型依赖于大量带注释的样本,与图像分类等任务相比,获得这些样本的成本更高。由于未标记数据的获取成本要低得多,因此无监督域适应在语义分割社区中取得广泛成功也就不足为奇了。这项调查旨在总结这个令人难以置信的快速发展领域的五年,其中包含语义分割本身的重要性以及使分割模型适应新环境的迫切需求。我们介绍了最重要的语义分割方法;我们对语义分割的域适应技术进行了全面的调查;我们揭示了新的趋势,例如多领域学习、领域泛化、测试时间适应或无源领域适应;我们通过描述语义分割研究中最广泛使用的数据集和基准来结束这项调查。我们希望这项调查能为学术界和工业界的研究人员提供全面的参考指南,并帮助他们在该领域培育新的研究方向。
* 题目: Semantic Segmentation In-the-Wild Without Seeing Any Segmentation Examples
* 链接:
https://arxiv.org/abs/2112.03185* 作者: Nir Zabari,Yedid Hoshen
* 摘要: 语义分割是一项关键的计算机视觉任务,几十年来一直在积极研究。近年来,监督方法已经达到了前所未有的准确性,但是它们需要为每个新的类别类别进行许多像素级注释,这非常耗时且昂贵。此外,当前语义分割网络处理大量类别的能力是有限的。这意味着包含稀有类别类别的图像不太可能被当前方法很好地分割。在本文中,我们提出了一种为每个对象创建语义分割掩码的新方法,无需训练分割网络或查看任何分割掩码。我们的方法将图像中存在的类别类别的图像级标签作为输入;它们可以自动或手动获取。我们利用视觉语言嵌入模型(特别是 CLIP)使用模型可解释性方法为每个类创建粗略的分割图。我们使用测试时间增强技术优化地图。此阶段的输出提供像素级伪标签,而不是监督方法所需的手动像素级标签。鉴于伪标签,我们利用单图像分割技术来获得高质量的输出分割掩码。我们的方法在数量和质量上都优于使用类似监督量的方法。对于包含稀有类别的图像,我们的结果尤其显着。
* 题目: Diffusion Models for Implicit Image Segmentation Ensembles
* 链接:
https://arxiv.org/abs/2112.03145* 作者: Julia Wolleb,Robin Sandkühler,Florentin Bieder,Philippe Valmaggia,Philippe C. Cattin
* 摘要: 扩散模型在图像的生成建模方面表现出令人印象深刻的性能。在本文中,我们提出了一种基于扩散模型的新型语义分割方法。通过修改训练和采样方案,我们表明扩散模型可以执行医学图像的病变分割。为了生成特定于图像的分割,我们在地面实况分割上训练模型,并在训练期间和采样过程的每个步骤中使用图像作为先验。通过给定的随机采样过程,我们可以生成分割掩码的分布。此属性允许我们计算分割的像素级不确定性图,并允许使用隐式的分割集合来提高分割性能。我们在用于脑肿瘤分割的 BRATS2020 数据集上评估了我们的方法。与最先进的分割模型相比,我们的方法产生了良好的分割结果,此外,还有有意义的不确定性图。
* 题目: Label-Efficient Semantic Segmentation with Diffusion Models
* 链接:
https://arxiv.org/abs/2112.03126* 作者: Dmitry Baranchuk,Ivan Rubachev,Andrey Voynov,Valentin Khrulkov,Artem Babenko
* 摘要: 去噪扩散概率模型最近受到了很多研究的关注,因为它们优于替代方法,例如 GAN,并且目前提供最先进的生成性能。扩散模型的卓越性能使其成为多种应用中的有吸引力的工具,包括修复、超分辨率和语义编辑。在本文中,我们证明了扩散模型也可以作为语义分割的工具,特别是在标记数据稀缺的设置中。特别是,对于几个预训练的扩散模型,我们研究了来自执行反向扩散过程的马尔可夫步骤的网络的中间激活。我们表明这些激活有效地从输入图像中捕获语义信息,并且似乎是分割问题的出色像素级表示。基于这些观察,我们描述了一种简单的分割方法,即使只提供少量训练图像也能工作。对于相同数量的人工监督,我们的方法在多个数据集上显着优于现有替代方案。
* 题目: End-to-End Segmentation via Patch-wise Polygons Prediction
* 链接:
https://arxiv.org/abs/2112.02535* 作者: Tal Shaharabany,Lior Wolf
* 摘要: 领先的分割方法将输出图表示为像素网格。我们研究了另一种表示,其中对象边缘被建模为每个图像块,作为具有 $k$ 个顶点的多边形,该多边形与每个块的标签概率相结合。通过使用可微神经渲染器创建光栅图像来优化顶点。然后将划定的区域与地面实况分割进行比较。我们的方法获得了多个最先进的结果:Cityscapes 验证为 76.26/% mIoU,Vaihingen 建筑分割基准为 90.92/% IoU,MoNU 显微镜数据集为 66.82/% IoU,鸟类为 90.91/%基准 CUB。我们用于训练和再现这些结果的代码作为补充附在后面。
* 题目: Unsupervised Adaptation of Semantic Segmentation Models without Source Data
* 链接:
https://arxiv.org/abs/2112.02359* 作者: Sujoy Paul,Ansh Khurana,Gaurav Aggarwal
* 摘要: 我们考虑了源模型的无监督域适应的新问题,而无需访问源数据进行语义分割。无监督域适应旨在使在标记源数据上学习的模型适应新的未标记目标数据集。现有方法假设在适应期间源数据与目标数据一起可用。然而,在实际场景中,由于隐私、存储等原因,我们可能只能访问源模型和未标记的目标数据,而不能访问标记的源。在这项工作中,我们提出了一种自我训练的方法从源模型中提取知识。为了补偿从源到目标的分布偏移,我们首先只用未标记的目标数据更新网络的归一化参数。然后我们使用置信度过滤伪标签并针对某些转换强制执行一致性。尽管非常简单和直观,但与直接将源模型应用于目标数据相比,我们的框架能够实现显着的性能提升,正如我们广泛的实验和消融研究所反映的那样。事实上,性能与最近使用源数据进行自适应的最先进方法仅相差几分。我们进一步证明了所提出的完全测试时间适应设置方法的普遍性,其中我们不需要任何目标训练数据并且仅在测试时间进行适应。
* 题目: Separated Contrastive Learning for Organ-at-Risk and Gross-Tumor-Volume Segmentation with Limited Annotation
* 链接:
https://arxiv.org/abs/2112.02743* 作者: Jiacheng Wang,Xiaomeng Li,Yiming Han,Jing Qin,Liansheng Wang,Qichao Zhou
* 其他: Accepted in AAAI-22
* 摘要: 危险器官(OAR)和总肿瘤体积(GTV)的自动勾画对于放射治疗计划具有重要意义。然而,在有限的像素(体素)注释下学习用于准确描绘的强大表示是一项具有挑战性的任务。像素级的对比学习可以通过从未标记的数据中学习密集表示来减轻对注释的依赖。最近在这个方向上的研究设计了特征图上的各种对比损失,以产生地图中每个像素的判别特征。然而,同一地图中的像素不可避免地共享语义比实际更接近,这可能会影响同一地图中像素的辨别力,并导致与其他地图中像素的不公平比较。针对这些问题,我们提出了一种分离的区域级对比学习方案,即SepaReg,其核心是将每幅图像分成区域并分别对每个区域进行编码。具体来说,SepaReg 包括两个组件:结构感知图像分离 (SIS) 模块和器官内和器官间蒸馏 (IID) 模块。 SIS 被提议对图像集进行操作,以在结构信息的指导下重建一个区域集。器官间表示将通过典型的跨区域对比损失从该集合中学习。另一方面,IID 被提议通过利用器官内表示来解决区域集中的数量不平衡,因为微小器官可能产生较少的区域。我们进行了广泛的实验,以在一个公共数据集和两个私有数据集上评估所提出的模型。实验结果证明了所提出模型的有效性,始终比最先进的方法获得更好的性能。此 https URL 提供代码。
* 题目: Uncertainty-Guided Mutual Consistency Learning for Semi-Supervised Medical Image Segmentation
* 链接:
https://arxiv.org/abs/2112.02508* 作者: Yichi Zhang,Qingcheng Liao,Rushi Jiao,Jicong Zhang
* 摘要: 医学图像分割是许多临床方法中的基本和关键步骤。半监督学习已被广泛应用于医学图像分割任务,因为它减轻了获取专家检查注释的沉重负担,并利用了更容易获取的未标记数据的优势。尽管一致性学习已被证明是一种通过在不同分布下强制预测不变性的有效方法,但现有方法无法充分利用来自未标记数据的区域级形状约束和边界级距离信息。在本文中,我们提出了一种新的不确定性引导的相互一致性学习框架,通过集成从任务级正则化到自集成的最新预测的任务内一致性学习和跨任务一致性学习,有效地利用未标记的数据。利用几何形状信息。该框架以估计的模型分割不确定性为指导,选择出相对确定的预测进行一致性学习,从而有效地从未标记的数据中挖掘出更可靠的信息。我们在两个公开可用的基准数据集上广泛验证了我们提出的方法:左心房分割 (LA) 数据集和脑肿瘤分割 (BraTS) 数据集。实验结果表明,我们的方法通过利用未标记的数据实现了性能提升,并且优于现有的半监督分割方法。
* 题目: Classification of COVID-19 on chest X-Ray images using Deep Learning model with Histogram Equalization and Lungs Segmentation
* 链接:
https://arxiv.org/abs/2112.02478* 作者: Hitendra Singh Bhadouria,Krishan Kumar,Aman Swaraj,Karan Verma,Arshpreet Kaur,Shasvat Sharma,Ghanshyam Singh,Ashok Kumar,Leandro Melo de Sales
* 其他: Total number of words of the manuscript- 6577 The number of words of the abstract- 238 The number of figures- 8 The number of tables- 10
* 摘要: 背景和目的:人工智能 (AI) 方法与生物医学分析相结合,在大流行期间发挥着关键作用,因为它有助于缓解医疗保健系统和医生的巨大压力。随着巴西和印度等人口稠密且检测试剂盒不足的国家持续发生的 COVID-19 危机恶化,放射成像可以作为重要的诊断工具,对 COVID-19 患者进行准确分类,并在适当的时候开出必要的治疗处方。出于这个动机,我们提出了基于深度学习架构的研究,用于使用胸部 X 光检测感染 covid-19 的肺部。数据集:我们收集了三个不同类别标签的总共 2470 张图像,即健康肺、普通肺炎和 covid-19 感染性肺炎,其中 470 张 X 射线图像属于 covid-19 类别。方法:我们首先使用直方图均衡技术对所有图像进行预处理,并使用 U-net 架构对它们进行分割。然后使用 VGG-16 网络从预处理图像中提取特征,然后通过 SMOTE 过采样技术进一步采样以实现平衡的数据集。最后,使用具有 10 倍交叉验证的支持向量机 (SVM) 分类器对类平衡特征进行分类,并评估准确性。结果和结论:我们的新方法结合了众所周知的预处理技术、特征提取方法和数据集平衡方法,使我们在 2470 张 X 射线图像的数据集上对 COVID-19 图像的识别率达到了 98% .因此,我们的模型适合用于医疗机构进行筛查。
* 题目: Echocardiography Segmentation with Enforced Temporal Consistency
* 链接:
https://arxiv.org/abs/2112.02102* 作者: Nathan Painchaud,Nicolas Duchateau,Olivier Bernard,Pierre-Marc Jodoin
* 其他: 10 pages, submitted to IEEE TMI
* 摘要: 卷积神经网络 (CNN) 已经证明了它们分割 2D 心脏超声图像的能力。然而,尽管最近取得了成功,根据已经达到了舒张末期和收缩末期图像的观察者内可变性,CNN 仍然努力利用时间信息在整个周期中提供准确和时间一致的分割图。准确描述心脏功能需要这种一致性,这是诊断许多心血管疾病的必要步骤。在本文中,我们提出了一个框架来学习 2D + 时间长轴心脏形状,以便分段序列可以从时间和解剖一致性约束中受益。我们的方法是一种后处理,它将任何最先进的方法产生的分段超声心动图序列作为输入,并分两步处理,以 (i) 根据心脏序列的整体动态识别时空不一致,以及(ii) 纠正不一致之处。心脏不一致的识别和纠正依赖于受过训练的约束自编码器,以学习心脏形状的生理可解释嵌入,我们可以在其中检测和修复异常。我们在来自 CAMUS 数据集的 98 个全周期序列上测试了我们的框架,这些序列将与本文一起公开。我们的时间正则化方法不仅提高了整个序列分割的准确性,而且还加强了时间和解剖学的一致性。
* 题目: View-Consistent Metal Segmentation in the Projection Domain for Metal Artifact Reduction in CBCT -- An Investigation of Potential Improvement
* 链接:
https://arxiv.org/abs/2112.02101* 作者: Tristan M. Gottschalk,Andreas Maier,Florian Kordon,Björn W. Kreher
* 其他: Accepted for publication at the Journal of Machine Learning for Biomedical Imaging (MELBA)
* 摘要: 创伤干预的积极结果取决于对插入的金属植入物的术中评估。由于发生金属伪影,此评估的质量在很大程度上取决于所谓的金属伪影减少方法 (MAR) 的性能。大多数这些 MAR 方法需要对插入的金属物体进行事先分割。因此,尽管存在一些主要缺点,但通常在重建的 3D 体积中应用相当简单的基于阈值的分割方法。通过本出版物,研究了将分割任务转变为基于学习的、基于视图一致的基于 2D 投影的下游 MAR 结果方法的潜力。为了分割目前的金属,检查了一个相当简单的基于学习的 2D 投影分割网络,该网络使用在尸体研究期间获得的真实数据进行训练。为了克服 2D 投影方式分割带来的缺点,提出了一致性过滤器。通过将标准 fsMAR 的结果与使用新分割掩码的修改后的 fsMAR 版本的结果进行比较,研究了移位分割域的影响。通过对真实尸体数据的定量和定性评估,所研究的方法显示出更高的 MAR 性能和对金属制品的高度不敏感性。对于重建的 FoV 之外的金属情况或金属消失的情况,可以显示伪影显着减少。因此,增加了大约 3 dB w.r.t.实现了所有切片的平均 PSNR 指标以及单个切片的高达 9 dB。显示的结果揭示了转向基于 2D 的分割方法对真实数据的有益影响,用于下游使用 MAR 方法,如 fsMAR。
非强监督
* 题目: Anomaly Detection in IR Images of PV Modules using Supervised Contrastive Learning
* 链接:
https://arxiv.org/abs/2112.02922* 作者: Lukas Bommes,Mathis Hoffmann,Claudia Buerhop-Lutz,Tobias Pickel,Jens Hauch,Christoph Brabec,Andreas Maier,Ian Marius Peters
* 摘要: 越来越多的光伏 (PV) 工厂的部署需要在模态中自动检测故障光伏模块的方法,例如红外 (IR) 图像。最近,深度学习因此变得流行起来。然而,相关工作通常从相同的分布中采样训练和测试数据,而忽略了不同光伏电站数据之间域偏移的存在。相反,我们将故障检测构建为更现实的无监督域适应问题,我们对一个源光伏电站的标记数据进行训练,并对另一个目标电站进行预测。我们训练一个具有监督对比损失的 ResNet-34 卷积神经网络,在此基础上我们使用 k-最近邻分类器来检测异常。我们的方法在四个源和目标数据集的九种组合上实现了 73.3% 到 96.6% 的令人满意的区域,其中包含 292 万张红外图像,其中 8.5% 是异常的。在某些情况下,它甚至优于二元交叉熵分类器。使用固定的决策阈值,这会分别导致 79.4% 和 77.1% 正确分类正常和异常图像。大多数错误分类的异常严重程度较低,例如热二极管和小热点。我们的方法对超参数设置不敏感,收敛快速且可靠地检测未知类型的异常,使其非常适合实践。可能的用途是在自动光伏电站检查系统中,或通过过滤掉正常图像来简化 IR 数据集的手动标记。此外,我们的工作为社区提供了一个更现实的观点,即使用无监督域适应来开发具有良好泛化能力的更高效的方法来检测光伏模块故障。
* 题目: A Tale of Color Variants: Representation and Self-Supervised Learning in Fashion E-Commerce
* 链接:
https://arxiv.org/abs/2112.02910* 作者: Ujjal Kr Dutta,Sandeep Repakula,Maulik Parmar,Abhinav Ravi
* 其他: In Annual Conference on Innovative Applications of Artificial Intelligence (IAAI)/ AAAI Conference on Artificial Intelligence (AAAI) 2022. arXiv admin note: substantial text overlap with arXiv:2104.08581
* 摘要: 在本文中,我们解决了时尚电子商务中的一个关键问题(关于客户体验和收入):颜色变体识别,即识别与其设计(或风格)完全匹配的时尚产品,但仅用于它们的颜色不同。我们提出了一个通用框架,该框架以深度视觉表示学习为核心,为我们的时尚电子商务平台解决这个问题。我们的框架可以用手动获得的三元组形式的监督信号进行训练。然而,在捕获所有困难的极端情况的同时,为通常出现在我们这样的时尚电子商务平台中的整个庞大数据集进行手动注释是不可行的。但是,有趣的是,我们发现时尚电子商务中的这个关键问题也可以通过简单的基于颜色抖动的图像增强来解决,这种增强最近在对比性自监督学习 (SSL) 文献中广为流行,旨在在不使用手动标签的情况下学习视觉表示。这自然会导致我们想到一个问题:我们能否在我们的用例中利用 SSL,并且仍然获得与我们的监督框架相当的性能?答案是,是的!因为,颜色变体的时尚对象只不过是一种风格的表现,以不同的颜色,经过训练对颜色保持不变的模型(有或没有监督),应该能够识别这一点!这就是本文在评估一些最先进的 SSL 技术并提出一种新方法的同时,在定性和定量方面进一步证明的内容。
* 题目: A Dataset-free Self-supervised Disentangled Learning Method for Adaptive Infrared and Visible Images Super-resolution Fusion
* 链接:
https://arxiv.org/abs/2112.02869* 作者: Yuanjie Gu,Zhibo Xiao,Hailun Wang,Cheng Liu,Shouyu Wang
* 其他: 10 pages, 9 figures
* 摘要: 本研究提出了一种基于物理模型的新型通用无数据集自监督学习框架,名为自监督解开学习 (SDL),并提出了一种名为 Deep Retinex fusion (DRF) 的新方法,该方法将 SDL 框架与生成网络和 Retinex 结合使用红外和可见光图像超分辨率融合理论。同时,设计了生成双路径融合网络 ZipperNet 和自适应融合损失函数 Retinex loss,以实现有效的高质量融合。 DRF(基于SDL)的核心思想由两部分组成:一是使用生成网络生成从物理模型中解开出来的组件;另一种是基于物理关系设计的损失函数,生成的组件在训练阶段通过损失函数组合。此外,为了验证我们提出的 DRF 的有效性,在三个不同的红外和可见光数据集上进行了与六种最先进方法的定性和定量比较。我们的代码很快就会在这个 https URL 上开源。
* 题目: Clue Me In: Semi-Supervised FGVC with Out-of-Distribution Data
* 链接:
https://arxiv.org/abs/2112.02825* 作者: Ruoyi Du,Dongliang Chang,Zhanyu Ma,Yi-Zhe Song,Jun Guo
* 摘要: 尽管在细粒度视觉分类 (FGVC) 方面取得了长足的进步,但当前的方法仍然严重依赖于需要大量专家标签的全监督范式。半监督学习 (SSL) 技术从未标记的数据中获取知识,提供了一种相当可观的方法,并在粗粒度问题上显示出巨大的前景。然而,现有的 SSL 范式大多假设分布内(即类别对齐)未标记数据,这阻碍了它们在 FGVC 上重新提出时的有效性。在本文中,我们提出了一种新颖的设计,专门针对使分布外数据适用于半监督 FGVC,即“将它们引入”。我们提出了一个重要假设,即所有细粒度类别都自然地遵循层次结构(例如,涵盖所有鸟类物种的“Aves”的系统发育树)。因此,我们可以代替对单个样本进行操作,而是预测此树结构内的样本关系,作为 SSL 的优化目标。除此之外,我们进一步引入了这些树结构带来的两种独特的策略,以实现样本间一致性正则化和可靠的伪关系。我们的实验结果表明(i)所提出的方法对分布外数据具有良好的鲁棒性,并且(ii)它可以配备现有技术,提高它们的性能,从而产生最先进的结果。此 https URL 提供代码。
* 题目: Gated2Gated: Self-Supervised Depth Estimation from Gated Images
* 链接:
https://arxiv.org/abs/2112.02416* 作者: Amanpreet Walia,Stefanie Walz,Mario Bijelic,Fahim Mannan,Frank Julca-Aguilar,Michael Langer,Werner Ritter,Felix Heide
* 其他: 11 pages, 6 Figures
* 摘要: 门控相机有望作为具有高分辨率 3D 深度的激光雷达传感器的替代方案,该传感器对雾、雪和雨中的反向散射具有强大的抵抗力。门控成像器不像脉冲 LiDAR 传感器那样顺序扫描场景并通过光子飞行时间直接记录深度,而是根据少数门控切片的相对强度对深度进行编码,以百万像素分辨率捕获。尽管现有方法已经表明可以从此类测量中解码高分辨率深度,但这些方法需要同步和校准的 LiDAR 来监督门控深度解码器——禁止跨地域快速采用、对大型未配对数据集进行培训以及探索替代应用汽车用例之外。在这项工作中,我们填补了这一空白并提出了一种完全自我监督的深度估计方法,该方法使用门控强度分布和时间一致性作为训练信号。所提出的模型是从门控视频序列端到端训练的,不需要 LiDAR 或 RGB 数据,并学习估计绝对深度值。我们将门控切片作为输入并解开对场景反照率、深度和环境光的估计,然后将其用于学习通过循环损失重建输入切片。我们依靠给定帧和相邻门控切片之间的时间一致性来估计具有阴影和反射的区域的深度。我们通过实验验证,所提出的方法优于现有的基于单目 RGB 和立体图像的监督和自监督深度估计方法,以及基于门控图像的监督方法。
* 题目: Toward Practical Self-Supervised Monocular Indoor Depth Estimation
* 链接:
https://arxiv.org/abs/2112.02306* 作者: Cho-Ying Wu,Jialiang Wang,Michael Hall,Ulrich Neumann,Shuochen Su
* 摘要: 大多数自监督的单目深度估计方法都集中在驾驶场景上。我们表明,这些方法对看不见的复杂室内场景的泛化能力很差,其中物体在近场中杂乱无章且任意排列。为了获得更高的鲁棒性,我们提出了一种结构蒸馏方法,从预训练的深度估计器中学习诀窍,由于其在野外混合数据集训练,该方法产生结构化但与度量无关的深度。通过将蒸馏与从左右一致性中学习度量的自监督分支相结合,我们获得了通用室内场景的结构化和度量深度,并实时进行推理。为了便于学习和评估,我们收集了 SimSIN(一个来自数千个环境的模拟数据集)和 UniSIN(一个包含大约 500 个通用室内环境真实扫描序列的数据集)的数据集。我们在模拟到真实和真实到真实的设置中进行实验,并在定性和定量方面以及在使用我们的深度图的下游应用中展示改进。这项工作提供了一个完整的研究,涵盖了方法、数据和应用。我们相信这项工作为通过自我监督进行实际室内深度估计奠定了坚实的基础。
* 题目: Unsupervised Domain Generalization by Learning a Bridge Across Domains
* 链接:
https://arxiv.org/abs/2112.02300* 作者: Sivan Harary,Eli Schwartz,Assaf Arbelle,Peter Staar,Shady Abu-Hussein,Elad Amrani,Roei Herzig,Amit Alfassy,Raja Giryes,Hilde Kuehne,Dina Katabi,Kate Saenko,Rogerio Feris,Leonid Karlinsky
* 摘要: 在显着不同的视觉领域(例如真实照片、剪贴画、绘画和草图之间)概括学习表示的能力是人类视觉系统的基本能力。在本文中,与大多数利用一些(或完整)源域监督的跨域工作不同,我们采用了一种相对较新且非常实用的无监督域泛化 (UDG) 设置,即在源域和目标域都没有训练监督。我们的方法基于跨域桥 (BrAD) 的自监督学习 - 一个辅助桥域,伴随着一组语义,保留了从每个训练域到 BrAD 的视觉(图像到图像)映射。 BrAD 及其映射是通过对比性自监督表示模型联合(端到端)学习的,该模型在语义上将每个域与其 BrAD 投影对齐,因此隐式驱动所有域(可见或不可见)到在语义上相互对齐。在这项工作中,我们展示了如何使用边缘正则化的 BrAD 我们的方法在多个基准测试和一系列任务中取得显着收益,包括 UDG、Few-shot UDA 和跨多域数据集的无监督泛化(包括泛化到看不见的域和类)。
* 题目: Ablation study of self-supervised learning for image classification
* 链接:
https://arxiv.org/abs/2112.02297* 作者: Ilias Papastratis
* 摘要: 该项目侧重于卷积神经网络 (CNN) 和变换器网络的自监督训练,用于图像识别任务。使用具有不同主干的简单孪生网络,以最大化来自同一源图像的两个增强变换图像的相似性。通过这种方式,主干能够在没有监督的情况下学习视觉信息。最后,该方法在三个图像识别数据集上进行了评估。
未分类
* 题目: CSG0: Continual Urban Scene Generation with Zero Forgetting
* 链接:
https://arxiv.org/abs/2112.03252* 作者: Himalaya Jain,Tuan-Hung Vu,Patrick Pérez,Matthieu Cord
* 摘要: 随着生成对抗网络 (GAN) 的快速发展,合成场景的视觉质量不断提高,包括应用于自动驾驶的复杂城市场景。我们在这项工作中解决了一个连续的场景生成设置,其中 GAN 在不同域的流上进行训练;理想情况下,学习模型最终应该能够在所有看到的领域中生成新场景。此设置反映了在不同时间在不同地点连续获取数据的现实场景。在这样一个连续的设置中,我们的目标是零遗忘学习,即不会由于灾难性遗忘而降低早期领域的合成质量。为此,我们引入了一个新颖的框架,它不仅 (i) 能够在持续训练中实现无缝的知识转移,而且 (ii) 以很小的开销成本保证零遗忘。虽然内存效率更高,但由于持续学习,与为每个域训练一个完整模型的蛮力解决方案相比,我们的模型获得了更好的综合质量。特别是在极低数据情况下,我们的方法明显优于蛮力方法。
* 题目: Learning to Reason from General Concepts to Fine-grained Tokens for Discriminative Phrase Detection
* 链接:
https://arxiv.org/abs/2112.03237* 作者: Maan Qraitem,Bryan A. Plummer
* 摘要: 短语检测需要方法来识别短语是否与图像相关,然后在适用时对其进行定位。训练更具辨别力的短语检测模型的一个关键挑战是对硬负样本进行采样。这是因为很少有短语注释可能适用的几乎无限的变化。为了解决这个问题,我们引入了 PFP-Net,一种通过两种新方法区分短语的短语检测器。首先,我们将相关对象的短语组合成视觉连贯概念的粗组(例如动物与汽车),然后训练我们的 PFP-Net 以根据它们的概念成员来区分它们。其次,对于包含细粒度互斥标记(例如颜色)的短语,我们强制模型为每个区域只选择一个适用的短语。我们在 Flickr30K 实体和 RefCOCO+ 数据集上评估我们的方法,在这项具有挑战性的任务中,我们将 mAP 比最先进的技术提高了 1-1.5 分。当仅考虑受我们的细粒度推理模块影响的短语时,我们在两个数据集上都提高了 1-4 分。
* 题目: Context-Aware Transfer Attacks for Object Detection
* 链接:
https://arxiv.org/abs/2112.03223* 作者: Zikui Cai,Xinxin Xie,Shasha Li,Mingjun Yin,Chengyu Song,Srikanth V. Krishnamurthy,Amit K. Roy-Chowdhury,M. Salman Asif
* 其他: accepted to AAAI 2022
* 摘要: 近年来,对图像分类器的黑盒传输攻击进行了广泛的研究。相比之下,对象检测器的转移攻击几乎没有取得任何进展。对象检测器对图像进行整体观察,对一个对象(或缺少对象)的检测通常取决于场景中的其他对象。这使得此类检测器在该领域内固有的上下文感知和对抗性攻击比针对图像分类器的检测器更具挑战性。在本文中,我们提出了一种为对象检测器生成上下文感知攻击的新方法。我们表明,通过使用对象的共现及其相对位置和大小作为上下文信息,我们可以成功生成有针对性的错误分类攻击,在黑盒对象检测器上实现比最先进的传输成功率更高的传输成功率。我们使用来自 PASCAL VOC 和 MS COCO 数据集的图像在各种对象检测器上测试我们的方法,并证明与其他最先进的方法相比,性能提高了 20 美元。
* 题目: Text2Mesh: Text-Driven Neural Stylization for Meshes
* 链接:
https://arxiv.org/abs/2112.03221* 作者: Oscar Michel,Roi Bar-On,Richard Liu,Sagie Benaim,Rana Hanocka
* 其他: project page: this https URL
* 摘要: 在这项工作中,我们开发了用于编辑 3D 对象样式的直观控件。我们的框架 Text2Mesh 通过预测符合目标文本提示的颜色和局部几何细节来风格化 3D 网格。我们考虑使用固定网格输入(内容)和学习的神经网络(我们将其称为神经风格场网络)对 3D 对象的解开表示。为了修改样式,我们通过利用 CLIP 的表示能力来获得文本提示(描述样式)和风格化网格之间的相似性分数。 Text2Mesh 既不需要预先训练的生成模型,也不需要专门的 3D 网格数据集。它可以处理具有任意类的低质量网格(非流形、边界等),并且不需要 UV 参数化。我们展示了我们的技术在各种 3D 网格上合成无数样式的能力。
* 题目: Simultaneously Predicting Multiple Plant Traits from Multiple Sensors via Deformable CNN Regression
* 链接:
https://arxiv.org/abs/2112.03205* 作者: Pranav Raja,Alex Olenskyj,Hamid Kamangir,Mason Earles
* 摘要: 性状测量对于植物育种和农业生产管道至关重要。通常,使用费力的手动测量来测量一组植物性状,然后用于训练和/或验证更高吞吐量的性状估计技术。在这里,我们介绍了一个相对简单的卷积神经网络 (CNN) 模型,该模型接受多个传感器输入并预测多个连续特征输出——即多输入多输出 CNN (MIMO-CNN)。此外,我们将可变形卷积层引入到该网络架构 (MIMO-DCNN) 中,使模型能够自适应地调整其感受野,对数据中的复杂变量几何变换进行建模,并对连续特征输出进行微调。我们研究了 MIMO-CNN 和 MIMO-DCNN 模型如何在来自 2021 年自主温室挑战的多输入(即 RGB 和深度图像)、多特征输出生菜数据集上执行。进行消融研究以检查使用单输入与多输入以及单输出与多输出的效果。 MIMO-DCNN 模型的归一化均方误差 (NMSE) 为 0.068,比 2021 年排行榜的前 0.081 分有了实质性的提高。提供开源代码。
* 题目: HIVE: Evaluating the Human Interpretability of Visual Explanations
* 链接:
https://arxiv.org/abs/2112.03184* 作者: Sunnie S. Y. Kim,Nicole Meister,Vikram V. Ramaswamy,Ruth Fong,Olga Russakovsky
* 其他: HIVE can be found at this https URL
* 摘要: 随着机器学习越来越多地应用于高影响、高风险领域,出现了许多旨在使人工智能模型更易于人类解释的新方法。尽管最近可解释性工作有所增长,但缺乏对提议技术的系统评估。在这项工作中,我们为计算机视觉中的多种可解释性方法提出了一种新的人类评估框架 HIVE(视觉解释的人类可解释性);据我们所知,这是同类作品中的第一部。我们认为,人类研究应该是正确评估一种方法对人类用户的可解释性的黄金标准。虽然由于与成本、研究设计和跨方法比较相关的挑战,经常避免人类研究,但我们描述了我们的框架如何缓解这些问题,并对代表可解释性工作多样性的四种方法进行 IRB 批准的研究:GradCAM、BagNet 、ProtoPNet 和 ProtoTree。我们的结果表明,解释(无论它们是否真的正确)引起了人类的信任,但不足以让用户区分正确和错误的预测。最后,我们还开源了我们的框架,以支持未来的研究并鼓励更多以人为中心的可解释性方法。
* 题目: Encouraging Disentangled and Convex Representation with Controllable Interpolation Regularization
* 链接:
https://arxiv.org/abs/2112.03163* 作者: Yunhao Ge,Zhi Xu,Yao Xiao,Gan Xin,Yunkui Pang,Laurent Itti
* 其他: 14 pages, 15 figure (including appendix)
* 摘要: 我们专注于可控解缠表示学习(C-Dis-RL),其中用户可以控制解缠潜在空间的分区以分解下游任务的数据集属性(概念)。当前方法中有两个普遍问题仍未得到充分探索:(1)它们缺乏全面的解缠约束,尤其是缺少跨潜在域和观察域的不同属性之间的互信息的最小化。 (2)它们在解开的潜在空间中缺乏凸性约束,这对于有意义地操纵下游任务的特定属性很重要。为了同时鼓励全面的 C-Dis-RL 和凸性,我们提出了一种简单而有效的方法:可控插值正则化 (CIR),它创建了一个正循环,其中解缠结和凸性可以相互帮助。具体来说,我们在训练期间在潜在空间中进行受控插值,并“重用”编码器以帮助形成“完美解开”正则化。在这种情况下,(a)解开损失隐含地扩大了潜在的“可理解”分布以鼓励凸性; (b) 凸性反过来可以提高鲁棒性和精确性。 CIR 是一个通用模块,我们将 CIR 与三种不同的算法合并:ELEGANT、I2I-Dis 和 GZS-Net,以显示兼容性和有效性。定性和定量实验表明 CIR 改善了 C-Dis-RL 和潜在凸性。这进一步改进了下游任务:可控图像合成、跨模态图像转换和零镜头合成。更多的实验表明,CIR 还可以改进其他下游任务,例如新的属性值挖掘、数据增强和消除公平性偏见。
* 题目: Embedding Arithmetic for Text-driven Image Transformation
* 链接:
https://arxiv.org/abs/2112.03162* 作者: Guillaume Couairon,Matthieu Cord,Matthijs Douze,Holger Schwenk
* 摘要: 潜在文本表示表现出几何规律,例如著名的类比:女王之于国王,就像女人之于男人一样。这种结构化的语义关系没有在图像表示上得到证明。最近的工作旨在弥合这种语义鸿沟,将图像和文本嵌入到多模态空间中,从而能够将文本定义的转换转移到图像模态。我们引入了 SIMAT 数据集来评估文本驱动的图像转换任务。 SIMAT 包含 6k 个图像和 18k 个“转换查询”,旨在替换场景元素或改变它们的成对关系。目标是检索与(源图像、转换)查询一致的图像。我们使用图像/文本匹配预言机(OSCAR)来评估图像转换是否成功。 SIMAT 数据集将公开可用。我们使用 SIMAT 来证明 vanilla CLIP 多模态嵌入不太适合文本驱动的图像转换,但是对 COCO 数据集的简单微调可以带来显着的改进。我们还研究了利用预训练通用句子编码器(FastText、LASER 和 LaBSE)的几何特性是否有益。
* 题目: Ethics and Creativity in Computer Vision
* 链接:
https://arxiv.org/abs/2112.03111* 作者: Negar Rostamzadeh,Emily Denton,Linda Petrini
* 其他: Neural Information Processing System 2021 workshop on Machine Learning for Creativity and Design
* 摘要: 本文回顾了我们在 CVPR 2021 会议上组织研讨会*计算机视觉创造性应用中的伦理考虑* 以及在此之前在 ECCV 举办的一系列关于*时尚、艺术和设计的计算机视觉* 研讨会的经验教训2018、ICCV 2019 和 CVPR 2020。我们希望这种反思能让艺术家和机器学习研究人员围绕计算机视觉创造性应用的伦理和社会维度展开对话。
* 题目: General Facial Representation Learning in a Visual-Linguistic Manner
* 链接:
https://arxiv.org/abs/2112.03109* 作者: Yinglin Zheng,Hao Yang,Ting Zhang,Jianmin Bao,Dongdong Chen,Yangyu Huang,Lu Yuan,Dong Chen,Ming Zeng,Fang Wen
* 其他: 15 pages, 5 figures, 12 tables
* 摘要: 如何学习一种通用的面部表征来提升所有面部分析任务?本文朝着这一目标迈出了一步。在本文中,我们研究了预训练模型在面部分析任务上的迁移性能,并引入了一个名为 FaRL 的框架,用于以视觉语言方式进行一般面部表征学习。一方面,该框架涉及从图像-文本对中学习高级语义的对比损失。另一方面,我们建议通过添加蒙版图像建模,同时探索低级信息以进一步增强人脸表示。我们对包含大量人脸图像-文本对的数据集 LAION-FACE 进行预训练,并评估多个下游任务的表示能力。我们表明,与之前的预训练模型相比,FaRL 实现了更好的传输性能。我们还验证了它在低数据机制中的优越性。更重要的是,我们的模型在人脸分析任务(包括人脸解析和人脸对齐)上超越了最先进的方法。
* 题目: Controllable Animation of Fluid Elements in Still Images
* 链接:
https://arxiv.org/abs/2112.03051* 作者: Aniruddha Mahapatra,Kuldeep Kulkarni
* 摘要: 我们提出了一种方法来交互控制静态图像中流体元素的动画以生成电影图像。具体来说,我们专注于流体元素的动画,如水、烟、火,它们具有重复纹理和连续流体运动的特性。从先前的工作中汲取灵感,我们以恒定 2D 光流图的形式表示图像中此类流体元素的运动。为此,我们允许用户提供任意数量的箭头方向及其相关速度以及用户想要设置动画的区域的掩码。用户提供的输入箭头方向、它们相应的速度值和掩码然后被转换为表示恒定光流图 (FD) 的密集流图。我们观察到使用简单指数运算获得的 FD 可以非常接近图像中元素的合理运动。我们使用生成对抗网络 (GAN) 进一步细化计算的密集光流图 FD,以获得更逼真的流图。我们设计了一种新颖的基于 UNet 的架构,通过在不同分辨率下前向扭曲输入图像特征,使用改进的光流图自动回归生成未来帧。我们对公开可用的数据集进行了大量实验,并表明我们的方法在定性和定量指标方面优于基线。此外,我们在训练集中不存在的方向上展示了对象的定性动画,并提供了一种合成现实世界中不存在的视频的方法。
* 题目: Fusion Detection via Distance-Decay IoU and weighted Dempster-Shafer Evidence Theory
* 链接:
https://arxiv.org/abs/2112.03044* 作者: Fang Qingyun,Wang Zhaokui
* 其他: 18 pages, 7 pages, under consideration at Journal of Aerospace Information Systems
* 摘要: 近年来,遥感影像中的目标检测受到越来越多的关注。然而,传统的光学检测极易受到光照和天气异常的影响。如何有效利用多源遥感影像,尤其是光学和合成孔径雷达影像的跨模态信息,实现全天时、全天候、高精度、高速度的探测是一个挑战。为此,本文提出了一种快速的多源融合检测框架。一种新的距离衰减交集被用来编码具有尺度不变性的目标的形状特性。因此,多源图像中的同一目标可以准确配对。此外,利用加权Dempster-Shafer证据理论结合光学和合成孔径雷达检测,克服了特征级融合需要大量配对数据的缺点。此外,还拍摄了在苏伊士运河搁浅的集装箱船 Ever Given 的光学和合成孔径雷达图像,以展示我们的融合算法。为了测试所提出方法的有效性,在自建数据集上,所提出的融合检测框架的平均精度优于光学检测20.13%。
* 题目: Temporal-Spatial Causal Interpretations for Vision-Based Reinforcement Learning
* 链接:
https://arxiv.org/abs/2112.03020* 作者: Wenjie Shi,Gao Huang,Shiji Song,Cheng Wu
* 其他: Accepted as a Regular Paper in IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI)
* 摘要: 深度强化学习 (RL) 代理越来越精通一系列复杂的控制任务。然而,由于引入了黑盒功能,代理的行为通常难以解释,难以获得用户的信任。尽管基于视觉的 RL 有一些有趣的解释方法,但大多数方法无法揭示时间因果信息,从而引发了对其可靠性的质疑。为了解决这个问题,我们提出了一个时空因果解释(TSCI)模型来理解代理的长期行为,这对于顺序决策至关重要。 TSCI 模型建立在时间因果关系的公式之上,它反映了 RL 代理的连续观察和决策之间的时间因果关系。然后采用单独的因果发现网络来识别时空因果特征,这些特征被约束以满足时间因果关系。 TSCI 模型适用于循环代理,一旦训练就可以高效地发现因果特征。实证结果表明,TSCI 模型可以产生高分辨率和清晰的注意力掩码,以突出与任务相关的时空信息,这些信息构成了关于基于视觉的 RL 代理如何做出顺序决策的大部分证据。此外,我们进一步证明我们的方法能够从时间角度为基于视觉的 RL 代理提供有价值的因果解释。
* 题目: Cross-Modality Attentive Feature Fusion for Object Detection in Multispectral Remote Sensing Imagery
* 链接:
https://arxiv.org/abs/2112.02991* 作者: Qingyun Fang,Zhaokui Wang
* 其他: 23 pages,11 figures, under consideration at Pattern Recognition
* 摘要: 多光谱遥感图像对互补信息的跨模态融合可以提高检测算法的感知能力,使其在夜间检测等更广泛的应用中更加稳健可靠。与之前的方法相比,我们认为应该对不同的特征进行具体处理,应保留和增强特定于模态的特征,而应从 RGB 和热红外模态中挑选出模态共享的特征。遵循这个想法,提出了一种具有联合共模态和微分模态注意力的新型轻量级多光谱特征融合方法,称为跨模态注意力特征融合(CMAFF)。给定 RGB 和 IR 图像的中间特征图,我们的模块从两个独立的模态(共模态和差分模态)并行推断注意力图,然后将注意力图分别与输入特征图相乘以进行自适应特征增强或选择。大量实验表明,我们提出的方法可以以较低的计算成本实现最先进的性能。
* 题目: The artificial synesthete: Image-melody translations with variational autoencoders
* 链接:
https://arxiv.org/abs/2112.02953* 作者: Karl Wienand,Wolfgang M. Heckl
* 其他: 7 pages, 4 figures, supplementary media can be downloaded at this https URL
* 摘要: 摘要 这个项目提出了一个神经网络系统来在图像和旋律之间进行转换。自编码器将样本中的信息压缩为抽象表示。翻译网络从重复的联合曝光中学习音乐和视觉概念之间的一组对应关系。由此产生的“人工联觉者”会产生受图像和音乐图像启发的简单旋律。这些是新颖的解释(不是转置数据),表达了机器的感知和理解。观察作品时,人们会探索机器的感知,从而探索自己的感知。
* 题目: ALIKE: Accurate and Lightweight Keypoint Detection and Descriptor Extraction
* 链接:
https://arxiv.org/abs/2112.02906* 作者: Xiaoming Zhao,Xingming Wu,Jinyu Miao,Weihai Chen,Peter C. Y. Chen,Zhengguo Li
* 其他: 10 pages, 10 figures
* 摘要: 现有方法以不可微分的方式检测关键点,因此它们不能通过反向传播直接优化关键点的位置。为了解决这个问题,我们提出了一个可微的关键点检测模块,它输出准确的亚像素关键点。然后提出重投影损失来直接优化这些亚像素关键点,并提出分散峰值损失以进行准确的关键点正则化。我们还以亚像素的方式提取描述符,并用稳定的神经重投影误差损失训练它们。此外,轻量级网络专为关键点检测和描述符提取而设计,可以在商业 GPU 上以每秒 95 帧的速度运行 640x480 图像。在单应性估计、相机姿态估计和视觉(重新)定位任务上,所提出的方法与最先进的方法实现了等效的性能,同时大大减少了推理时间。
* 题目: Interpretable Image Classification with Differentiable Prototypes Assignment
* 链接:
https://arxiv.org/abs/2112.02902* 作者: Dawid Rymarczyk,Łukasz Struski,Michał Górszczak,Koryna Lewandowska,Jacek Tabor,Bartosz Zieliński
* 其他: Code will be published after paper acceptance
* 摘要: 我们介绍了 ProtoPool,这是一种可解释的图像分类模型,具有类共享的原型池。训练比现有方法更直接,因为它不需要修剪阶段。它是通过将原型完全可微分配给特定类来获得的。此外,我们引入了一个新的焦点相似度函数来将模型集中在罕见的前景特征上。我们展示了 ProtoPool 在 CUB-200-2011 和斯坦福汽车数据集上获得了最先进的准确性,大大减少了原型的数量。我们提供了该方法的理论分析和用户研究,以表明我们的原型比使用竞争方法获得的原型更具特色。
* 题目: Seeing BDD100K in dark: Single-Stage Night-time Object Detection via Continual Fourier Contrastive Learning
* 链接:
https://arxiv.org/abs/2112.02891* 作者: Ujjal Kr Dutta
* 摘要: 尽管最先进的物体检测器有了巨大的改进,但在夜间解决物体检测的研究很少,这也是通过有限可用论文中的非统一评估协议。除了缺乏解决此问题的方法外,还缺乏足够大的基准数据集来研究夜间目标检测。最近,推出了大规模的 BDD100K,我们认为应该选择它作为基准,以启动该领域的研究。现在,谈到方法,现有的方法(数量有限)主要是基于生成图像翻译,或者基于图像增强/照明,这两者都不是自然的,符合人类在夜间看到物体的方式(通过专注于物体轮廓)。在本文中,我们弥补了这 3 个差距:1. 缺乏统一的评估协议(使用单级检测器,因为它的功效和效率),2. 选择用于基准夜间目标检测的数据集,以及 3 . 一种解决当前替代方案局限性的新方法。我们的方法利用基于对比学习的特征提取器,通过傅立叶变换从频域借用信息,并以基于持续学习的方式进行训练。用于对象检测时(在微调分类和回归层之后)学习的特征有助于实现新的最先进的经验性能,轻松超越大量竞争对手。
* 题目: SelectAugment: Hierarchical Deterministic Sample Selection for Data Augmentation
* 链接:
https://arxiv.org/abs/2112.02862* 作者: Shiqi Lin,Zhizheng Zhang,Xin Li,Wenjun Zeng,Zhibo Chen
* 摘要: 数据增强(DA)已被广泛研究以促进许多任务中的模型优化。然而,在大多数情况下,数据增强是针对每个训练样本以一定概率随机执行的,这可能会导致内容破坏和视觉歧义。为了消除这种情况,在本文中,我们提出了一种称为 SelectAugment 的有效方法,可以根据样本内容和网络训练状态以确定性和在线方式选择要增强的样本。具体来说,在每一个batch中,我们首先确定增强比例,然后决定是否在这个比例下对每个训练样本进行增强。我们将此过程建模为两步马尔可夫决策过程,并采用分层强化学习 (HRL) 来学习增强策略。这样,可以有效地缓解随机性在选择要增广的样本时带来的负面影响,提高 DA 的有效性。大量实验表明,我们提出的 SelectAugment 可以适应多种常用的 DA 方法,例如 Mixup、Cutmix、AutoAugment 等,并提高它们在图像分类和细粒度图像识别的多个基准数据集上的性能。
* 题目: Visual Object Tracking with Discriminative Filters and Siamese Networks: A Survey and Outlook
* 链接:
https://arxiv.org/abs/2112.02838* 作者: Sajid Javed,Martin Danelljan,Fahad Shahbaz Khan,Muhammad Haris Khan,Michael Felsberg,Jiri Matas
* 其他: Tracking Survey
* 摘要: 准确和鲁棒的视觉对象跟踪是最具挑战性和基本的计算机视觉问题之一。它需要估计图像序列中目标的轨迹,仅给定其初始位置和分割,或边界框形式的粗略近似。判别相关滤波器 (DCF) 和深度连体网络 (SN) 已成为主导跟踪范式,并取得了重大进展。随着过去十年视觉对象跟踪的快速发展,本次调查根据九个跟踪基准的结果,对 90 多个 DCF 和连体跟踪器进行了系统和彻底的审查。首先,我们介绍 DCF 和 Siamese 跟踪核心公式的背景理论。然后,我们区分并全面审查这两种跟踪范式中共享的和特定的开放研究挑战。此外,我们彻底分析了 DCF 和 Siamese 跟踪器在九个基准上的性能,涵盖了视觉跟踪的不同实验方面:数据集、评估指标、性能和速度比较。我们通过根据我们的分析针对杰出的开放挑战提出建议和建议来完成调查。
* 题目: A Generalized Zero-Shot Quantization of Deep Convolutional Neural Networks via Learned Weights Statistics
* 链接:
https://arxiv.org/abs/2112.02834* 作者: Prasen Kumar Sharma,Arun Abraham,Vikram Nelvoy Rajendiran
* 其他: Accepted by IEEE Transactions on Multimedia
* 摘要: 将深度卷积神经网络的浮点权重和激活量化为定点表示可以减少内存占用和推理时间。最近,零样本量化的努力已经开始,它不需要给定任务的原始未标记训练样本。这些发表得最好的作品在很大程度上依赖于学习到的批量归一化 (BN) 参数来推断量化激活的范围。特别是,这些方法建立在经验估计框架或数据蒸馏方法的基础上,用于计算激活范围。然而,当出现不适应 BN 层的网络时,此类方案的性能会严重下降。在这个思路下,我们提出了一种既不需要原始数据也不依赖于 BN 层统计的广义零样本量化 (GZSQ) 框架。我们利用了数据蒸馏方法,并仅利用模型的预训练权重来估计丰富的数据,以进行激活的范围校准。据我们所知,这是第一项利用预训练权重分布来辅助零样本量化过程的工作。所提出的方案明显优于现有的零样本工作,例如,对于各种任务,MobileNetV2 和其他几个没有 BN 层的模型的分类精度提高了约 33%。我们还展示了拟议工作在多个开源量化框架中的有效性。重要的是,我们的工作是对未来非标准化深度神经网络的训练后零样本量化的首次尝试。
* 题目: SyntEO: Synthetic Dataset Generation for Earth Observation with Deep Learning -- Demonstrated for Offshore Wind Farm Detection
* 链接:
https://arxiv.org/abs/2112.02829* 作者: Thorsten Hoeser,Claudia Kuenzer
* 其他: 25 pages, 12 figures
* 摘要: 随着过去几年深度学习的出现,地球观测研究出现了新的机遇。尽管如此,他们也带来了新的挑战。深度学习模型需要大量数据的训练过程需要大量、资源昂贵、带注释的数据集和部分替代知识驱动的方法,因此模型行为和最终预测过程变成了一个黑匣子。提议的 SyntEO 方法使地球观测研究人员能够自动生成大型深度学习就绪数据集,从而释放原本占用的资源。 SyntEO 通过以高度结构化的方式在数据生成过程中包含专家知识来做到这一点。通过这种方式,建立了完全可控的实验环境,支持模型训练中的洞察力。因此,SyntEO 使学习过程易于理解,模型行为可解释,这是可解释机器学习的重要基石。我们通过在世界上最大的两个海上风能生产基地的 Sentinel-1 图像中预测海上风电场来演示 SyntEO 方法。最大的生成数据集有 90,000 个训练示例。用于对象检测的基本卷积神经网络,仅在此合成数据上进行训练,通过在具有挑战性的环境中最大限度地减少错误检测,自信地检测海上风电场。此外,还生成了四个顺序数据集,展示了 SyntEO 方法如何精确定义数据集结构并影响训练过程。因此,SyntEO 是一种混合方法,可在专家知识和数据驱动的图像分析之间创建接口。
* 题目: Letter-level Online Writer Identification
* 链接:
https://arxiv.org/abs/2112.02824* 作者: Zelin Chen,Hong-Xing Yu,Ancong Wu,Wei-Shi Zheng
* 摘要: 作家身份(writer-id)是生物识别学中的一个重要领域,旨在通过笔迹识别作家。现有 writer-id 研究中的识别需要完整的文档或文本,这限制了 writer-id 在实际应用中的可扩展性和灵活性。为了使 writer-id 的应用更加实用(例如,在移动设备上),我们关注一个新问题,即字母级在线 writer-id,它只需要一些书面字母的轨迹作为识别线索。与具有丰富识别上下文的 text-/ document-based writer-id 不同,仅从几个单个字母中识别作者的线索要少得多。一个主要的挑战是一个人经常不时以不同的风格写一封信。我们将此问题称为在线写作风格的差异(Var-O-Styles)。我们以捕获-归一化-聚合的方式处理 Var-O-Styles:首先,我们通过精心设计的多分支编码器提取字母轨迹的不同特征,以尝试捕获不同的在线写作风格。然后我们通过一个新的归一化层将所有这些风格特征转换为参考风格特征域。最后,我们通过分层注意力池(HAP)聚合归一化特征,它将所有具有多种书写风格的输入字母融合到一个紧凑的特征向量中。此外,我们还提供了一个大规模的 LEtter 级在线 wRiter IDentification 数据集(LERID)用于评估。大量的比较实验证明了所提出框架的有效性。
* 题目: A Survey of Deep Learning for Low-Shot Object Detection
* 链接:
https://arxiv.org/abs/2112.02814* 作者: Qihan Huang,Haofei Zhang,Jie Song,Mingli Song
* 摘要: 目标检测是计算机视觉和图像处理中的一项基本任务。当前基于深度学习的对象检测器已经非常成功,具有丰富的标记数据。但在现实生活中,并不能保证每个对象类别都有足够的标记样本进行训练。当训练数据有限时,这些大型物体检测器很容易过拟合。因此,有必要将小样本学习和零样本学习引入到目标检测中,可以统称为低样本目标检测。低样本目标检测(LSOD)旨在从少量甚至零标记数据中检测目标,可分别分为少样本目标检测(FSOD)和零样本目标检测(ZSD)。本文对基于深度学习的 FSOD 和 ZSD 进行了全面调查。首先,本次调查将 FSOD 和 ZSD 的方法分为不同的类别,并讨论了它们的优缺点。其次,本次调查回顾了 FSOD 和 ZSD 的数据集设置和评估指标,然后分析了不同方法在这些基准上的性能。最后,本次调查讨论了 FSOD 和 ZSD 的未来挑战和有希望的方向。
* 题目: Forward Compatible Training for Representation Learning
* 链接:
https://arxiv.org/abs/2112.02805* 作者: Vivek Ramanujan,Pavan Kumar Anasosalu Vasu,Ali Farhadi,Oncel Tuzel,Hadi Pouransari
* 其他: 14 pages with appendix
* 摘要: 在视觉检索系统中,更新嵌入模型需要重新计算每条数据的特征。这个昂贵的过程被称为回填。最近,提出了向后兼容训练(BCT)的想法。为了避免回填的成本,BCT 修改了新模型的训练,使其表示与旧模型的表示兼容。但是,BCT 会显着阻碍新模型的性能。在这项工作中,我们为表征学习提出了一种新的学习范式:前向兼容训练(FCT)。在 FCT 中,在训练旧模型时,我们还为模型的未来未知版本做准备。我们建议学习辅助信息,这是每个样本的辅助特征,有助于模型的未来更新。为了开发一个强大而灵活的模型兼容性框架,我们将边信息与从旧嵌入到新嵌入的前向转换相结合。新模型的训练没有被修改,因此它的准确性没有降低。与 BCT 相比,我们在各种数据集上展示了显着的检索准确性改进:ImageNet-1k (+18.1%)、Places-365 (+5.4%) 和 VGG-Face2 (+8.3%)。当新旧模型在不同的数据集、损失和架构上进行训练时,FCT 获得模型兼容性。
* 题目: HumanNeRF: Generalizable Neural Human Radiance Field from Sparse Inputs
* 链接:
https://arxiv.org/abs/2112.02789* 作者: Fuqiang Zhao,Wei Yang,Jiakai Zhang,Pei Lin,Yingliang Zhang,Jingyi Yu,Lan Xu
* 摘要: 最近的神经人体表征可以产生高质量的多视图渲染,但需要使用密集的多视图输入和昂贵的训练。因此,它们在很大程度上仅限于静态模型,因为训练每一帧都是不可行的。我们提出了 HumanNeRF——一种可推广的神经表示——用于动态人类的高保真自由视角合成。类似于 IBRNet 如何通过避免逐场景训练来辅助 NeRF,HumanNeRF 在多视图输入中采用聚合像素对齐功能以及姿势嵌入的非刚性变形场来处理动态运动。原始的 HumanNeRF 已经可以对看不见的对象和相机设置的稀疏视频输入产生合理的渲染。为了进一步提高渲染质量,我们使用外观混合模块来增强我们的解决方案,以结合神经体积渲染和神经纹理混合的优点。对各种多视图动态人类数据集的大量实验证明了我们的方法在具有挑战性的运动和非常稀疏的相机视图输入下合成逼真的自由视图人类的普遍性和有效性。
* 题目: Texture Reformer: Towards Fast and Universal Interactive Texture Transfer
* 链接:
https://arxiv.org/abs/2112.02788* 作者: Zhizhong Wang,Lei Zhao,Haibo Chen,Ailin Li,Zhiwen Zuo,Wei Xing,Dongming Lu
* 其他: Accepted by AAAI2022
* 摘要: 在本文中,我们介绍了纹理重整器,这是一种快速且通用的基于神经的框架,用于在用户指定的指导下进行交互式纹理传输。挑战在于三个方面:1)任务的多样性,2)引导图的简单性,3)执行效率。为了应对这些挑战,我们的关键思想是使用一种新颖的前馈多视图和多阶段合成程序,包括 I) 全局视图结构对齐阶段,II) 局部视图纹理细化阶段,以及 III) 整体效果增强阶段,以从粗到细的方式合成具有连贯结构和精细纹理细节的高质量结果。此外,我们还引入了一种新颖的免学习视图特定纹理重构 (VSTR) 操作和新的语义映射指导策略,以实现更准确的语义指导和结构保留纹理传输。在各种应用场景上的实验结果证明了我们框架的有效性和优越性。与最先进的交互式纹理传输算法相比,它不仅获得了更高质量的结果,而且更显着的是,速度提高了 2-5 个数量级。此 https URL 提供代码。
* 题目: Adjusting the Ground Truth Annotations for Connectivity-Based Learning to Delineate
* 链接:
https://arxiv.org/abs/2112.02781* 作者: Doruk Oner,Leonardo Citraro,Mateusz Koziński,Pascal Fua
* 摘要: 基于深度学习的描绘 3D 结构的方法依赖于训练网络的准确注释。然而,在实践中,无论多么认真,人们都难以在 3D 中进行大规模精确描绘,部分原因是数据通常难以视觉解释,部分原因是 3D 界面难以使用。在本文中,我们介绍了一种明确说明注释不准确的方法。为此,我们将注释视为活动轮廓模型,可以在保持其拓扑结构的同时自行变形。这使我们能够联合训练网络并纠正原始注释中的潜在错误。结果是一种提高使用潜在不准确注释训练的深度网络性能的方法。
* 题目: Real-time Registration and Reconstruction with Cylindrical LiDAR Images
* 链接:
https://arxiv.org/abs/2112.02779* 作者: Wei Dong,Kwonyoung Ryu,Michael Kaess,Jaesik Park
* 其他: 6 pages, 7 figures. This paper is under the review
* 摘要: 旋转 LiDAR 数据在 3D 感知任务中很普遍,但其圆柱图像形式的研究较少。传统方法将扫描视为点云,它们要么依赖昂贵的欧几里得 3D 最近邻搜索来进行数据关联,要么依赖投影距离图像进行进一步处理。我们重新审视了 LiDAR 扫描形成,并为原始扫描数据提供了圆柱范围图像表示,配备了有效的校准球面投影模型。使用我们的公式,我们 1) 收集由室内和室外序列组成的大型 LiDAR 数据集以及伪地面实况姿势; 2)通过合成和现实世界的转换评估序列的投影和传统配准方法; 3) 将最先进的 RGB-D 算法转移到 LiDAR,其配准频率高达 180 Hz,密集重建频率高达 150 Hz。数据集和工具将被发布。
* 题目: ActiveZero: Mixed Domain Learning for Active Stereovision with Zero Annotation
* 链接:
https://arxiv.org/abs/2112.02772* 作者: Isabella Liu,Edward Yang,Jianyu Tao,Rui Chen,Xiaoshuai Zhang,Qing Ran,Zhu Liu,Hao Su
* 摘要: 传统的深度传感器生成准确的现实世界深度估计,甚至超过仅在模拟领域训练的最先进的学习方法。由于地面实况深度在模拟域中很容易获得,但在真实域中很难获得,因此我们提出了一种利用两全其美的方法。在本文中,我们提出了一个新框架 ActiveZero,它是一种不需要现实世界深度注释的主动立体视觉系统的混合域学习解决方案。首先,我们通过使用混合域学习策略证明了我们的方法对分布外真实数据的可转移性。在模拟领域,我们在形状基元数据集上结合使用监督视差损失和自监督损失。相比之下,在真实领域中,我们只在训练模拟数据或测试真实数据分布不均的数据集上使用自监督损失。其次,我们的方法引入了一种新的自监督损失,称为时间 IR 重投影,以提高我们在难以感知的区域中重投影的鲁棒性和准确性。最后,我们展示了如何端到端地训练该方法,以及每个模块对于获得最终结果都很重要。对真实数据的大量定性和定量评估展示了最先进的结果,甚至可以击败商业深度传感器。
* 题目: MetaCloth: Learning Unseen Tasks of Dense Fashion Landmark Detection from a Few Samples
* 链接:
https://arxiv.org/abs/2112.02763* 作者: Yuying Ge,Ruimao Zhang,Ping Luo
* 其他: Accepted by IEEE Transactions on Image Processing
* 摘要: 最近用于时尚地标检测的先进方法主要是通过在大规模时尚数据集上训练卷积神经网络来驱动的,该数据集具有大量带注释的地标。然而,在实际应用中获得这样的大规模注释既困难又昂贵,因此需要能够从少量标记数据中很好地泛化的模型。我们研究了少拍时尚地标检测的这个问题,其中只有少数标记样本可用于看不见的任务。这项工作通过元学习提出了一种名为 MetaCloth 的新框架,该框架能够仅使用少量带注释的样本来学习密集时尚地标检测的看不见的任务。与以前专注于解决“N-way K-shot”任务的元学习工作不同,其中每个任务通过为每个类使用 K 个带注释的样本进行训练来预测 N 个类(N 对于所有可见和不可见的任务都是固定的), MetaCloth 中的任务使用 K 个样本为不同的服装类别检测 N 个不同的地标,其中 N 因任务而异,因为不同的服装类别通常具有不同数量的地标。因此,MetaCloth 中不同的可见和不可见任务的参数数量是不同的。 MetaCloth 经过精心设计,可为不同的任务动态生成不同数量的参数,并从具有一组良好初始化参数的几个带注释的样本中学习可泛化的特征提取网络。大量实验表明,MetaCloth 的性能大大优于同类产品。
* 题目: MobRecon: Mobile-Friendly Hand Mesh Reconstruction from Monocular Image
* 链接:
https://arxiv.org/abs/2112.02753* 作者: Xingyu Chen,Yufeng Liu,Yajiao Dong,Xiong Zhang,Chongyang Ma,Yanmin Xiong,Yuan Zhang,Xiaoyan Guo
* 摘要: 在这项工作中,我们提出了一种用于单视图手部网格重建的框架,该框架可以同时实现高重建精度、快速推理速度和时间一致性。具体来说,对于 2D 编码,我们提出了轻量级但有效的堆叠结构。关于 3D 解码,我们提供了一种高效的图算子,即深度可分离螺旋卷积。此外,我们提出了一种新颖的特征提升模块,用于弥合 2D 和 3D 表示之间的差距。该模块从基于地图的位置回归 (MapReg) 块开始,以整合热图编码和位置回归范式的优点,以提高 2D 精度和时间一致性。此外,MapReg 之后是姿势池和姿势到顶点提升方法,它们将 2D 姿势编码转换为 3D 顶点的语义特征。总的来说,我们的手部重建框架称为 MobRecon,包括负担得起的计算成本和微型模型尺寸,在 Apple A14 CPU 上达到 83FPS 的高推理速度。在 FreiHAND、RHD 和 HO3Dv2 等流行数据集上进行的大量实验表明,我们的 MobRecon 在重建精度和时间一致性方面取得了卓越的性能。我们的代码可在此 https URL 上公开获取。
* 题目: One-shot Talking Face Generation from Single-speaker Audio-Visual Correlation Learning
* 链接:
https://arxiv.org/abs/2112.02749* 作者: Suzhen Wang,Lincheng Li,Yu Ding,Xin Yu
* 其他: Accepted by AAAI 2022
* 摘要: 音频驱动的一次性谈话人脸生成方法通常是在各种人的视频资源上训练的。然而,他们创建的视频经常会出现不自然的嘴形和不同步的嘴唇,因为这些方法很难从不同的说话者那里学习一致的说话风格。我们观察到,从特定说话者那里学习一致的说话风格会容易得多,这会导致真实的嘴巴动作。因此,我们通过探索来自特定说话者的音频和视觉运动之间的一致相关性,然后将音频驱动的运动场转移到参考图像,提出了一种新颖的一次性说话人脸生成框架。具体来说,我们开发了一种视听相关变换器 (AVCT),旨在从输入音频中推断出由基于关键点的密集运动场表示的谈话运动。特别是,考虑到音频在部署中可能来自不同的身份,我们合并了音素来表示音频信号。通过这种方式,我们的 AVCT 可以固有地泛化到其他身份所说的音频。此外,由于面部关键点用于表示说话者,因此 AVCT 与训练说话者的外表无关,因此允许我们轻松地处理不同身份的面部图像。考虑到不同的面部形状会导致不同的运动,利用运动场传输模块来减少训练身份和一次性参考之间的音频驱动密集运动场差距。一旦我们获得了参考图像的密集运动场,我们就使用图像渲染器从音频剪辑中生成它的人脸视频。由于我们学习了一致的说话风格,我们的方法可以生成真实的嘴形和生动的动作。大量实验表明,我们合成的视频在视觉质量和口型同步方面优于最先进的视频。
* 题目: Making a Bird AI Expert Work for You and Me
* 链接:
https://arxiv.org/abs/2112.02747* 作者: Dongliang Chang,Kaiyue Pang,Ruoyi Du,Zhanyu Ma,Yi-Zhe Song,Jun Guo
* 摘要: 与细粒度视觉分类 (FGVC) 一样强大,使用“Whip-poor-will”或“Mallard”这样的鸟名来回答您的查询可能没有多大意义。然而,这在文献中普遍被接受,强调了人工智能和人类交互的一个基本问题——什么构成了人类从人工智能学习的可转移知识?本文旨在使用 FGVC 作为测试平台来回答这个问题。具体来说,我们设想了一个场景,训练有素的 FGVC 模型(人工智能专家)充当知识提供者,使普通人(你和我)自己成为更好的领域专家,即那些能够区分“鞭打穷人”的人和“野鸭”。图 1 展示了我们回答这个问题的方法。假设使用专家人工标签训练的 AI 专家,我们会问 (i) 我们可以从 AI 中提取的最佳可转移知识是什么,以及 (ii) 在给定这些知识的情况下,衡量专业知识收益的最实用方法是什么?对于前者,我们建议将知识表示为专家专有的高度区分视觉区域。为此,我们设计了一个多阶段学习框架,从建模领域专家和新手的视觉注意力开始,然后有区别地提炼他们的差异以获得专家的专有知识。对于后者,我们将评估过程模拟为书籍指南,以最好地适应人类习惯的学习实践。一项对 15,000 次试验的综合人类研究表明,我们的方法能够不断提高具有不同鸟类专业知识的人来识别曾经无法识别的鸟类。有趣的是,当所定义的提取知识被用作实现区分定位的手段时,我们的方法还可以提高传统的 FGVC 性能。代码位于:此 https URL
* 题目: Facial Emotion Characterization and Detection using Fourier Transform and Machine Learning
* 链接:
https://arxiv.org/abs/2112.02729* 作者: Aishwarya Gouru,Shan Suthaharan
* 其他: 8 pages, 3 figures
* 摘要: 我们提出了一种基于傅立叶的机器学习技术,可以表征和检测面部情绪。开发用于面部情绪分类的机器学习 (ML) 模型的主要挑战性任务是从一组训练样本中检测准确的情绪特征,以及生成用于构建有意义的特征空间和构建 ML 模型的特征向量。在本文中,我们假设情感特征隐藏在频域中;因此,可以通过利用频域和掩蔽技术来捕获它们。我们还利用了面部情绪与正常面部特征和其他情绪特征复杂的猜想;然而,它们携带线性可分的空间频率(我们称之为计算情感频率)。因此,我们提出了一种利用快速傅立叶变换 (FFT) 和矩形窄带频率内核以及广泛使用的 Yale-Faces 图像数据集的技术。我们使用随机森林 (RF) 和人工神经网络 (ANN) 分类器的性能分数来测试假设,作为验证捕获的情绪频率有效性的措施。我们的发现是,所提出的方法发现的计算情感频率提供了有意义的情感特征,帮助 RF 和 ANN 平均达到 93% 以上的高精度分数。
* 题目: A hybrid convolutional neural network/active contour approach to segmenting dead trees in aerial imagery
* 链接:
https://arxiv.org/abs/2112.02725* 作者: Jacquelyn A. Shelton,Przemyslaw Polewski,Wei Yao,Marco Heurich
* 摘要: 生态系统抵御气候变化的稳定性和能力与其生物多样性直接相关。死树是森林整体健康的关键指标,占森林生态系统生物多样性的三分之一,占全球碳储量的 8%。它们被几种自然因素分解,例如气候、昆虫和真菌。死木质量的准确检测和建模对于理解森林生态、碳循环和分解者至关重要。我们提出了一种新方法,通过将已建立的卷积神经网络与能量最小化框架中的新型活动轮廓模型相结合,从航拍照片中构建死树的精确形状轮廓。我们的方法在检测到的死树的联合上的精度、召回率和交集方面产生了优于最先进技术的性能准确性。这种改进的性能对于应对气候变化(以及对系统的其他人为干扰)造成的新挑战至关重要,特别是监测和估计碳储量衰减率、监测森林健康和生物多样性以及死木对和来自气候变化。
* 题目: A Survey on Deep learning based Document Image Enhancement
* 链接:
https://arxiv.org/abs/2112.02719* 作者: Zahra Anvari,Vassilis Athitsos
* 摘要: 科学文章、税表、发票、合同文件和历史文本等数字化文件如今被广泛使用。由于各种原因,这些图像可能会降级或损坏,包括拍摄图像时光线条件不佳、扫描时出现阴影、噪声和模糊等失真、老化、墨渍、渗色、水印、印章等。 文档图像增强和恢复在许多自动化文档分析和识别任务中发挥着至关重要的作用,例如使用光学字符识别 (OCR) 进行内容提取。随着深度学习的最新进展,提出了许多方法来提高这些文档图像的质量。在本文中,我们回顾了针对不同文档图像增强问题的基于深度学习的方法、数据集和度量。我们为六种不同的文档图像增强任务提供了基于深度学习的方法的全面概述,包括二值化、去模糊、去噪、淡化、水印去除和阴影去除。我们总结了每项任务的主要最新成果,并讨论了它们的特点、挑战和局限性。我们介绍了受到很少或很少关注的多个文档图像增强任务,包括过度曝光和曝光不足校正以及消除渗色,并确定了其他几个有前途的研究方向和未来研究的机会。
* 题目: Learning Query Expansion over the Nearest Neighbor Graph
* 链接:
https://arxiv.org/abs/2112.02666* 作者: Benjamin Klein,Lior Wolf
* 其他: BMVC 2021
* 摘要: 查询扩展 (QE) 是一种完善的方法,用于改进图像搜索应用程序中的检索指标。使用 QE 时,搜索是在新的查询向量上进行的,该向量是使用对查询和数据库图像的聚合函数构建的。最近的工作产生了学习聚合函数的 QE 技术,而以前的技术基于手工制作的聚合函数,例如,取查询的最近邻居的平均值。然而,大多数 QE 方法都专注于直接在查询及其最近邻居上工作的聚合函数。在这项工作中,提出了一个分层模型,图查询扩展(GQE),它以监督方式学习,并在查询的扩展邻域上进行聚合,从而增加计算查询扩展时从数据库中使用的信息,并使用最近邻图的结构。该技术在已知基准上实现了最先进的结果。
* 题目: Boosting Mobile CNN Inference through Semantic Memory
* 链接:
https://arxiv.org/abs/2112.02644* 作者: Yun Li,Chen Zhang,Shihao Han,Li Lyna Zhang,Baoqun Yin,Yunxin Liu,Mengwei Xu
* 其他: 13 pages, 13 figures
* 摘要: 众所周知,人类大脑能够通过更快的记忆编码和对激活神经元的访问程序来加速对重复呈现对象的视觉识别。我们第一次借用这种能力并将其提炼到语义记忆设计中,即 SMTM,以改进设备上的 CNN 推理。 SMTM 采用分层内存架构来利用感兴趣对象的长尾分布,并进一步结合了几种新技术将其转化为效果:(1) 它将高维特征图编码为低维语义向量,用于低维向量。花费但准确的缓存和查找; (2) 考虑到不同层的固有特性,它使用一种新颖的度量来确定退出时间; (3)自适应地调整缓存大小和语义向量以适应场景动态。 SMTM 在商用 CNN 引擎上建立原型,并在移动 CPU 和 GPU 上运行。在大规模数据集和模型上的大量实验表明,与标准方法(高达 2 倍)和先前的缓存设计(高达 1.5 倍)相比,SMTM 可以显着加快模型推理的速度,并且精度损失可以接受。
* 题目: PSI: A Pedestrian Behavior Dataset for Socially Intelligent Autonomous Car
* 链接:
https://arxiv.org/abs/2112.02604* 作者: Tina Chen,Renran Tian,Yaobin Chen,Joshua Domeyer,Heishiro Toyoda,Rini Sherony,Taotao Jing,Zhengming Ding
* 摘要: 行人行为预测对于全自动驾驶汽车在繁忙的城市街道上安全高效地行驶至关重要。未来的自动驾驶汽车不仅需要适应混合条件,还需要具备技术和社交能力。随着越来越多的算法和数据集被开发来预测行人行为,这些努力缺乏基准标签和估计行人时间-动态意图变化的能力,提供交互场景的解释,并支持具有社会智能的算法。本文提出并分享了另一个基准数据集,称为 IUPUI-CSRC 行人定位(PSI)数据,除了全面的计算机视觉标签外,还有两个创新标签。第一个新颖的标签是行人在自动驾驶汽车前横穿的动态意图变化,由 24 名不同背景的司机实现。第二个是在估计行人意图和预测他们在交互期间的行为时的驾驶员推理过程的基于文本的解释。这些创新标签可以实现多项计算机视觉任务,包括行人意图/行为预测、车辆-行人交互分割以及可解释算法的视频到语言映射。发布的数据集可以从根本上改进行人行为预测模型的开发,开发具有社交智能的自动驾驶汽车,以实现与行人的高效交互。该数据集已通过不同的任务进行评估,并向公众发布以供访问。
* 题目: Simple Adaptive Projection with Pretrained Features for Anomaly Detection
* 链接:
https://arxiv.org/abs/2112.02597* 作者: Xingtai Gui
* 摘要: 深度异常检测旨在将异常与具有高质量表示的正常样本分开。预训练的特征带来了有效的表示和有希望的异常检测性能。然而,对于一类训练数据,适应预训练的特征是一个棘手的问题。具体来说,具有全局目标的现有优化目标通常会导致模式崩溃,即所有输入都映射到相同的。在本文中,我们提出了一种新的自适应框架,包括简单的线性变换和自注意力。这种适应应用于特定的输入,并挖掘其在预训练特征空间中正常样本的 k 个最近表示以及相似的一类语义特征之间的内部关系。此外,基于这样的框架,我们提出了一个有效的约束项来避免学习琐碎的解决方案。我们带有预训练特征(SAP2)的简单自适应投影产生了一种新的异常检测标准,该标准对模式崩溃更加准确和鲁棒。我们的方法在语义异常检测和感官异常检测基准上实现了最先进的异常检测性能,包括 CIFAR-100 数据集上的 96.5% AUROC、CIFAR-10 数据集上的 97.0% AUROC 和 MvTec 数据集上的 88.1% AUROC。
* 题目: STSM: Spatio-Temporal Shift Module for Efficient Action Recognition
* 链接:
https://arxiv.org/abs/2112.02523* 作者: Zhaoqilin Yang,Gaoyun An
* 其他: 9 pages,4 figures
* 摘要: 传统时空网络的建模、计算成本和准确性是视频动作识别中三个最集中的研究课题。传统的2D卷积计算成本低,但无法捕捉时间关系;基于3D卷积的卷积神经网络(CNNs)模型可以获得良好的性能,但其计算成本高,参数量大。在本文中,我们提出了一种即插即用的时空移位模块(STSM),它是一种既有效又高性能的通用模块。具体来说,将 STSM 插入其他网络后,可以在不增加计算量和参数的情况下提高网络的性能。特别是,当网络是 2D CNN 时,我们的 STSM 模块允许网络学习有效的时空特征。我们对提议的模块进行了广泛的评估,进行了大量实验以研究其在视频动作识别中的有效性,并在 kinetics-400 和 Something-Something V2 数据集上取得了最先进的结果。
* 题目: Neural Photometry-guided Visual Attribute Transfer
* 链接:
https://arxiv.org/abs/2112.02520* 作者: Carlos Rodriguez-Pardo,Elena Garces
* 其他: 13 pages. To be published in Transactions on Visualizations and Computer Graphics. Project website: this http URL
* 摘要: 我们提出了一种基于深度学习的方法,用于将空间变化的视觉材料属性(例如纹理贴图或图像风格)传播到相同或相似材料的更大样本。对于训练,我们利用在多个照明下拍摄的材料图像和专用的数据增强策略,使传输对新的照明条件和仿射变形具有鲁棒性。我们的模型依赖于受监督的图像到图像的转换框架,并且与转移域无关;我们展示了语义分割、法线贴图和风格化。遵循图像类比方法,该方法只需要训练数据包含与输入指导相同的视觉结构。我们的方法以交互速率工作,使其适用于材料编辑应用程序。我们在受控设置中彻底评估我们的学习方法,提供性能的定量测量。最后,我们证明在单一材料上训练模型足以推广到相同类型的材料,而无需大量数据集。
* 题目: Global-Local Context Network for Person Search
* 链接:
https://arxiv.org/abs/2112.02500* 作者: Peng Zheng,Jie Qin,Yichao Yan,Shengcai Liao,Bingbing Ni,Xiaogang Cheng,Ling Shao
* 摘要: 人物搜索旨在从自然、未裁剪的图像中联合定位和识别查询人物,这在过去几年中在计算机视觉社区中得到了积极研究。在本文中,我们深入研究了围绕目标人物的全局和局部丰富的上下文信息,我们分别指的是场景和组上下文。与之前单独处理两种类型上下文的工作不同,我们在统一的全局-局部上下文网络 (GLCNet) 中利用它们,直观的目的是增强特征。具体来说,re-ID 嵌入和上下文特征以多阶段的方式同时增强,最终导致用于人员搜索的增强的判别特征。我们在两个人的搜索基准(即中大和 PRW)上进行实验,并将我们的方法扩展到更具挑战性的设置(即在 MovieNet 上进行字符搜索)。广泛的实验结果表明,所提出的 GLCNet 在三个数据集上对最先进方法的持续改进。我们的源代码、预训练模型和字符搜索的新设置可从以下网址获得:此 https URL。
* 题目: Implicit Neural Deformation for Multi-View Face Reconstruction
* 链接:
https://arxiv.org/abs/2112.02494* 作者: Moran Li,Haibin Huang,Yi Zheng,Mengtian Li,Nong Sang,Chongyang Ma
* 其他: 13 pages, 4 figures
* 摘要: 在这项工作中,我们提出了一种从多视图 RGB 图像重建 3D 人脸的新方法。与以前建立在细节有限的 3D 可变形模型 (3DMM) 上的方法不同,我们的方法利用隐式表示来编码丰富的几何特征。我们的整个管道由两个主要部分组成,包括一个几何网络,它学习一个可变形的神经符号距离函数 (SDF) 作为 3D 人脸表示,以及一个渲染网络,它学习渲染神经 SDF 的表面点以匹配通过自监督优化输入图像。为了在测试时处理具有不同表情的同一目标的野外稀疏视图输入,我们进一步提出了残差潜在代码以有效扩展学习到的隐式人脸表示的形状空间,以及一种新颖的视图切换损失加强不同观点之间的一致性。我们在几个基准数据集上的实验结果表明,与最先进的方法相比,我们的方法优于替代基线并实现了卓越的人脸重建结果。
* 题目: Face Trees for Expression Recognition
* 链接:
https://arxiv.org/abs/2112.02487* 作者: Mojtaba Kolahdouzi,Alireza Sepas-Moghaddam,Ali Etemad
* 摘要: 我们提出了一种用于面部表情识别的端到端架构。我们的模型学习面部标志的最佳树拓扑,其遍历生成一个序列,我们从中获得嵌入以提供给序列学习器。所提出的架构包含两个主要流,一个专注于地标位置以学习面部结构,而另一个专注于地标周围的补丁以学习纹理信息。每个流后面都有一个注意力机制,输出被馈送到两个流融合组件以执行最终分类。我们对两个大规模公开可用的面部表情数据集 AffectNet 和 FER2013 进行了大量实验,以评估我们方法的有效性。我们的方法优于该领域的其他解决方案,并在这些数据集上设置了新的最先进的表达识别率。
* 题目: Deblurring via Stochastic Refinement
* 链接:
https://arxiv.org/abs/2112.02475* 作者: Jay Whang,Mauricio Delbracio,Hossein Talebi,Chitwan Saharia,Alexandros G. Dimakis,Peyman Milanfar
* 摘要: 图像去模糊是一个不适定问题,对于给定的输入图像有多种合理的解决方案。然而,大多数现有方法都会对干净图像产生确定性估计,并经过训练以最小化像素级失真。众所周知,这些指标与人类感知的相关性很差,并且经常导致不切实际的重建。我们提出了一种基于条件扩散模型的盲去模糊替代框架。与现有技术不同的是,我们训练了一个随机采样器,它可以改进确定性预测器的输出,并且能够为给定的输入生成一组多样化的似是而非的重建。与现有的最先进方法相比,跨多个标准基准的感知质量显着提高。与典型的扩散模型相比,我们的预测和优化方法还可以实现更有效的采样。结合精心调整的网络架构和推理过程,我们的方法在失真指标(如 PSNR)方面具有竞争力。这些结果显示了我们基于扩散的去模糊方法的明显优势,并挑战了广泛使用的生成单一、确定性重建的策略。
* 题目: RADA: Robust Adversarial Data Augmentation for Camera Localization in Challenging Weather
* 链接:
https://arxiv.org/abs/2112.02469* 作者: Jialu Wang,Muhamad Risqi U. Saputra,Chris Xiaoxuan Lu,Niki Trigon,Andrew Markham
* 摘要: 相机定位是许多机器人应用的基本和关键问题。近年来,使用深度学习进行基于相机的定位已经成为一个热门的研究方向。然而,它们缺乏对大域变化的鲁棒性,这可能是由训练和测试数据集之间的季节性或光照变化引起的。数据增强是解决这个问题的一种有吸引力的方法,因为它不需要提供额外的数据。然而,现有的增强方法盲目地扰乱所有像素,因此无法获得令人满意的性能。为了克服这个问题,我们提出了 RADA,这是一个系统,其目的是专注于扰动图像的几何信息部分。结果,它学会了生成仍然能够使网络困惑的最小图像扰动。我们表明,当这些例子被用作增强时,它大大提高了鲁棒性。我们表明,在“看不见的”具有挑战性的天气条件下进行测试时,我们的方法优于以前的增强技术,并且比 SOTA 定位模型(例如 AtLoc 和 MapNet)的准确度高出两倍。
* 题目: SSAGCN: Social Soft Attention Graph Convolution Network for Pedestrian Trajectory Prediction
* 链接:
https://arxiv.org/abs/2112.02459* 作者: Pei Lv,Wentong Wang,Yunxin Wang,Yuzhen Zhang,Mingliang Xu,Changsheng Xu
* 其他: 14 pages, 8 figures
* 摘要: 行人轨迹预测是自动驾驶的一项重要技术,成为近年来的研究热点。以前的方法主要依靠行人的位置关系来模拟社会互动,这显然不足以表示真实情况下的复杂情况。此外,现有的工作大多将场景交互模块作为一个独立的分支引入,在轨迹生成过程中嵌入社交特征,而不是同时进行社交和场景交互,这可能会破坏轨迹预测的合理性。 .在本文中,我们提出了一种名为社交软注意力图卷积网络(SSAGCN)的新预测模型,旨在同时处理行人之间的社交互动以及行人与环境之间的场景互动。具体来说,在对社交互动进行建模时,我们提出了一种新的/emph{社交软注意力函数},它充分考虑了行人之间的各种互动因素。并且可以在各种情况下根据不同的因素区分agent周围行人的影响。对于物理交互,我们提出了一种新的/emph {顺序场景共享机制}。场景在每一时刻对一个智能体的影响可以通过社会软注意力与其他邻居共享,因此场景的影响在空间和时间维度上都得到了扩展。在这些改进的帮助下,我们成功地获得了社会和物理上可接受的预测轨迹。在公共可用数据集上的实验证明了 SSAGCN 的有效性,并取得了最先进的结果。
* 题目: Implicit Data Augmentation Using Feature Interpolation for Diversified Low-Shot Image Generation
* 链接:
https://arxiv.org/abs/2112.02450* 作者: Mengyu Dai,Haibin Hang,Xiaoyang Guo
* 摘要: 生成模型的训练,尤其是生成对抗网络,很容易在低数据设置中发散。为了缓解这个问题,我们提出了一种新颖的隐式数据增强方法,该方法有助于稳定训练并合成不同的样本。具体来说,我们将鉴别器视为真实数据流形的度量嵌入,它提供真实数据点之间的适当距离。然后我们利用特征空间中的信息来开发数据驱动的增强方法。我们进一步提出了一个简单的指标来评估合成样本的多样性。少数镜头生成任务的实验表明,与当前方法相比,我们的方法提高了 FID 和结果的多样性,并允许使用少于 100 个训练样本生成高质量和多样化的图像。
* 题目: Next Day Wildfire Spread: A Machine Learning Data Set to Predict Wildfire Spreading from Remote-Sensing Data
* 链接:
https://arxiv.org/abs/2112.02447* 作者: Fantine Huot,R. Lily Hu,Nita Goyal,Tharun Sankar,Matthias Ihme,Yi-Fan Chen
* 其他: submitted to IEEE Transactions on Geoscience and Remote Sensing
* 摘要: 预测野火蔓延对于土地管理和备灾至关重要。为此,我们展示了“次日野火蔓延”,这是一个精心策划的、大规模的、多元的历史野火数据集,汇集了美国近十年的遥感数据。与现有的基于地球观测卫星的火灾数据集相比,我们的数据集将二维火灾数据与在二维区域对齐的多个解释变量(例如,地形、植被、天气、干旱指数、人口密度)相结合,提供了一个特征丰富的数据为机器学习设置。为了证明这个数据集的有用性,我们实现了一个卷积自动编码器,它利用这个数据的空间信息来预测野火蔓延。我们将神经网络的性能与其他机器学习模型进行了比较:逻辑回归和随机森林。该数据集可用作基于遥感数据在一天的提前时间内开发野火传播模型的基准。
* 题目: VT-CLIP: Enhancing Vision-Language Models with Visual-guided Texts
* 链接:
https://arxiv.org/abs/2112.02399* 作者: Renrui Zhang,Longtian Qiu,Wei Zhang,Ziyao Zeng
* 摘要: 对比视觉语言预训练 (CLIP) 最近因其可迁移的视觉表示学习而受到越来越多的关注。在大规模图像-文本对的监督下,CLIP 能够对齐成对的图像和文本,从而在开放词汇场景中进行零镜头识别。然而,具体应用与一般预训练知识之间存在语义鸿沟,这使得匹配在下游任务上次优。在本文中,我们提出 VT-CLIP 以通过视觉引导文本增强视觉语言建模。具体来说,我们引导文本特征自适应地探索图像上的信息区域,并通过交叉注意机制聚合视觉特征。通过这种方式,视觉引导的文本与图像在语义上变得更加相关,这极大地有利于匹配过程。在小样本设置中,我们在 11 个众所周知的分类数据集上评估了我们的 VT-CLIP,并进行了广泛的消融研究以证明 VT-CLIP 的有效性。代码将很快发布。
* 题目: LTT-GAN: Looking Through Turbulence by Inverting GANs
* 链接:
https://arxiv.org/abs/2112.02379* 作者: Kangfu Mei,Vishal M. Patel
* 其他: Project Page:
https://kfmei.page/LTT-GAN/* 摘要: 在远距离成像的许多应用中,我们面临这样一种场景,即出现在捕获图像中的人往往会因大气湍流而退化。然而,恢复这种退化的图像以进行人脸验证是很困难的,因为退化会导致图像几何失真和模糊。为了减轻湍流效应,在本文中,我们提出了第一种利用受过良好训练的 GAN 封装的视觉先验的湍流减轻方法。基于视觉先验,我们建议学习在空间周期性上下文距离上保留恢复图像的身份。这样的距离可以在考虑网络学习时的身份差异的同时保持从 GAN 恢复图像的真实性。此外,还提出了分层伪连接,通过在不改变身份的情况下引入更多的外观变化来促进身份保持学习。大量实验表明,我们的方法在恢复结果的视觉质量和面部验证准确性方面都明显优于现有技术。
* 题目: 3rd Place: A Global and Local Dual Retrieval Solution to Facebook AI Image Similarity Challenge
* 链接:
https://arxiv.org/abs/2112.02373* 作者: Xinlong Sun,Yangyang Qin,Xuyuan Xu,Guoping Gong,Yang Fang,Yexin Wang
* 其他: This is the 3rd solution for Facebook Image Similarity Challenge and NIPS2021 Workshop. The current first draft version will be updated later
* 摘要: 图像相似度检索作为计算机视觉的一项基本任务,面临着大规模数据和图像复制攻击的挑战。本文介绍了我们对 Facebook AI 组织的 2021 年图像相似性挑战 (ISC) 匹配赛道的第三名解决方案。我们提出了一种结合全局描述符和局部描述符的多分支检索方法来覆盖所有攻击情况。具体来说,我们尝试了许多策略来优化全局描述符,包括丰富的数据增强、使用单个 Transformer 模型的自监督学习、叠加检测预处理。此外,我们为局部检索引入了鲁棒的 SIFT 特征和 GPU Faiss,弥补了全局检索的缺点。最后,使用KNN-matching算法判断匹配和合并分数。我们展示了我们方法的一些消融实验,这揭示了全局和局部特征的互补优势。
* 题目: SITA: Single Image Test-time Adaptation
* 链接:
https://arxiv.org/abs/2112.02355* 作者: Ansh Khurana,Sujoy Paul,Piyush Rai,Soma Biswas,Gaurav Aggarwal
* 摘要: 在测试时自适应 (TTA) 中,给定一个在某些源数据上训练的模型,目标是对其进行调整,以便对来自不同分布的测试实例做出更好的预测。至关重要的是,TTA 假设无法访问源数据,甚至无法访问目标分布中的任何其他标记/未标记样本来微调源模型。在这项工作中,我们在更实用的环境中考虑 TTA,我们将其称为 SITA(单图像测试时间适应)。在这里,在进行每个预测时,模型只能访问给定的 /emph{single} 测试实例,而不是像文献中通常考虑的那样的 /emph{batch} 实例。这是由现实场景推动的,其中需要以按需方式进行推理,可能不会延迟“批量化”传入请求,或者推理发生在没有余地的边缘设备(如手机)上分批。 SITA 中的整个适应过程应该非常快,因为它发生在推理时。为了解决这个问题,我们为仅需要前向传播的 SITA 设置提出了一种新方法 AugBN。该方法可以使任何现成的训练模型适应用于分类和分割任务的单个测试实例。 AugBN 仅使用一个带有标签保留变换的前向传递来估计给定测试图像中未见测试分布的归一化统计数据。由于 AugBN 不涉及任何反向传播,因此与其他最近的方法相比,它的速度要快得多。据我们所知,这是第一项仅使用单个测试图像解决这个硬适应问题的工作。尽管非常简单,但与将源模型直接应用于目标实例相比,我们的框架能够实现显着的性能提升,正如我们广泛的实验和消融研究所反映的那样。
* 题目: Label Hierarchy Transition: Modeling Class Hierarchies to Enhance Deep Classifiers
* 链接:
https://arxiv.org/abs/2112.02353* 作者: Renzhen Wang,De cai,Kaiwen Xiao,Xixi Jia,Xiao Han,Deyu Meng
* 摘要: 层次分类旨在将对象分类为类别的层次结构。例如,可以根据顺序、科和种的三级层次结构对鸟类进行分类。现有方法通常通过将分层分类解耦为多个多类分类任务来解决分层分类问题。然而,这种多任务学习策略未能充分利用不同层次结构中各种类别之间的相关性。在本文中,我们提出了基于深度学习的统一概率框架 Label Hierarchy Transition 来解决分层分类问题。具体来说,我们明确地学习了标签层次转换矩阵,其列向量表示两个相邻层次之间的类的条件标签分布,并且能够对嵌入在类层次中的相关性进行编码。我们进一步提出了一种混淆损失,它鼓励分类网络在训练期间学习不同标签层次结构之间的相关性。所提出的框架只需稍作修改即可适用于任何现有的深度网络。我们对具有不同类别层次结构的三个公共基准数据集进行了实验,结果证明了我们的方法超越现有技术的优越性。源代码将公开提供。
* 题目: Scanpath Prediction on Information Visualisations
* 链接:
https://arxiv.org/abs/2112.02340* 作者: Yao Wang,Mihai Bâce,Andreas Bulling
* 其他: 11 pages, 6 figures
* 摘要: 我们提出了显着性和扫描路径的统一模型(UMSS)——一种学习预测信息可视化的视觉显着性和扫描路径(即眼睛注视序列)的模型。尽管扫描路径在视觉探索过程中提供了有关不同可视化元素重要性的丰富信息,但先前的工作仅限于预测聚合注意力统计数据,例如视觉显着性。我们对流行的 MASSVIS 数据集上的不同信息可视化元素(例如标题、标签、数据)的凝视行为进行了深入分析。我们表明,虽然总体而言,视觉化和观看者之间的凝视模式惊人地一致,但不同元素的凝视动态也存在结构性差异。根据我们的分析,UMSS 首先预测多持续时间元素级显着图,然后从它们中概率采样扫描路径。 MASSVIS 上的大量实验表明,我们的方法在几个广泛使用的扫描路径和显着性评估指标方面始终优于最先进的方法。我们的方法使扫描路径预测的序列得分相对提高了 11.5%,显着性预测的 Pearson 相关系数相对提高了 23.6%。这些结果是吉祥的,并且指向更丰富的用户模型和可视化的视觉注意力模拟,而无需任何眼动追踪设备。
* 题目: Generalized Binary Search Network for Highly-Efficient Multi-View Stereo
* 链接:
https://arxiv.org/abs/2112.02338* 作者: Zhenxing Mi,Di Chang,Dan Xu
* 其他: 16 pages
* 摘要: 具有已知相机参数的多视图立体 (MVS) 本质上是有效深度范围内的一维搜索问题。最近基于深度学习的 MVS 方法通常在深度范围内对深度假设进行密集采样,然后构建消耗大量内存的 3D 成本量以进行深度预测。尽管从粗到精的采样策略在一定程度上缓解了这个开销问题,但 MVS 的效率仍然是一个开放的挑战。在这项工作中,我们提出了一种高效 MVS 的新方法,该方法显着减少了内存占用,同时明显提高了最先进的深度预测性能。我们调查考虑到效率和有效性的 MVS 可以合理优化的搜索策略。我们首先将 MVS 表述为一个二分搜索问题,并相应地为 MVS 提出了一个广义的二分搜索网络。具体来说,在每一步中,深度范围被分成 2 个 bin,两边都有额外的 1 个容错 bin。执行分类以识别哪个 bin 包含真实深度。我们还设计了三种机制来分别处理分类错误、处理超出范围的样本和减少训练记忆。新的公式使我们的方法在每个步骤中仅对极少量的深度假设进行采样,具有很高的内存效率,也极大地促进了快速训练收敛。在竞争基准上的实验表明,我们的方法以更少的内存实现了最先进的准确性。特别是,我们的方法在 DTU 数据集上获得了 0.289 的总分,在所有基于学习的方法中,在具有挑战性的 Tanks and Temples 高级数据集上名列第一。经过训练的模型和代码将在此 https URL 上发布。
* 题目: MoFaNeRF: Morphable Facial Neural Radiance Field
* 链接:
https://arxiv.org/abs/2112.02308* 作者: Yiyu Zhuang,Hao Zhu,Xusen Sun,Xun Cao
* 摘要: 我们提出了一个参数模型,该模型使用神经辐射场将自由视图图像映射到编码面部形状、表情和外观的向量空间,即 Morphable Facial NeRF。具体来说,MoFaNeRF 将编码的面部形状、表情和外观以及空间坐标和视图方向作为 MLP 的输入,并输出空间点的辐射以进行逼真的图像合成。与传统的 3D 可变形模型 (3DMM) 相比,MoFaNeRF 在直接合成逼真的面部细节方面表现出优势,即使是眼睛、嘴巴和胡须。此外,通过插入输入的形状、表情和外观代码,可以轻松实现连续的面部变形。通过引入特定于身份的调制和纹理编码器,我们的模型合成了准确的光度细节并显示出强大的表示能力。我们的模型在多种应用中表现出强大的能力,包括基于图像的拟合、随机生成、人脸绑定、人脸编辑和新视图合成。实验表明,我们的方法比以前的参数模型具有更高的表示能力,并在多个应用中取得了有竞争力的性能。据我们所知,我们的工作是第一个基于神经辐射场的面部参数模型,可用于拟合、生成和操作。我们的代码和模型在这个 https URL 中发布。
* 题目: Interactive Disentanglement: Learning Concepts by Interacting with their Prototype Representations
* 链接:
https://arxiv.org/abs/2112.02290* 作者: Wolfgang Stammer,Marius Memmel,Patrick Schramowski,Kristian Kersting
* 摘要: 在没有强大监督的情况下从原始图像中学习视觉概念是一项具有挑战性的任务。在这项工作中,我们展示了原型表示在理解和修改神经概念学习器的潜在空间方面的优势。为此,我们引入了交互式概念交换网络 (iCSN),这是一种通过弱监督和隐式原型表示学习基于概念的表示的新框架。 iCSN 通过交换配对图像的潜在表示,学习将概念信息绑定到特定的原型槽。这种基于语义的离散潜在空间促进了人类的理解和人机交互。我们通过对我们的新数据集“基本概念推理”(ECR)进行实验来支持这一主张,重点是几何对象共享的视觉概念。
* 题目: BAANet: Learning Bi-directional Adaptive Attention Gates for Multispectral Pedestrian Detection
* 链接:
https://arxiv.org/abs/2112.02277* 作者: Xiaoxiao Yang,Yeqian Qiang,Huijie Zhu,Chunxiang Wang,Ming Yang
* 摘要: 热红外 (TIR) 图像已被证明可以有效地为多光谱行人检测的 RGB 特征提供温度提示。大多数现有方法直接将 TIR 模态注入基于 RGB 的框架或简单地将两种模态的结果结合起来。然而,这可能导致较差的检测性能,因为 RGB 和 TIR 特征通常具有特定于模态的噪声,这可能会随着网络的传播而恶化特征。因此,这项工作提出了一种有效且高效的跨模态融合模块,称为双向自适应注意门(BAA-Gate)。基于注意力机制,BAA-Gate 被设计为提取信息特征并渐近地重新校准表示。具体而言,采用双向多阶段融合策略逐步优化两种模态的特征并在传播过程中保持其特异性。此外,基于光照的加权策略引入了 BAA-Gate 的自适应交互,以自适应地调整 BAA-Gate 中的重新校准和聚合强度,并增强对光照变化的鲁棒性。在具有挑战性的 KAIST 数据集上进行的大量实验证明了我们的方法具有令人满意的速度的优越性能。
* 题目: Feature-based Recognition Framework for Super-resolution Images
* 链接:
https://arxiv.org/abs/2112.02270* 作者: Jing Hu,Meiqi Zhang,Rui Zhang
* 其他: 7 pages, 2 figures
* 摘要: 在实际应用中,当应用于超分辨率图像时,识别网络的性能通常会下降。在本文中,我们提出了一种结合 GAN(FGAN)的基于特征的识别网络。我们的网络通过提取更多有利于 SR 图像识别的特征来提高识别精度。在实验中,我们使用三种不同的超分辨率算法构建了三个数据集,我们的网络与 ReaNet50 和 DenseNet121 相比,识别准确率提高了 6% 以上。
* 题目: Construct Informative Triplet with Two-stage Hard-sample Generation
* 链接:
https://arxiv.org/abs/2112.02259* 作者: Chuang Zhu,Zheng Hu,Huihui Dong,Gang He,Zekuan Yu,Shangshang Zhang
* 摘要: 在本文中,我们提出了一种稳健的样本生成方案来构建信息丰富的三元组。所提出的硬样本生成是一个两阶段合成框架,它分别通过有效的正负样本生成器在两个阶段产生硬样本。第一阶段通过分段线性操作拉伸锚正对,并通过巧妙地设计条件生成对抗网络来提高生成样本的质量,以降低模式崩溃的风险。第二阶段利用自适应反向度量约束来生成最终的硬样本。在多个基准数据集上进行的大量实验证实,我们的方法比现有的硬样本生成算法具有更高的性能。此外,我们还发现我们提出的硬样本生成方法结合现有的三元组挖掘策略可以进一步提高深度度量学习性能。
* 题目: Channel Exchanging Networks for Multimodal and Multitask Dense Image Prediction
* 链接:
https://arxiv.org/abs/2112.02252* 作者: Yikai Wang,Wenbing Huang,Fuchun Sun,Fengxiang He,Dacheng Tao
* 其他: 18 pages. arXiv admin note: substantial text overlap with arXiv:2011.05005
* 摘要: 多模态融合和多任务学习是机器学习中的两个重要主题。尽管取得了丰硕的进展,但解决这两个问题的现有方法仍然难以应对相同的挑战——在跨模态(resp.task)整合公共信息的同时保留每种模态(resp.task)的特定模式仍然是两难的。此外,虽然它们实际上彼此密切相关,但以前很少在同一方法框架内探索多模态融合和多任务学习。在本文中,我们提出了自适应、无参数的通道交换网络 (CEN),更重要的是,它适用于多模态融合和多任务学习。 CEN的核心是在不同模态的子网之间动态交换信道。具体来说,通道交换过程是由单个通道重要性自我引导的,该重要性由训练期间批量归一化 (BN) 缩放因子的大小来衡量。对于密集图像预测的应用,通过多模态融合、循环多模态融合、多任务学习和多模态多任务学习四种不同场景来测试CEN的有效性。与当前最先进的方法相比,通过 RGB-D 数据和通过多域输入进行图像转换的语义分割的广泛实验验证了我们的 CEN 的有效性。还进行了详细的消融研究,这证明了我们提出的每个组件的优势。
* 题目: Dense Extreme Inception Network for Edge Detection
* 链接:
https://arxiv.org/abs/2112.02250* 作者: Xavier Soria Poma,Angel Sappa,Patricio Humanante,Arash Arbarinia
* 其他: Paper submitted to an Elsevier journal
* 摘要: 边缘检测是许多计算机视觉应用的基础。最先进的技术主要依赖于具有两个决定性因素的深度学习:数据集内容和网络架构。大多数公开可用的数据集都没有针对边缘检测任务进行策划。在这里,我们提供了针对此约束的解决方案。首先,我们认为边缘、轮廓和边界,尽管它们有重叠,但它们是三个不同的视觉特征,需要单独的基准数据集。为此,我们提出了一个新的边数据集。其次,我们提出了一种新颖的架构,称为边缘检测的密集极端初始网络 (DexiNed),可以从头开始训练,无需任何预训练的权重。 DexiNed 在呈现的数据集中优于其他算法。它还可以很好地推广到其他数据集而无需任何微调。由于输出的边缘更锐利、更精细,DexiNed 的更高质量在感知上也很明显。
* 题目: Dual-Flow Transformation Network for Deformable Image Registration with Region Consistency Constraint
* 链接:
https://arxiv.org/abs/2112.02249* 作者: Xinke Ma,Yibo Yang,Yong Xia,Dacheng Tao
* 摘要: 可变形图像配准能够在一对图像之间实现快速准确的对齐,因此在许多医学图像研究中发挥着重要作用。当前基于深度学习 (DL) 的图像配准方法通过利用卷积神经网络直接学习从一幅图像到另一幅图像的空间变换,这需要地面实况或相似性度量。然而,这些方法仅使用全局相似性能量函数来评估一对图像的相似性,而忽略了图像内感兴趣区域(ROI)的相似性。此外,基于DL的方法通常直接估计图像的全局空间变换,从不关注图像内ROI的区域空间变换。在本文中,我们提出了一种具有区域一致性约束的新型双流变换网络,该网络最大限度地提高了一对图像内 ROI 的相似性,并同时估计全局和区域空间变换。在四个公共 3D MRI 数据集上的实验表明,与其他最先进的方法相比,所提出的方法在准确性和泛化方面实现了最佳配准性能。
* 题目: A Triple-Double Convolutional Neural Network for Panchromatic Sharpening
* 链接:
https://arxiv.org/abs/2112.02237* 作者: Tian-Jing Zhang,Liang-Jian Deng,Ting-Zhu Huang,Jocelyn Chanussot,Gemine Vivone
* 摘要: 全色锐化是指将空间分辨率高的全色图像与空间分辨率低的多光谱图像进行融合,以获得高空间分辨率的多光谱图像。在本文中,我们通过考虑以下双类型结构,/emph{ie,} 双层、双分支和双向,称为三双网络(TDNet)。通过使用TDNet的结构,可以充分挖掘和利用全色图像的空间细节,逐步注入到低空间分辨率的多光谱图像中,从而产生高空间分辨率的输出。具体的网络设计是由传统的多分辨率分析 (MRA) 方法的物理公式驱动的。因此,有效的 MRA 融合模块也集成到 TDNet 中。此外,我们采用了一些 ResNet 块和一些多尺度卷积核来加深和加宽网络,以有效增强所提出的 TDNet 的特征提取和鲁棒性。对 WorldView-3、QuickBird 和 GaoFen-2 传感器获取的缩减和全分辨率数据集进行的大量实验证明了所提出的 TDNet 与最近一些最先进的全色锐化方法相比的优越性。消融研究也证实了所提出方法的有效性。
* 题目: SemanticStyleGAN: Learning Compositional Generative Priors for Controllable Image Synthesis and Editing
* 链接:
https://arxiv.org/abs/2112.02236* 作者: Yichun Shi,Xiao Yang,Yangyue Wan,Xiaohui Shen
* 其他: project page at this https URL
* 摘要: 最近的研究表明,StyleGAN 为图像合成和编辑的下游任务提供了有前景的先验模型。然而,由于 StyleGAN 的潜在代码旨在控制全局样式,因此很难实现对合成图像的细粒度控制。我们提出 SemanticStyleGAN,其中训练生成器以分别对局部语义部分进行建模并以组合方式合成图像。不同局部部分的结构和纹理由相应的潜在代码控制。实验结果表明,我们的模型提供了不同空间区域之间的强烈解开。当结合为 StyleGAN 设计的编辑方法时,它可以实现更细粒度的控制来编辑合成或真实图像。该模型还可以通过迁移学习扩展到其他领域。因此,作为具有内置解耦的通用先验模型,它可以促进基于 GAN 的应用程序的开发并实现更多潜在的下游任务。
* 题目: HHF: Hashing-guided Hinge Function for Deep Hashing Retrieval
* 链接:
https://arxiv.org/abs/2112.02225* 作者: Chengyin Xu,Zhengzhuo Xu,Zenghao Chai,Hongjia Li,Qiruyi Zuo,Lingyu Yang,Chun Yuan
* 摘要: 深度散列在大规模图像检索中表现出良好的性能。然而,/textbf{D}eep /textbf{N}eural /textbf{N}etwork(DNN)提取的潜在代码在二值化过程中不可避免地会丢失语义信息,这会损害检索效率并使其具有挑战性。尽管许多现有方法执行正则化以减轻量化误差,但我们发现度量和量化损失之间存在不兼容的冲突。度量损失惩罚类间距离,以将不同的类推远不受约束。更糟糕的是,它倾向于将潜在代码映射到偏离理想二值化点的位置,并在二值化过程中产生严重的歧义。基于二进制线性码的最小距离,/textbf{H}ashing-guided /textbf{H}inge /textbf{F}unction (HHF) 被提出来避免这种冲突。具体来说,我们精心设计了一个特定的拐点,它依靠哈希位长和类别数来平衡度量学习和量化学习。这种修改可以防止网络在深度散列中陷入局部度量最优最小值。在 CIFAR-10、CIFAR-100、ImageNet 和 MS-COCO 中进行的大量实验表明,HHF 始终优于现有技术,并且可以稳健且灵活地移植到其他方法中。
* 题目: Orientation Aware Weapons Detection In Visual Data : A Benchmark Dataset
* 链接:
https://arxiv.org/abs/2112.02221* 作者: Nazeef Ul Haq,Muhammad Moazam Fraz,Tufail Sajjad Shah Hashmi,Muhammad Shahzad
* 其他: Submitted this paper in Journal
* 摘要: 武器的自动检测对于提高个人的安全和福祉具有重要意义,但由于武器的大小、形状和外观多种多样,因此这是一项艰巨的任务。视点变化和遮挡也是使这项任务更加困难的原因。此外,当前的物体检测算法处理矩形区域,但是细长的步枪可能实际上只覆盖了一小部分区域,其余部分可能包含不重要的细节。为了克服这些问题,我们提出了一种用于定向感知武器检测的 CNN 架构,它提供了具有改进武器检测性能的定向边界框。所提出的模型不仅通过将角度分为八类来使用角度作为分类问题提供方向,而且还使用角度作为回归问题。为了训练我们的武器检测模型,我们从网络收集了一个包含总共 6400 张武器图像的新数据集,然后用面向位置的边界框手动注释。我们的数据集不仅提供定向边界框作为基本事实,还提供水平边界框。我们还提供多种格式的现代目标检测器数据集,以供在该领域进一步研究。所提出的模型在该数据集上进行评估,并且与现成的物体检测器的比较分析产生了所提出模型的优越性能,使用标准评估策略进行测量。数据集和模型实现在此链接中公开提供:此 https URL。
* 题目: Hyper-GAN: Transferring Unconditional to Conditional GANs with HyperNetworks
* 链接:
https://arxiv.org/abs/2112.02219* 作者: Héctor Laria,Yaxing Wang,Joost van de Weijer,Bogdan Raducanu
* 其他: 14 pages, 12 figures
* 摘要: 近年来,条件 GAN 已经成熟,能够生成高质量的逼真图像。然而,训练高质量 GAN 所需的计算资源和训练数据是巨大的,因此研究这些模型的迁移学习是一个紧迫的课题。在本文中,我们探讨了从高质量预训练无条件 GAN 到条件 GAN 的转移。为此,我们提出了基于超网络的自适应权重调制。此外,我们引入了一个不需要任何真实数据来初始化超网络参数的自初始化过程。为了进一步提高知识转移的样本效率,我们建议使用自监督(对比)损失来改进 GAN 鉴别器。在广泛的实验中,我们在几个标准基准上验证了超网络的效率、自初始化和知识转移的对比损失。
* 题目: Face Reconstruction with Variational Autoencoder and Face Masks
* 链接:
https://arxiv.org/abs/2112.02139* 作者: Rafael S. Toledo,Eric A. Antonelo
* 其他: 12 pages, 7 figures, 18th Encontro Nacional de Inteligência Artificial e Computacional (ENIAC)
* 摘要: 变分自动编码器 (VAE) 采用深度学习模型来学习一个连续的潜在 z 空间,该空间位于高维观察数据集的下方。有了这个,许多任务成为可能,包括人脸重建和人脸合成。在这项工作中,我们研究了面罩如何通过将学习限制在面罩选择的像素上来帮助训练 VAE 进行人脸重建。使用 celebA 数据集对提案进行的评估表明,重建的图像通过面罩得到增强,尤其是当 SSIM 损失与 l1 或 l2 损失函数一起使用时。我们注意到架构中包含用于面罩预测的解码器会影响 l1 或 l2 损失函数的性能,而 SSIM 损失则不然。此外,SSIM 感知损失在所有测试的假设中产生了最清晰的样本,尽管它改变了图像的原始颜色,使得 l1 或 l2 损失与 SSIM 一起使用有助于解决这个问题。
* 题目: Novel Local Radiomic Bayesian Classifiers for Non-Invasive Prediction of MGMT Methylation Status in Glioblastoma
* 链接:
https://arxiv.org/abs/2112.03259* 作者: Mihir Rao
* 摘要: 胶质母细胞瘤是一种侵袭性脑癌,是所有癌症中最致命的一种。 O6-甲基鸟嘌呤-DNA-甲基转移酶 (MGMT) 基因在胶质母细胞瘤肿瘤组织中的表达具有临床重要性,因为它对替莫唑胺的疗效有显着影响,替莫唑胺是胶质母细胞瘤患者的主要化疗药物。目前,MGMT 甲基化是通过侵入性脑活检和随后对提取的肿瘤组织的遗传分析来确定的。在这项工作中,我们提出了新的贝叶斯分类器,该分类器基于从 FLAIR 序列磁共振图像 (MRI) 中提取的放射组学特征对 MGMT 甲基化状态进行概率预测。我们实施局部放射组学技术来生成放射组学激活图,并根据原始体素强度的统计特征分析 MGMT 生物标志物的 MRI。我们展示了简单贝叶斯分类器在建模局部放射学数据而不是全局特征时提高预测性能的能力。所提出的技术提供了一种基于 MRI 的非侵入性方法来确定胶质母细胞瘤患者的 MGMT 甲基化状态。
* 题目: Functional Regularization for Reinforcement Learning via Learned Fourier Features
* 链接:
https://arxiv.org/abs/2112.03257* 作者: Alexander C. Li,Deepak Pathak
* 其他: Accepted at NeurIPS 2021. Website at this https URL
* 摘要: 我们通过将输入嵌入到学习的傅立叶基础中,提出了一种用于深度强化学习的简单架构,并表明它提高了基于状态和基于图像的 RL 的样本效率。我们使用神经切线核对我们的架构进行无限宽度分析,并从理论上表明,调整傅立叶基的初始方差等效于所学深度网络的功能正则化。也就是说,这些学习到的傅立叶特征允许调整网络在训练数据中不同频率的欠拟合或过拟合程度,从而提供一种受控机制来提高 RL 优化的稳定性和性能。从经验上讲,这使我们能够优先学习低频函数,并通过在优化过程中(例如在 Bellman 更新期间)降低网络对噪声的敏感性来加快学习速度。在标准的基于状态和基于图像的 RL 基准测试中的实验表明,我们的架构比基线具有明显的优势。位于此 https URL 的网站
* 题目: CALVIN: A Benchmark for Language-conditioned Policy Learning for Long-horizon Robot Manipulation Tasks
* 链接:
https://arxiv.org/abs/2112.03227* 作者: Oier Mees,Lukas Hermann,Erick Rosete-Beas,Wolfram Burgard
* 其他: this http URL
* 摘要: 在环境中与人类共存的通用机器人必须学会将人类语言与其感知和行动联系起来,以便在一系列日常任务中发挥作用。此外,他们需要掌握多种通用技能,从而可以通过遵循不受约束的语言指令来编写长期任务。在本文中,我们介绍了 CALVIN(从语言和视觉中组合动作),这是一个开源模拟基准,用于学习长期语言条件任务。我们的目标是开发能够从机载传感器长期解决许多机器人操作任务的代理,并且只能通过人类语言进行指定。 CALVIN 任务在序列长度、动作空间和语言方面比现有的视觉和语言任务数据集更复杂,并支持传感器套件的灵活规范。我们对新的语言指令和新的环境和对象进行零样本评估。我们表明基于多上下文模仿学习的基线模型在 CALVIN 上表现不佳,这表明开发创新代理有很大的空间,这些代理学习使用该基准将人类语言与其世界模型联系起来。
* 题目: Prototypical Model with Novel Information-theoretic Loss Function for Generalized Zero Shot Learning
* 链接:
https://arxiv.org/abs/2112.03134* 作者: Chunlin Ji,Hanchu Shen,Zhan Xiong,Feng Chen,Meiying Zhang,Huiwen Yang
* 摘要: 广义零样本学习(GZSL)仍然是深度学习的技术挑战,因为它必须在没有目标类数据的情况下识别源类和目标类。为了在仅使用来自源类的数据进行训练时保留源类和目标类之间的语义关系,我们从信息论的角度解决了知识转移和语义关系的量化问题。为此,我们遵循原型模型并将关注的变量格式化为概率向量。利用所提出的概率向量表示,可以用简单的封闭形式有效地评估互信息和熵等信息度量。我们讨论了使用原型模型时公共嵌入空间和距离函数的选择。然后,我们为确定性 GZSL 模型提出了三种信息论损失函数:一种用于连接可见数据和目标类别的互信息损失;不确定性感知熵约束损失,以防止在使用可见数据学习目标类嵌入时过度拟合;语义保留交叉熵损失以在将语义表示映射到公共空间时保留语义关系。仿真表明,作为确定性模型,我们提出的方法在 GZSL 基准数据集上获得了最先进的结果。我们比基线模型——深度校准网络 (DCN) 实现了 21%-64% 的改进,并首次证明了确定性模型的性能与生成模型一样好。此外,我们提出的模型与生成模型兼容。模拟研究表明,通过与 f-CLSWGAN 结合,我们获得了与高级生成模型相比的可比结果。
* 题目: Scaling Up Influence Functions
* 链接:
https://arxiv.org/abs/2112.03052* 作者: Andrea Schioppa,Polina Zablotskaia,David Vilar,Artem Sokolov
* 其他: Published at AAAI-22
* 摘要: 我们解决了影响函数的有效计算,以将预测跟踪回训练数据。我们提出并分析了一种基于 Arnoldi 迭代加速逆 Hessian 计算的新方法。通过这种改进,据我们所知,我们实现了影响函数的首次成功实现,该函数可扩展到具有数亿个参数的全尺寸(语言和视觉)Transformer 模型。我们使用数千万到数亿个训练示例来评估我们在图像分类和序列到序列任务上的方法。我们的代码将在此 https URL 中提供。
* 题目: Tunable Image Quality Control of 3-D Ultrasound using Switchable CycleGAN
* 链接:
https://arxiv.org/abs/2112.02896* 作者: Jaeyoung Huh,Shujaat Khan,Sungjin Choi,Dongkuk Shin,Eun Sun Lee,Jong Chul Ye
* 摘要: 与用于单轴平面成像的 2-D 超声 (US) 相比,3-D US 成像系统可以沿着三个轴平面可视化体积。这允许全面查看解剖结构,这对于妇科 (GYN) 和产科 (OB) 应用非常有用。不幸的是,与 2-D US 相比,3-D US 在分辨率上有一个固有的限制。例如,在使用 3-D 机械探头的 3-D US 的情况下,图像质量沿光束方向相当,但在其他两个轴向图像平面中经常观察到图像质量显着下降。为了解决这个问题,我们在这里提出了一种新颖的无监督深度学习方法来提高 3-D US 图像质量。特别是,使用 {/em unmatched} 高质量 2-D US 图像作为参考,我们训练了最近提出的可切换 CycleGAN 架构,以便 3-D US 中的每个映射平面都可以学习 2-D US 图像的图像质量.由于采用了可切换架构,我们的网络还可以根据用户偏好实时控制图像增强级别,这非常适合以用户为中心的扫描仪设置。广泛的临床评估实验证实,我们的方法显着提高了图像质量以及用户友好的灵活性。
* 题目: Joint Learning of Localized Representations from Medical Images and Reports
* 链接:
https://arxiv.org/abs/2112.02889* 作者: Philip Müller,Georgios Kaissis,Congyu Zou,Daniel Rückert
* 其他: 14 pages, 3 figures, 2 tables
* 摘要: 对比学习已被证明可有效地对未标记数据的图像模型进行预训练,并且在医学图像分类等任务中取得了有希望的结果。在预训练期间使用配对的文本和图像(例如放射学报告和图像)进一步改善了结果。尽管如此,大多数现有方法都将图像分类作为下游任务,对于语义分割或对象检测等局部任务可能不是最佳选择。因此,我们建议从视觉和文本 (LoVT) 中进行局部表征学习,据我们所知,这是第一种针对局部医学成像任务的文本监督预训练方法。我们的方法将实例级图像报告对比学习与图像区域和报告句子表示的局部对比学习相结合。我们在一个新的评估框架上评估 LoVT 和常用的预训练方法,该框架由来自五个公共数据集的胸部 X 射线的 18 个局部任务组成。虽然没有单一的最佳方法,但 LoVT 在 18 项研究任务中的 11 项上表现最佳,使其成为本地化任务的首选方法。
* 题目: AdaSTE: An Adaptive Straight-Through Estimator to Train Binary Neural Networks
* 链接:
https://arxiv.org/abs/2112.02880* 作者: Huu Le,Rasmus Kjær Høier,Che-Tsung Lin,Christopher Zach
* 其他: 18 pages
* 摘要: 我们提出了一种新算法,用于训练具有二进制权重的深度神经网络 (DNN)。特别是,我们首先将训练二元神经网络 (BiNN) 的问题作为双层优化实例,然后构建该双层程序的灵活松弛。由此产生的训练方法与几种现有的 BiNN 训练方法共享其算法简单性,特别是在 BinaryConnect 和后续方法中成功采用的直通梯度估计器。事实上,我们提出的方法可以解释为原始直通估计器的自适应变体,它有条件地(但并非总是)在误差传播的反向传播中起到线性映射的作用。实验结果表明,与现有方法相比,我们的新算法具有良好的性能。
* 题目: A comparison study of CNN denoisers on PRNU extraction
* 链接:
https://arxiv.org/abs/2112.02858* 作者: Hui Zeng,Morteza Darvish Morshedi Hosseini,Kang Deng,Anjie Peng,Miroslav Goljan
* 其他: 12 pages, 6 figures, 4 tables
* 摘要: 基于传感器的相机识别 (SCI) 方法的性能在很大程度上依赖于估计光响应非均匀性 (PRNU) 的降噪滤波器。鉴于提高提取的 PRNU 质量的各种尝试,它在低分辨率图像和高计算需求方面的性能仍然不尽如人意。利用 PRNU 估计和图像去噪的相似性,我们利用基于卷积神经网络 (CNN) 的降噪器的最新成果进行 PRNU 提取。在本文中,在公共“德累斯顿图像数据库”上对此类CNN降噪器对SCI性能进行了比较评估。我们的发现有两个方面。一方面,PRNU 提取和图像去噪都将噪声从图像内容中分离出来。因此,如果经过仔细训练,SCI 可以从最近的 CNN 降噪器中受益。另一方面,PRNU提取和图像去噪的目标和场景不同,一个优化噪声质量,另一个优化图像质量。当 CNN 降噪器用于 PRNU 估计时,需要精心定制的训练。对训练数据准备和损失函数设计的替代策略进行了理论分析和实验评估。我们指出,用图像-PRNU 对馈送 CNN 并用基于相关的损失函数训练它们会导致最佳的 PRNU 估计性能。为了促进对 SCI 的进一步研究,我们还提出了一种最小损失相机指纹量化方案,使用该方案我们将指纹保存为 PNG 格式的图像文件。此外,我们公开了“德累斯顿图像数据库”中摄像机的量化指纹。
* 题目: DemoGrasp: Few-Shot Learning for Robotic Grasping with Human Demonstration
* 链接:
https://arxiv.org/abs/2112.02849* 作者: Pengyuan Wang,Fabian Manhardt,Luca Minciullo,Lorenzo Garattoni,Sven Meie,Nassir Navab,Benjamin Busam
* 其他: Accepted by IROS 2021
* 摘要: 成功抓取物体的能力在机器人技术中至关重要,因为它支持多个交互式下游应用程序。为此,大多数方法要么计算感兴趣对象的完整 6D 姿势,要么学习预测一组抓取点。虽然前一种方法还不能很好地扩展到多个对象实例或类,但后者需要大量带注释的数据集,并且受到它们对新几何的泛化能力较差的阻碍。为了克服这些缺点,我们建议通过简单而简短的人类演示来教机器人如何抓取物体。因此,我们的方法既不需要许多带注释的图像,也不限于特定的几何形状。我们首先展示了一小段 RGB-D 图像,显示了人与物体的交互。然后利用该序列来构建表示所描绘交互的相关手和对象网格。随后,我们完成重建对象形状的缺失部分,并估计重建与场景中可见对象之间的相对变换。最后,我们将物体和人手之间的相对姿势的先验知识与场景中当前物体姿势的估计转移到机器人必要的抓取指令中。丰田人类支持机器人 (HSR) 在真实和合成环境中的详尽评估证明了我们提出的方法的适用性及其与以前的方法相比的优势。
* 题目: A Dataset of Stationary, Fixed-wing Aircraft on a Collision Course for Vision-Based Sense and Avoid
* 链接:
https://arxiv.org/abs/2112.02735* 作者: Jasmin Martin,Jenna Riseley,Jason J. Ford
* 摘要: 到 2026 年,新兴的全球无人机 (UAV) 服务市场预计将达到 584 亿美元,这将促使人们做出重大努力,以不损害现有安全水平的方式将常规无人机操作安全地整合到国家空域中。无人机的商业用途将通过感知和避免潜在的空中碰撞威胁的能力得到加强,但是该领域的研究因缺乏可用数据集而受到阻碍,因为它们价格昂贵且技术复杂,难以捕获。在本文中,我们提出了一个基于视觉的飞机检测数据集。该数据集由 15 个图像序列组成,其中包含 55,521 张固定翼飞机接近静止、接地相机的图像。还提供了基本事实标签和性能基准。据我们所知,这是第一个用于研究与观察者发生碰撞的中型固定翼飞机的公共数据集。完整数据集和真实标签可在此 https URL 上公开获取。
* 题目: Real-time Virtual Intraoperative CT for Image Guided Surgery
* 链接:
https://arxiv.org/abs/2112.02608* 作者: Yangming Li,Neeraja Konuthula,Ian M. Humphreys,Kris Moe,Blake Hannaford,Randall Bly
* 摘要: 抽象的。目的:本文提出了一种生成虚拟术中 CT 扫描的方案,以提高内窥镜鼻窦手术 (ESS) 的手术完整性。方法:这项工作提出了三种方法,基于尖端运动、基于尖端轨迹和基于仪器,以及非参数平滑和高斯过程回归,用于虚拟术中 CT 生成。结果:所提出的方法对在尸体上执行的 ESS 进行了研究和比较。手术结果表明,所有三种方法都将骰子相似系数提高了 > 86%,F 得分 > 92% 和精度 > 89.91%。发现基于尖端轨迹的方法具有最佳性能,在手术完整性评估中达到了 96.87% 的精度。结论:这项工作表明,虚拟术中 CT 扫描提高了实际手术场景与参考模型之间的一致性,并提高了 ESS 中的手术完整性。与实际术中 CT 扫描相比,该方案对现有手术方案没有影响,除了大多数 ESS 中已有的硬件外,不需要额外的硬件,克服了实际术中导致的高成本、重复辐射和麻醉时间延长CTs,在ESS中很实用。
* 题目: Generative Modeling of Turbulence
* 链接:
https://arxiv.org/abs/2112.02548* 作者: Claudia Drygala,Benjamin Winhart,Francesca di Mare,Hanno Gottschalk
* 摘要: 我们提出了一种数学上有根据的方法,用于使用生成对抗网络 (GAN) 对湍流进行合成建模。基于在遍历性方面对混沌确定性系统的分析,我们概述了一个数学证明,即 GAN 实际上可以学习从混沌系统的不变测度中采样状态快照。基于此分析,我们从洛伦兹吸引子开始研究混沌系统的层次结构,然后使用 GAN 对湍流进行建模。作为训练数据,我们使用从大涡模拟 (LES) 获得的速度波动场。详细研究了两种架构:我们使用深度卷积 GAN (DCGAN) 来合成圆柱周围的湍流。我们进一步使用 pix2pixHD 架构模拟低压涡轮定子周围的流动,用于条件 DCGAN 以定子前旋转尾流的位置为条件。解释了对抗训练的设置和使用特定 GAN 架构的效果。因此,我们表明 GAN 在中等数量的训练数据的基础上,在模拟具有技术挑战性的流动问题中的湍流方面是有效的。与经典数值方法(尤其是 LES)相比,GAN 训练和推理时间明显缩短,同时仍能提供高分辨率的湍流。
* 题目: Exploring Complicated Search Spaces with Interleaving-Free Sampling
* 链接:
https://arxiv.org/abs/2112.02488* 作者: Yunjie Tian,Lingxi Xie,Jiemin Fang,Jianbin Jiao,Qixiang Ye,Qi Tian
* 其他: 9 pages, 8 figures, 6 tables
* 摘要: 现有的神经架构搜索算法主要用于具有短距离连接的搜索空间。我们认为,这种设计虽然安全且稳定,但会阻碍搜索算法探索更复杂的场景。在本文中,我们在具有长距离连接的复杂搜索空间上构建搜索算法,并表明现有的权重共享搜索算法由于/textbf{交错连接}的存在而大多失败。基于观察,我们提出了一种简单而有效的算法 /textbf{IF-NAS},我们在搜索过程中执行周期性采样策略来构建不同的子网络,避免在其中任何一个中出现交错连接。在建议的搜索空间中,IF-NAS 的性能明显优于随机采样和以前的权重共享搜索算法。 IF-NAS 还可以推广到更容易的基于微单元的空间。我们的研究强调宏观结构的重要性,我们期待沿着这个方向进一步努力。
* 题目: Predicting Axillary Lymph Node Metastasis in Early Breast Cancer Using Deep Learning on Primary Tumor Biopsy Slides
* 链接:
https://arxiv.org/abs/2112.02222* 作者: Feng Xu,Chuang Zhu,Wenqi Tang,Ying Wang,Yu Zhang,Jie Li,Hongchuan Jiang,Zhongyue Shi,Jun Liu,Mulan Jin
* 其他: Accepted by Frontiers in Oncology, for more details, please see this https URL
* 摘要: 目的:开发并验证基于深度学习 (DL) 的原发肿瘤活检特征,用于预测具有临床阴性 ALN 的早期乳腺癌 (EBC) 患者的术前腋窝淋巴结 (ALN) 转移。方法:从 2010 年 5 月至 2020 年 8 月,共有 1,058 名经病理证实为 ALN 状态的 EBC 患者入组。利用 DL 特征预测 ALN 状态,这些特征是从两位病理学家注释的乳腺 CNB 标本的数字化全幻灯片图像 (WSI) 的癌症区域中提取的。分析了准确性、敏感性、特异性、受试者工作特征 (ROC) 曲线和 ROC 曲线下面积 (AUC) 以评估我们的模型。结果:以 VGG16_BN 作为特征提取器的性能最佳的 DL-CNB 模型在预测独立测试队列中的阳性 ALN 转移时的 AUC 为 0.816(95% 置信区间 (CI):0.758, 0.865)。此外,我们的模型结合了临床数据,称为 DL-CNB+C,产生了 0.831 的最佳准确度(95%CI:0.775,0.878),尤其是对于 50 岁以下的患者(AUC:0.918,95%CI: 0.825、0.971)。 DL-CNB 模型的解释表明,最能预测 ALN 转移的顶级特征的特征在于细胞核特征,包括密度 ($p$ = 0.015)、周长 ($p$ = 0.009)、圆形度 ($p$ = 0.010) , 和方向 ($p$ = 0.012)。结论:我们的研究为原发性肿瘤 CNB 载玻片提供了一种新的基于 DL 的生物标志物,以预测 EBC 患者术前 ALN 的转移状态。
* 题目: Bridging the gap between prostate radiology and pathology through machine learning
* 链接:
https://arxiv.org/abs/2112.02164* 作者: Indrani Bhattacharya,David S. Lim,Han Lin Aung,Xingchen Liu,Arun Seetharaman,Christian A. Kunder,Wei Shao,Simon J. C. Soerensen,Richard E. Fan,Pejman Ghanouni,Katherine J. To'o,James D. Brooks,Geoffrey A. Sonn,Mirabela Rusu
* 其他: Indrani Bhattacharya and David S. Lim contributed equally as first authors. Geoffrey A. Sonn and Mirabela Rusu contributed equally as senior authors
* 摘要: 前列腺癌是美国男性第二大致命癌症。虽然磁共振成像 (MRI) 越来越多地用于指导前列腺癌诊断的靶向活组织检查,但由于假阳性和假阴性的高比率以及阅读器之间的低一致性,其效用仍然有限。在前列腺 MRI 上检测和定位癌症的机器学习方法可以帮助标准化放射科医生的解释。然而,现有的机器学习方法不仅在模型架构上有所不同,而且在用于模型训练的地面实况标记策略上也有所不同。在这项研究中,我们比较了不同的标记策略,即病理学确认的放射科医师标签、整体组织病理学图像上的病理学家标签,以及病变级和像素级数字病理学家标签(先前在组织病理学图像上验证的深度学习算法以预测像素级 Gleason 模式)在整体组织病理学图像上。我们分析了这些标签对经过训练的机器学习模型性能的影响。我们的实验表明,(1) 放射科医生标签和用它们训练的模型可能会遗漏癌症,或低估癌症程度,(2) 数字病理学家标签和用它们训练的模型与病理学家标签高度一致,以及 (3) 用数字病理学家训练的模型标签在具有不同疾病分布的两个不同队列中实现了前列腺癌检测的最佳性能,而与使用的模型架构无关。数字病理学家标签可以减少与人工注释相关的挑战,包括劳动、时间、读者间和读者内的变异性,并且可以通过训练可靠的机器学习模型来检测和定位前列腺癌,帮助缩小前列腺放射学和病理学之间的差距在 MRI 上。