阅读链接:链接
本文提出了一种新概念,称为可编程梯度信息(Programmable Gradient Information,PGI),旨在解决深度学习网络中数据在逐层特征提取和空间变换过程中的丢失问题。PGI旨在为计算目标函数提供完整的输入信息,确保用于网络权重更新的可靠梯度信息。除了PGI,作者还提出了一种新的轻量级网络架构,称为泛化高效层聚合网络(Generalized Efficient Layer Aggregation Network,GELAN),该架构基于梯度路径规划设计。GELAN利用常规卷积算子实现比使用深度卷积的最新方法更高的参数利用率。通过在MS COCO数据集上的目标检测任务证明了GELAN和PGI的有效性,这种方法让从零开始训练的模型性能超过了在大型数据集上预训练的模型。
问题描述 信息瓶颈理论信息瓶颈原则强调了数据X在深度神经网络中变换时不可避免的信息损失;它表明,信息丢失的可能性随每一层增加,可能导致由于预测目标信息不完整而产生的不可靠梯度和不良网络收敛。为解决这个问题,一种提议的方法是通过增加模型参数来扩大模型,以实现更全面的数据转换,从而提高保留足够信息以实现准确目标映射的可能性。然而,这种做法并没有解决非常深层网络中不可靠梯度的根本问题。作者建议探索可逆函数作为可能的解决途径,以在整个网络中保持信息完整性,旨在通过各层保留关键数据来实现更好的收敛。
可逆的功能可逆函数的概念意味着一个函数及其逆向函数可以转换数据而不丢失信息。这一原则应用于像PreAct ResNet这样的架构,确保数据在层间传递时不丢失信息,有助于深度网络的收敛,但可能会削弱深度在解决复杂问题时的优势。利用信息瓶颈理论进行的分析表明,保留从数据到目标的关键映射对于训练的有效性至关重要,尤其是在轻量级神经网络模型中。目标是开发一种新的训练方法,生成可靠的梯度信息以更新模型,并且适合浅层和轻量级神经网络,解决数据转换过程中信息损失的核心问题。
如何做 可编程梯度信息功能PGI 包含三个组成部分:一个主要分支,用于进行无需额外费用的推理;一个可逆的辅助分支,用于抵消网络深度带来的负面影响;以及多层次的辅助信息输入,用于减轻深度监督和轻量化多预测分支模型中的误差累积。
可逆的辅助分支辅助可逆部分有助于从数据到目标保持完整的信息流,降低了由于特征不完整而产生的虚假关联的可能性。然而,将可逆架构与主分支集成会大大提高了推理成本。为了抵消这一点,PGI 视可逆分支为深度监督的一种扩展,提高了主分支捕获相关信息的能力,而不需要保存完整的原始数据。这种方法不仅促进了有效的参数学习,还能应用于较浅的网络。重要的是,辅助可逆分支在推理时可被省略,从而保留了网络原有的推理效率。
多级辅助信息此组件旨在解决深度监督架构中的信息损失问题,特别是在使用多个预测分支和特征金字塔来检测不同大小对象的目标检测任务中。该组件在网络的特征金字塔层和主分支之间加入了一个中间层,用于合并来自各预测头的梯度信息。这种集成确保了每个特征金字塔都能接收到全面的目标对象信息,使得每个特征金字塔都能全面接收目标对象的信息,从而使主分支能够保留学习各种目标预测所需的完整信息。通过聚合包含所有目标对象数据的梯度信息,防止主分支的学习偏向于特定对象的信息,从而缓解了深度监督架构中的碎片化信息问题。
实验(shiyan)YOLOv9 在各种尺寸的模型中超越了现有的实时目标检测器,提高了精度,减少了参数和计算需求。具体来说,YOLOv9 在效率上超越了轻量级和中型模型,如 YOLO MS,在参数和计算量显著减少的情况下,与通用模型如 YOLOv7 AF 的性能相当,并在效率和精度上均超越了大型模型 YOLOv8-X。
此外,与使用深度可分离卷积或ImageNet预训练的模型相比,YOLOv9在参数利用和计算效率方面表现更佳。YOLOv9的成功,尤其是在深度模型中,归功于PGI,它增强了保留和提取关键信息的能力,这些信息对于数据到目标的映射至关重要,从而在减少参数和计算需求的同时提高了性能。
消融实验- CSP模块被识别为特别有效,通过减少参数和提高准确性来提升性能,因此被选中用于YOLOv9中的GELAN。
- GELAN的性能对模块深度不太敏感,这使得设计灵活的架构而不影响稳定性成为可能。
- 使用PGI的辅助监督来实现深度监督的概念,在深层模型中展示了显著的提升。
共同学习,写下你的评论
评论加载中...
作者其他优质文章