中国的这篇AI论文介绍了UniRepLKNet：在图像、音频和时序数据分析中开创性地引入大核心ConvNet架构，以提高跨模态性能

<img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/Screenshot-2023-12-15-at-7.10.23-PM-1024×689.png” /><img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/Screenshot-2023-12-15-at-7.10.23-PM-150×150.png” />近年来，卷积神经网络（CNNs）在图像识别领域成为了一种流行的技术。它们在目标检测、分类和分割任务中取得了极高的成功。然而，随着这些网络变得更加复杂，也出现了新的挑战。来自腾讯人工智能实验室和香港中文大学的研究人员提出了四条指导方针，以解决大内核CNNs中的架构挑战。这些指导方针旨在通过将大内核的应用扩展到超越视觉任务的领域，如时间序列预测和音频识别，以提高图像识别的效果。UniRepLKNet探索了具有非常大内核的ConvNets的功效，将其扩展到点云数据、时间序列预测、音频和视频识别等领域。尽管以前的研究以不同的方式引入了大内核，但UniRepLKNet专注于使用这些内核的ConvNets的架构设计。它在三维模式学习、时间序列预测和音频识别方面优于专门模型。尽管视频识别精度略低于技术模型，但UniRepLKNet是一个从头开始训练的通用模型，提供了在各种领域中的多功能性。UniRepLKNet引入了用于具有大内核ConvNets的架构指南，强调宽广的覆盖面而不过度深入细节。这些指导方针解决了Vision Transformers（ViTs）的局限性，专注于高效的结构、重新参数化卷积层、基于任务的内核大小和整合3×3卷积层。UniRepLKNet在图像识别方面优于现有的大内核ConvNets和近期架构，展示了其高效性和准确性。它在超越视觉的任务中展示了普遍的感知能力，在时间序列预测和音频识别方面表现出色。UniRepLKNet展示了在学习点云数据中的三维模式上的多才多艺，超过了专门的ConvNet模型。该研究为大内核ConvNets引入了四条架构指南，强调大内核的独特特性。UniRepLKNet遵循这些指南，利用大内核在图像识别中超越竞争对手。它展示了普遍的感知能力，在时间序列预测和音频识别方面表现出色，而无需特定的自定义。UniRepLKNet在学习点云数据中的三维模式方面也显示出多样性，超过了专门的ConvNet模型。引入了膨胀再参数块以增强非膨胀大内核卷积层的性能。UniRepLKNet的架构将大内核与膨胀卷积层相结合，捕捉小尺度和稀疏模式以提高特征质量。UniRepLKNet的架构在图像识别任务中取得了一流的性能，具有88.0％的ImageNet准确率，55.6％的ADE20K mIoU和56.4％的COCO box AP。在全球温度和风速预测挑战中，它在时间序列预测和音频识别方面的MSE和MAE方面优于竞争对手，展示了其普遍的感知能力。UniRepLKNet在学习点云数据中的三维模式方面表现出色，超过了专门的ConvNet模型。该模型在语义分割等下游任务中展示出有希望的结果，证实了其在各个领域中的卓越性能和效率。总之，研究的要点可以概括如下：<ul><li>该研究为大内核ConvNets引入了四条架构指南</li><li>这些指导方针强调了大内核ConvNets的独特特性</li><li>UniRepLKNet是根据这些指导方针设计的ConvNet模型，在图像识别任务中优于竞争对手</li><li>UniRepLKNet展示了普遍的感知能力，在时间序列预测和音频识别方面表现出色，无需定制</li><li>UniRepLKNet在学习点云数据中的三维模式方面具有多样性，超过了专门的模型</li><li>该研究引入了膨胀再参数块，增强大内核卷积层的性能</li><li>该研究提供了宝贵的架构指南，介绍了UniRepLKNet及其能力，并提出了膨胀再参数块的概念</li></ul>