hwyzw 发表于 2025-2-2 03:26:53

计算机视觉中CNN研究的动机:理论理解与结果解释的探索

    第1章

    介绍

    1。本文的动机

    在过去的几年中,计算机视觉研究主要集中在卷积神经网络(通常称为或CNN)上,并在迄今为止在大量分类和回归任务中取得了最佳性能。尽管这些方法的历史可以追溯到许多年前,但相对而言,对这些方法的理论理解和对结果的解释是相对较浅的。

    实际上,计算机视觉领域的许多结果都将CNN视为黑匣子。尽管这种方法有效,但结果的解释是模糊的,无法满足科学研究的需求。特别是当这两个问题是互补关系时:

    在学习方面(例如卷积核),它到底要学习什么?

    https://img2.baidu.com/it/u=3574150588,1655710379&fm=253&fmt=JPEG&app=138&f=JPEG?w=500&h=654

    在模型结构设计方面(例如卷积层的数量,卷积内核的数量,合并策略的选择以及非线性功能),为什么某些组合比其他组合更好?这些问题的答案不仅有利于我们对卷积神经网络的更好理解,而且还可以进一步增强其工程实用性。

    此外,当前的CNN实施方法需要大量的培训数据,并且该模型的设计方案对最终结果有很大的影响。更深的理论理解应减少模型对数据的依赖性。尽管大量研究集中在卷积神经网络的实施上,但到目前为止,这些研究结果在很大程度上仅限于可视化卷积操作的内部处理。层的变化。

    我有一些阿里巴巴云的幸运课程可以与您分享。购买或升级阿里巴巴云的相应产品,您将有特殊的惊喜!了解您要购买的产品的所有幸运优惠券!快点,立即抓住光。

    2。本文的目标

    为了回应上述问题,本文将回顾一些当前最佳的多层次卷积结构模型。更重要的是,本文还将通过不同的方法总结标准卷积神经网络的各种组成部分,并介绍它们基于它们的生物学或合理的理论基础。此外,本文还将介绍如何通过可视化方法和实例研究来了解卷积神经网络内部的变化。我们的最终目标是详细显示卷积神经网络中涉及的每个卷积层操作,重点是强调当前最先进的卷积神经网络模型,并解释将来仍然需要解决的问题。

    第二章

    多层网络结构

    近年来,在深度学习或深度神经网络成功之前,最先进的计算机视觉识别方法由两个步骤组成。这两个步骤是分开但互补的:

    https://img0.baidu.com/it/u=1332623689,3595635716&fm=253&fmt=JPEG&app=138&f=JPEG?w=911&h=500

    首先,我们需要通过人工设计操作(例如卷积,本地或全局编码方法)将输入数据转换为适当的表格。这种输入变化的形式通常是输入数据的紧凑或抽象表示。同时,有必要根据当前任务的需求手动设计一些不变性。通过这种转换,我们可以签名为更易于分离或识别的形式,这有助于后续的识别分类。

    其次,转换数据通常用作由分类器(例如向量机)训练的输入信号。一般而言,任何分类器的性能都将受到转换数据质量和所使用的转换方法的影响。

    多层神经网络结构的出现带来了解决此问题的新方法。这种多层结构不仅可以训练目标分类器,而且还可以直接从输入数据中学习所需的转换操作。这种学习方式通常称为表示学习。将其应用于深度或多层神经网络结构时,我们称其为深度学习。

    多层神经网络定义为一种计算模型,该模型从输入数据的层次抽象中提取有用的信息。一般而言,设计多层网络结构的目的是突出显示在高层处输入数据的重要信息,与此同时,它可以使这些不重要的信息更改更强大。

    近年来,研究人员提出了许多不同类型的多层体系结构,并且大多数多层神经网络已将一些线性和非线性函数模块组合在一起,以在堆栈中形成多层层结构。本章将涵盖计算机视觉应用程序中最先进的多层神经网络结构。其中,人工神经网络是我们需要的重点,因为该网络结构的性能非常突出。为了方便起见,我们将直接将这种类型的网络称为下面的神经网络。

    原始链接
页: [1]
查看完整版本: 计算机视觉中CNN研究的动机:理论理解与结果解释的探索