5.卷积神经网络 - 五、历史和现状 - 《AI算法工程师手册》

卷积神经网络是用反向传播训练的第一个有效的深度神经网络之一。
卷积神经网络提供了一种方法来特化神经网络，从而处理具有网格结构拓扑的数据。

这种方法在二维图像上是最成功的。

5.2 神经科学基础

图像传输到大脑的流程可以简化为：
- 图像从光到达眼睛并刺激视网膜。
- 视网膜中的神经元对图像进行一些简单的预处理，但是基本不改变图像的表达方式。
- 图像通过视神经，以及称作外侧膝状体的脑部区域。
神经生理学家和 Torsten Wiesel 观察了猫的脑内神经元的视觉响应发现：处于视觉系统较为前面的神经元对于特定的光模式反应最强烈，但是对于其它光模式几乎完全没有反应。
卷积层被设计为描述的三个性质：
- 分布在空间中。
  
  它实际上具有二维结构来映射视网膜中的图像，视网膜下半部的光仅仅影响相应的一半。
  
  卷积网络通过用二维映射定义特征的方式来描述该特性。
- 包含许多简单细胞。
  
  卷积网络的卷积单元被设计为模拟简单细胞。
- 还包括许多复杂细胞。
  - 复杂细胞对于特征的位置的微小偏移具有不变性。
    
    这通过卷积网络的最大池化单元来刻画。
  - 复杂细胞对于照明中的一些变化也是不变的。
    
    它不能简单地通过在空间位置上池化来刻画。它也激发了卷积网络中的一些跨通道池化策略，如单元。
一般认为：类似于的原理也适用于视觉系统的其他区域。
在大脑中人们找到了响应一些特定概念的细胞，并且这种细胞对于输入的许多种变换都具有不变性。

这些细胞被称作祖母细胞，存在于内侧颞叶的区域。

一个人可能有这样的一个神经元，当他看到祖母的照片时，该神经元被激活。无论祖母出现在照片的哪个位置、无论是祖母的脸部还是全身、无论是光亮还是黑暗。
动物的视觉系统与卷积网络的主要区别：
- 人眼大部分是非常低的分辨率，除了一个被称作中央凹的小块（手臂远的拇指大小的区域）。而大多数卷积网络实际上接收到的是一张高分辨率的照片。
  - 虽然人们觉得可以看到高分辨率的整个场景，但是这是大脑的潜意识创建的错觉。因为大脑缝合了人们瞥见的若干个小区域。
  - 人类大脑控制几次眼动（称作扫视），从而瞥见场景中最显眼的或者任务相关的部分。这称作注意力机制。
    
    目前注意力机制在自然语言处理中大获成功。
- 人类视觉系统集成了许多其他感觉（如听觉，以及心情想法之类的因素），而卷积网络目前为止纯粹是视觉的。
- 人类视觉系统不仅用于识别对象，它还能够理解整个场景：包括多个对象、对象之间的关系、人们的身体与世界交互所需要的丰富的三维几何信息。而卷积神经网络在这些问题上还是起步阶段。
- 大脑可能使用非常不同的激活函数、卷积函数、池化函数。单个神经元的激活可能并不能通过单个线性过滤器的响应来很好的表征。

五、 历史和现状

5.2 神经科学基础

五、历史和现状