为什么大多数神经网络都先升维再降维

484
1 分钟阅读
为什么大多数神经网络都先升维再降维
"AI摘要: AI摘要: 为什么大多数神经网络都先升维再降维,从知乎中看到了一个非常硬核的理论分析:https://www.zhihu.com/question/1956421703728076399/answer/2035006358764905189,虽然看不懂,但是这里浅浅地记录一下。"

为什么大多数的神经网络都先升维再降维?

在知乎里面看到了一篇非常硬核的理论分析,其中想要完全看懂,需要至少掌握:

  1. 机器学习中《西瓜书》里的 VC 维(书中对这个有讨论,但是只有一点点)
  2. 泛函分析
  3. 随机过程

还是受限于“书到用时方恨少”,知识能力不足,吃了没文化的亏,导致不是能完全看懂这个分析文章

这里简短描述下哲学思想:

  1. 低维空间复杂的,不可分的任务,在高维空间很有可能是可分的,容易解的,这就意味着,一个很难的任务不过是高维空间中简单任务的投影(张一鸣语录中也有这个描述)
  2. 神经网络中处理的大多数都是不可分的,因此投影到高维空间,变得线性可分,从而简单求解
  3. 这种思想在传统机器学习中早有体现,那就是SVM,只不过需要手工设计核函数(之前的数学家们设计了非常多的性质良好的核函数,比如高斯核),而神经网络的升维也是核函数,不过是是动态的,可自动学习的,隐试的核函数。