第254章倒行逆施（1 / 2）

像图象识别、语音识别这类认知性的任务，AI之所以做得好，是因为这些任务是静态的，所谓静态就是给定输入，预测结果不会随着时间改变。

但是决策性问题，往往和环境有很复杂的交互，在某些场景里面，如何做最优决策，这些最优决策往往是动态的，会随着时间改变。

现在有人尝试把AI用到金融市场，例如如何用AI技术来分析股票，预测股票涨跌，对股票交易给出建议，甚至是代替人来进行股票交易，这类问题就是动态决策性问题。

决策性问题的第二个难点在于各种因素相互影响，牵一发而动全身。

一支股票的涨跌会对其他股票产生影响，一个人的投资决策，特别是大的机构的投资决策，可能会对整个市场产生影响，这就和静态的认知性任务不一样的。

在静态认知性任务我们的预测结果不会对问题（例如其他的图像或者语音）产生任何影响。

但是在股票市场，任何一个决定，特别是大的机构的投资策略会对整个市场产生影响，对别的投资者产生影响，对将来会产生影响。

当前深度学习已经在静态任务里面取得了很大的成功，如何把这种成功延续和扩展到这种复杂的动态决策问题中，也是当前一个深度学习的挑战之一。

章杉认为，一个可能的思路是博弈机器学习。

在博弈机器学习里，通过观察环境和其他个体的行为，对每个个体构建不同的个性化行为模型，AI就可以三思而后行。

选择一个最优策略，该策略会自适应环境的变化和其他个体的行为的改变。

……

章杉在这篇论文继提出了一种几乎是完全反深度学习思路的机器学习——浅度学习。

强调增强博弈机器学习的重要性，强调AI的逻辑性和思辨性，大幅度降低“机器学习”任务量。

毫无疑问，这是一种全新的机器学习方式！

最起码，这种全新的模型在处理动态信息上取得的成绩将是革命性的。

浅度学习名字听起来有点怪异！

之所以不叫听起来更直白明了的浅层学习。

是因为事实上浅层学习曾经出现在历史的舞台上！

由于人工神经网络的反向传播算法（也叫Back Propagation算法或者BP算法）的发明，给机器学习带来了希望，掀起了“基于统计模型“的机器学习热潮。这个热潮一直持续到今天。人们发现，利用BP算法可以让一个人工神经网络模型从大量训练样本中学习出统计规律，从而对未知事件做预测。这种基于统计的机器学习方法比起过去基于人工规则的系统，在很多方面显示出优越性。这个时候的人工神经网络，虽然也被称作多层感知机（Multi-layer Perceptron），但实际上是一种只含有一层隐层节点的浅层模型。

到了90年代，各种各样的浅层机器学习模型相继被提出，例如支撑向量机（SVM，Support Vector Machines）、Boosting、最大熵方法（如LR，Logistic Regression）等。这些模型的结构基本上可以看成带有一层隐层节点（如SVM、Boosting），或没有隐层节点（如LR）。这些模型无论是在理论分析还是应用中都获得了巨大的成功。相比之下，由于理论分析的难度大，训练方法又需要很多经验和技巧，这个时期浅层人工神经网络反而相对沉寂。

不过叫浅度学习似乎也不太妥当，之前的浅度学习通常指的是浅度监督式学习~

浅度的监督式的具有 1 个隐藏层的神经网络具有一些受人喜爱的性质，使得它们比深度网络更容易被解释、分析和优化；但它们的表征能力却不及深度网络。

一般使用了具有 1 个隐藏层的学习问题来序列式地逐层构建深度网络，其能够继承浅度网络的属性。

章杉在论文中也提及了这些~

浅度监督学习通过反向传播算法在大规模有监督数据上训练的深度卷积神经网络已经成为了大多数计算机视觉任务中的主导方法。

这也推动了深度学习在其它领域的成功应用，比如语音识别、自然语言处理和强化学习。但是，我们仍然还难以理解深度网络的行为以及它们表现出色的原因。这种困难的一大原因是网络的层中采用了端到端的学习方式。

监督式的端到端学习是神经网络优化的标准方法。

但是其也存在一些值得考虑的潜在问题。

首先，使用全局目标就意味着一个深度网络的单个中间层的最终函数行为只能以间接的方式确定：这些层是如何协同工作以得到高准确度的预测结果的，这一点却完全不明晰。

第254章 倒行逆施（1 / 2）

第254章倒行逆施（1 / 2）