编辑推荐

网易数帆开源API网关与容器云项目，让云原生生产落地“多快好

网易汪源：统一负载与多云环境的“开放姿态”，才是云原生

网易数帆如何用 Kubernetes“原语”搞定云原生中间件

快手打新挤爆券商系统，网易数帆推出券商稳定性保障方案

探索智慧校园新模式，网易有数在教育行业的实践分享

金融行业大数据治理之路——数据模型篇

LSTM为何如此有效？

大多数介绍LSTM的文章都是从解决梯度消失和RNN难训练角度出发的，然而我觉得这远远不是LSTM如此有效的根本原因。最近，做了一段时间情感分类，发现LSTM的效力远好于DNN和CNN，Bi-LSTM更是所向无敌。

DNN如fast-text就是把词向量全部一相加，然后扔给分类器；CNN如Text-CNN也只是捕捉局部的词向量，然后扔给分类器；LSTM的一大特点在于门机制，如果看遗忘门的数值可以发现，不少都是0，少数为1，说明其可以有挑选的信息放入到细胞状态线里，从某种角度类似时间线上的attention机制。

是否可以说LSTM的有效性主要来自于门机制，因为facebook的gate cnn，加了门之后，似乎效果和lstm也非常接近了。

jennie更新于 2018-06-06 09:27

1 个回答

西西吹雪2018-06-06 09:27
避免梯度消失是果，门是因。

门提供了控制网络中信息传递的工具，让 LSTM 可以记住较为长期的信息，从而解决梯度消失的问题。然而，Encode-Decode 框架中固定长度的向量表示也是有限的，输入序列较长时模型性能就会变差，毕竟丢失了很多细节信息嘛。

这就给 Attention 替换 RNN 的说法形成支撑。
- LSTM、GRU 及其变体能学习大量的长期信息，但它们最多只能记住约 100s 的长期信息，而不是 1000s，10000s 甚至更长时间的信息。
至于 Facebook 的 CNN 机器翻译之所以在某种程度上吊打谷歌，不仅仅是因为 gating，也因为有 multi-hop attention，后者使得神经网络可以多次回顾相关的关键词，以产生更好的翻译结果。

其实 Attention 机制虽然近两年才比较热门，但其思想的提出也可以追溯上个世纪，也就是真正有用了才火。LSTM 虽然现在被唱衰，在效率和可扩展性上有天花板，但在一定范围内用来解决一些问题，毕竟还是不错的工具。

Attention-based LSTM，也是一种方向，让 LSTM 更加有用。

动等言论，欢迎发送邮件至：进行举报并提供初步证明，一经查实，本社区将立刻删除相关内容。

热门问题

最新资源下载

编辑推荐

LSTM为何如此有效？

热门问题

最新资源下载

编辑推荐

LSTM为何如此有效？

推荐问答