大多数介绍LSTM的文章都是从解决梯度消失和RNN难训练角度出发的,然而我觉得这远远不是LSTM如此有效的根本原因。最近,做了一段时间情感分类,发现LSTM的效力远好于DNN和CNN,Bi-LSTM更是所向无敌。
DNN如fast-text就是把词向量全部一相加,然后扔给分类器;CNN如Text-CNN也只是捕捉局部的词向量,然后扔给分类器;LSTM的一大特点在于门机制,如果看遗忘门的数值可以发现,不少都是0,少数为1,说明其可以有挑选的信息放入到细胞状态线里,从某种角度类似时间线上的attention机制。
是否可以说LSTM的有效性主要来自于门机制,因为facebook的gate cnn, 加了门之后,似乎效果和lstm也非常接近了。
避免梯度消失是果,门是因。
门提供了控制网络中信息传递的工具,让 LSTM 可以记住较为长期的信息,从而解决梯度消失的问题。然而,Encode-Decode 框架中固定长度的向量表示也是有限的,输入序列较长时模型性能就会变差,毕竟丢失了很多细节信息嘛。
这就给 Attention 替换 RNN 的说法形成支撑。
至于 Facebook 的 CNN 机器翻译之所以在某种程度上吊打谷歌,不仅仅是因为 gating,也因为有 multi-hop attention,后者使得神经网络可以多次回顾相关的关键词,以产生更好的翻译结果。
其实 Attention 机制虽然近两年才比较热门,但其思想的提出也可以追溯上个世纪,也就是真正有用了才火。LSTM 虽然现在被唱衰,在效率和可扩展性上有天花板,但在一定范围内用来解决一些问题,毕竟还是不错的工具。
Attention-based LSTM,也是一种方向,让 LSTM 更加有用。
* 版权声明 :社区问答内容由互联网用户编辑提交,本社区不拥有所有权,也不承担相关法律责任。如果您发现本社区中有涉嫌侵权、暴力、色情、反
动等言论,欢迎发送邮件至: 进行举报并提供初步证明,一经查实,本社区将立刻删除相关内容。