LSTM为何如此有效?

大多数介绍LSTM的文章都是从解决梯度消失和RNN难训练角度出发的,然而我觉得这远远不是LSTM如此有效的根本原因。最近,做了一段时间情感分类,发现LSTM的效力远好于DNN和CNN,Bi-LSTM更是所向无敌。


DNN如fast-text就是把词向量全部一相加,然后扔给分类器;CNN如Text-CNN也只是捕捉局部的词向量,然后扔给分类器;LSTM的一大特点在于门机制,如果看遗忘门的数值可以发现,不少都是0,少数为1,说明其可以有挑选的信息放入到细胞状态线里,从某种角度类似时间线上的attention机制。


是否可以说LSTM的有效性主要来自于门机制,因为facebook的gate cnn, 加了门之后,似乎效果和lstm也非常接近了。

jennie更新于 2018-06-06 09:27
1 个回答
  • 西西吹雪2018-06-06 09:27

    避免梯度消失是果,门是因。


    门提供了控制网络中信息传递的工具,让 LSTM 可以记住较为长期的信息,从而解决梯度消失的问题。然而,Encode-Decode 框架中固定长度的向量表示也是有限的,输入序列较长时模型性能就会变差,毕竟丢失了很多细节信息嘛。


    这就给 Attention 替换 RNN 的说法形成支撑。


    • LSTM、GRU 及其变体能学习大量的长期信息,但它们最多只能记住约 100s 的长期信息,而不是 1000s,10000s 甚至更长时间的信息。  


    至于 Facebook 的 CNN 机器翻译之所以在某种程度上吊打谷歌,不仅仅是因为 gating,也因为有 multi-hop attention,后者使得神经网络可以多次回顾相关的关键词,以产生更好的翻译结果。


    其实 Attention 机制虽然近两年才比较热门,但其思想的提出也可以追溯上个世纪,也就是真正有用了才火。LSTM 虽然现在被唱衰,在效率和可扩展性上有天花板,但在一定范围内用来解决一些问题,毕竟还是不错的工具。


    Attention-based LSTM,也是一种方向,让 LSTM 更加有用。