这篇论文来自Yoshua Bengio的实验室,而标题并不起眼「Neural Machine Translation by Jointly Learning to Align and Translate」。 或许很多人都没有听说过这篇论文,但它是NLP中最伟大的里程碑之一,已经被引用了29K次(相比之下,Transformer为77K)。