循环神经网络、长短期记忆网络、门控循环单元等是传统的语言模型,它们在很多自然语言处理任务中有着相关应用。但是,Transformer的出现使得这些模型的应用场景越来越少,这是因为Transformer具有更好的效果。