本研究提出了Transformer——一个输入序列、输出序列的encoder-decoder架构。其创新之处在于使用self-attention和point-wise来代替了传统的CNNs或RNNs来处理序列,提高了并行能力。
2020-09-08