本研究提出了Transformer——一个输入序列、输出序列的encoder-decoder架构。其创新之处在于使用self-attention和point-wise来代替了传统的CNNs或RNNs来处理序列,提高了并行能力。
                                
                            
                            
                                
                                    2020-09-08
                                
                                
                            
                         
                                
                                 
                                
                                 
                                
                                 
                                
                                 
                                
                                 
                                
                                 
                                
                                 
                                
                                 
                                
                                