向 Transformer 中引入先验知识 [LLM]
Transformer 作为深度学习模型,并未显式利用语言学结构或相关先验假设,但我们仍有必要将先验知识融入这类模型。究其原因,NLP 领域的研究者一直认为,想要构建理想的自然语言处理系统,需要对数据进行更高层级的抽象表示,目前也已有大量模型引入了结构先验。本节主要讨论如何将语言学结构融入 Transformer 模型,对 encoder 进行改进。
PyTorch 中的 Transformer 源码 [LLM]
上节我们自己实现了一个 Transformer,这节我们通过源码来看一下 PyTorch 官方是如何实现 Transformer 的。内容按以下顺序进行:从最简单的注意力组件开始向上直到顶层的 Transformer 类。