Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context
语言建模是需要建模长距离依赖的关键任务之一。RNN 尤其是 LSTM 曾是语言建模的主流方案,并在多项基准测试上取得优异效果。但是 RNN 存在梯度消失和梯度爆炸的问题,因此很难优化。
如何提高 Transformer 的效率 (3) [LLM]
此前在对高效 Transformer 模型的探讨中,我们均假定模型架构在训练前就已确定,且全程保持固定。接下来我们转向架构自动学习的研究方向,模型可表示为如下形式:
如何提高 Transformer 的效率 (2) [LLM]
冗余现象使得多数模型参数冗余度过高,训练与推理效率随之降低。降低冗余的常用思路是删减多余模块以简化模型,例如对复杂模型进行剪枝,或是在模型不同模块间共享子结构,从而得到更精简的模型。本节将介绍 Transformer 模型中的参数与中间状态共享方法。
如何提高 Transformer 的效率 (1) [LLM]
效率是 Transformer 模型在各类实际应用中需要重点考量的要素。效率相关问题的分析可从时间效率与空间效率,可扩展性这两个维度展开。
绘制第一幅 TikZ 图像 [LaTeX]
本节开始我们来学习如何在 \LaTeX 中通过 TikZ 包来绘图,所参考的教材是 Packt 出版的《<i>LATEX Graphics with TikZ</i>》。