Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context
语言建模是需要建模长距离依赖的关键任务之一。RNN 尤其是 LSTM 曾是语言建模的主流方案,并在多项基准测试上取得优异效果。但是 RNN 存在梯度消失和梯度爆炸的问题,因此很难优化。
Cover Image of the Post
😡 LeetCode 4. 寻找两个正序数组的中位数 [二分查找]
给定两个大小分别为 m 和 n 的正序(从小到大)数组 nums1 和 nums2。请你找出并返回这两个正序数组的中位数。
Cover Image of the Post
Self-Attention with Relative Position Representations
非循环模型无法天然按序遍历输入元素,因此需要额外显式编码位置信息,以表征序列先后关系。
Cover Image of the Post
😐 LeetCode 3. 无重复字符的最长子串 [指针]
给定一个字符串 s ,请你找出其中不含有重复字符的最长子串的长度。
Cover Image of the Post
如何提高 Transformer 的效率 (3) [LLM]
此前在对高效 Transformer 模型的探讨中,我们均假定模型架构在训练前就已确定,且全程保持固定。接下来我们转向架构自动学习的研究方向,模型可表示为如下形式:
Cover Image of the Post
如何提高 Transformer 的效率 (2) [LLM]
冗余现象使得多数模型参数冗余度过高,训练与推理效率随之降低。降低冗余的常用思路是删减多余模块以简化模型,例如对复杂模型进行剪枝,或是在模型不同模块间共享子结构,从而得到更精简的模型。本节将介绍 Transformer 模型中的参数与中间状态共享方法。
Cover Image of the Post
如何提高 Transformer 的效率 (1) [LLM]
效率是 Transformer 模型在各类实际应用中需要重点考量的要素。效率相关问题的分析可从时间效率与空间效率,可扩展性这两个维度展开。
Cover Image of the Post
有島武郎: 一房の葡萄
一串葡萄
Cover Image of the Post
Transformer 架构的改进 [LLM]
本节我们学习一些对原始 Transformer 模型的改进。与之前引入先验知识不同,本节聚焦于机器学习的角度。
Cover Image of the Post
绘制第一幅 TikZ 图像 [LaTeX]
本节开始我们来学习如何在 \LaTeX 中通过 TikZ 包来绘图,所参考的教材是 Packt 出版的《<i>LATEX Graphics with TikZ</i>》。
Cover Image of the Post
Profile Image of the Author
永雏多氢菲
∴さて····どこへ行こうか?
公告
随缘分享喵
Music
Cover

Music

No playing

0:00 0:00
No lyrics available
Categories
Tags
Site Statistics
Posts
144
Categories
6
Tags
9
Total Words
2,255,454
Running Days
0 days
Last Activity
0 days ago

Table of Contents