永雏多氢菲の書库

Literature 105 CS 19 Science 13 Paper 3 Uncategorized 3 Philosophy 1

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

2026-06-04

语言建模是需要建模长距离依赖的关键任务之一。RNN 尤其是 LSTM 曾是语言建模的主流方案，并在多项基准测试上取得优异效果。但是 RNN 存在梯度消失和梯度爆炸的问题，因此很难优化。

#No Tags

Cover Image of the Post

😡 LeetCode 4. 寻找两个正序数组的中位数 [二分查找]

2026-06-03

给定两个大小分别为 m 和 n 的正序（从小到大）数组 nums1 和 nums2。请你找出并返回这两个正序数组的中位数。

#No Tags

Cover Image of the Post

Self-Attention with Relative Position Representations

2026-06-03

非循环模型无法天然按序遍历输入元素，因此需要额外显式编码位置信息，以表征序列先后关系。

#No Tags

Cover Image of the Post

😐 LeetCode 3. 无重复字符的最长子串 [指针]

2026-06-02

给定一个字符串 s ，请你找出其中不含有重复字符的最长子串的长度。

#No Tags

Cover Image of the Post

如何提高 Transformer 的效率 (3) [LLM]

2026-06-02

此前在对高效 Transformer 模型的探讨中，我们均假定模型架构在训练前就已确定，且全程保持固定。接下来我们转向架构自动学习的研究方向，模型可表示为如下形式：

#No Tags

Cover Image of the Post

如何提高 Transformer 的效率 (2) [LLM]

2026-06-01

冗余现象使得多数模型参数冗余度过高，训练与推理效率随之降低。降低冗余的常用思路是删减多余模块以简化模型，例如对复杂模型进行剪枝，或是在模型不同模块间共享子结构，从而得到更精简的模型。本节将介绍 Transformer 模型中的参数与中间状态共享方法。

#No Tags

Cover Image of the Post

如何提高 Transformer 的效率 (1) [LLM]

2026-06-01

效率是 Transformer 模型在各类实际应用中需要重点考量的要素。效率相关问题的分析可从时间效率与空间效率，可扩展性这两个维度展开。

#No Tags

Cover Image of the Post

有島武郎: 一房の葡萄

2026-05-30

一串葡萄

Cover Image of the Post

Transformer 架构的改进 [LLM]

2026-05-30

本节我们学习一些对原始 Transformer 模型的改进。与之前引入先验知识不同，本节聚焦于机器学习的角度。

#No Tags

Cover Image of the Post

绘制第一幅 TikZ 图像 [LaTeX]

2026-05-28

本节开始我们来学习如何在 \LaTeX 中通过 TikZ 包来绘图，所参考的教材是 Packt 出版的《<i>LATEX Graphics with TikZ</i>》。

#No Tags

Cover Image of the Post

永雏多氢菲

∴さて····どこへ行こうか？

随缘分享喵

あ行か行さ行た行な行ま行哲学生物学轻小说

Posts

144

Categories

6

Tags

9

Total Words

2,255,454

Running Days

0 days

Last Activity

0 days ago

Table of Contents