RoBERTa 的源码 [LLM]
RoBERTa (Robustly optimized BERT approach) 是对 BERT 的一种改进。作者认为原版 BERT 存在训练不足的问题,在不改变模型架构的基础上针对预训练过程做出了改进:移除了 SNP 任务,改变 BERT 的 MLM 方法,对训练数据使用动态掩码策略。
BERT 模型的介绍和应用 [LLM]
标准的 BERT 模型是一个双向 Transformer encoder,通过两个自监督任务进行训练:掩码语言模型和下一句预测。整体的训练损失是这两个任务损失的和:
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
语言模型预训练已被证实能够有效提升多项 NLP 任务的效果。将预训练语言表征应用于下游任务主要有两种主流方式:基于特征的方法与微调方法。以 ELMo 为代表的特征式方法,会设计专属任务架构,并把预训练表征当作额外特征使用;而以 GPT 为代表的微调式方法,仅引入少量任务专属参数,直接对全部预训练参数进行微调以适配下游任务。两种方法的预训练目标一致,均采用单向语言模型学习通用语言表征。