Skip to main content

Study

abbr.stand formeaning
GQAGrouped Query Attention分组查询注意力
MHAMulti-Head Attention多头注意力
MLAMulti-Head Latent Attention多头潜在注意力
MoEMixture of Experts专家混合
RoPERotary Position Embedding旋转位置嵌入
SLSupervised Learning监督学习
SSLSelf-Supervised Learning自监督学习
WSLWeakly Supervised Learning弱监督学习
FFNFeed Forward Network前馈神经网络
encn
Bias偏差
Overfitting过拟合
Regularization正则化
Underfitting欠拟合
Variance方差

正则化

  • 正则化 (Regularization)
    • 目的: 防止模型过拟合
  • 参数范数惩罚 (Parameter Norm Penalties)
    • 通过在模型的损失函数(Loss Function)中添加一个与模型权重大小相关的“惩罚项”来实现。
    • L2 正则化 (权重衰减, Weight Decay)
    • L1 正则化 (Lasso)
    • 弹性网络 (Elastic Net)
      • L1 和 L2 正则化的混合体,同时包含了权重平方和与绝对值和的惩罚项。
  • 架构设计与模型集成 (Architectural & Ensemble Methods)
    • 通过改变模型的结构或训练方式来防止过拟合。
    • Dropout (随机失活)
      • 在训练过程中的每一步,都随机地“丢弃”(将其输出置为零)一部分神经元。
    • 早停 (Early Stopping)
      • 当模型在训练集上的性能仍在提升,但在验证集上的性能开始下降时,就立即停止训练。
    • 模型集成 (Ensemble Methods)
      • 训练多个独立的模型,然后将它们的预测结果进行平均或投票。
      • 例如,随机森林(Random Forest)就是一种集成方法。
  • 数据增强 (Data Augmentation)
    • 核心思想是,既然数据不够多,那我们就人工地“创造”更多的数据。
    • 对现有的训练数据进行各种随机的、轻微的变换,生成新的、合理的训练样本。
    • 图像:
      • 随机旋转、裁剪、缩放、翻转。
      • 改变亮度、对比度、色调。
      • 添加随机噪声。
    • 文本
      • 回译 (Back-translation): 将句子翻译成另一种语言,再翻译回来。
      • 随机插入、删除或替换同义词。
  • 噪声注入 (Noise Injection)
    • 通过向网络的不同部分添加随机噪声来增强模型的鲁棒性。
    • 权重噪声 (Weight Noise): 在训练的每一步,给模型的权重添加一些随机噪声。
    • 激活值噪声 (Activation Noise): 对神经元的激活值添加噪声。
    • 标签平滑 (Label Smoothing): 一种对标签添加噪声的方法。
      • 它将原本“非黑即白”的硬标签(比如,分类为“猫”的概率是100%,是“狗”的概率是0%),变成更“柔和”的标签(比如,“猫”的概率是95%,是“狗”的概率是5%),防止模型对自己的预测“过于自信”。
类别技术核心思想
参数惩罚L1, L2, Elastic Net限制模型权重的大小,使其更“简单”。
架构/集成Dropout, Early Stopping随机改变网络结构或提前中断训练,避免过度学习。
数据增强图像/文本增强在不改变标签的前提下,创造更多样化的训练数据。
噪声注入标签平滑等向模型的权重、激活或标签中添加随机性,使其更鲁棒。

Transformer

  • GPT3
    • Q 12,288x128
    • K 12,288x128
    • 96 heads
    • 12 layers
    • 175B params

Attention Is All You Need


  1. 生成 Q, K, V
  • 对于输入序列中的每一个词嵌入向量,都通过乘以 WQW_Q, WKW_K, WVW_V 矩阵生成对应的 Q, K, V 向量。
  1. 计算注意力分数 (Score)
  • 当前处理的词的 Q 向量与所有词的 K 向量进行点积,得到注意力分数。
Score(Q,K)=QKTScore(Q, K) = Q \cdot K^T
  1. 归一化 (Normalization)
  • 将分数转换成一个总和为 1 的概率分布
  • 得到 注意力权重
Attention(Q,K,V)=softmax(QKT/sqrt(dk))VAttention(Q, K, V) = softmax(QK^T / sqrt(d_k))V
  1. 加权求和 (Weighted Sum)
ContextVector=AttentionWeightsVContext Vector = Attention Weights \cdot V