AI探秘-大模型原理

编码器(Encoder): 负责理解源语言的输入文本，将其转换为嵌入向量
解码器(Decoder): 利用编码器的输出逐步生成目标语言的翻译

LLM

LLM(Large Language Model)是一种神经网络,具有理解、生成和回应类似人类的文本。大模型的大主要因为:

预训练 (Pre-training): 用大规模、多样化的数据集训练一个大模型，让它学到通用表征与基础能力得到基座模型
微调 (Fine-tuning): 在已有预训练大模型的基础上，用较小的任务/领域数据继续训练得到微调模型
自监督学习 (Self-supervised Learning): 不依赖人工标注，利用数据自身构造"伪标签/预任务"来训练模型，从而学到通用表征与结构
指令微调 (Instruction Tuning): 让大模型学会"听懂并遵循人类指令"的通用对话/任务能力。在指令微调中，标记数据集由指令和答案对组成
分类微调 (Classification Fine-tuning): 让模型在特定分类任务上输出离散标签。标记数据集由文本及其相关类别标签组成
自注意力机制 (Self-Attention): 让序列中每个位置都能直接"关注"到序列中所有其他位置，计算它们之间的相关性权重，从而捕捉长距离依赖关系。自注意力让模型能够"同时看到"整个序列，并学会哪些部分之间最相关，这是 Transformer 和大模型强大的核心机制
嵌入向量 (Embedding Vectors): 将离散的符号（如单词、字符、句子）转换为连续的高维数值向量的技术。这些向量能够捕捉符号的语义信息和上下文关系
GPT (Generative Pre-trained Transformer): 生成式预训练Transformer