AIGC基础-常见名词解释

以此篇文章介绍一下在AIGC领域（Artificial Intelligence Generated Content）领域常见的一些名词。

关键要点

LLM是大型语言模型，擅长理解和生成文本。
常见术语包括提示词（Prompt）、微调（Fine-tuning）和嵌入（Embedding）。
LLM按功能可以分为文本生成、语言理解、多模态和潜入模型。

LLM功能分类

LLM按照功能可以分为以下几种：

文本生成LLM：例如GPT，专注于生成新文本。
语言理解LLM：例如BERT，擅长理解文本，例如分类和问答，
多模态LLM：能处理文本以外的数据，例如图像和音频。
嵌入模型：用于生成文本的向量表示，支持RAG中的相似性搜索，可从LLM导出或使用小型模型。

LLM领域术语介绍

大模型语言（LLM）是人工智能领域的重要技术，广泛用于自然语言处理任务，以下是按从常见到较少见的顺序整理的术语及其含义。

LLM 大模型语言：使用深度学习和大量数据训练的模型，能理解、总结和生成文本，例如 ChatGPT 和 GPT-4.
Transformer 架构：LLM常用的神经网络结构，基于自注意力机制处理文本序列。
Prompt 提示词：输入给LLM的指令，引导其生成特定输出，提示词工程是优化输出的关键。
Fine-tuning 微调：在预训练模型基础上，进一步用特定数据集训练以适应特定任务。
Tokenization 分词：将文本拆分为模型可处理的单元（例如单词和子句）。
Embedding 嵌入：将单词或文本表示为数值向量，捕捉其语义关系。
Attention Mechanism 注意力机制：Transformer 的一部分，让模型关注输入序列的特定部分理解上下文。
NLP 自然语言处理：AI子领域，涉及计算机与人类语言的交互，例如分类和翻译。
Text Generation 文本生成：生成连贯新文本的任务，例如聊天机器人内容。
Text Classification 文本分类：给文本分配标签，例如情感分析。
Summarization 摘要：生成文本的简要总结，保留关键信息。
Translation 翻译：将一种语言的文本转换为另一种语言。
Question Answering 问答：基于上下文或知识库回答问题。
GPT 生成预训练变换器：OpenAI开发的系列模型，擅长生成类人文本。
BERT 双向编码器表示从变换器：Google开发的模型，擅长理解句子上下文。
RoBERTa：BERT的优化版本，训练的数据更多，性能更加强。
开源模型：例如LLaMA和 Mistral，代码和权重是公开的，可以修改和研究。
多模态模型：能够处理文本、图像、音频等多种数据，例如 CLIP。
RAG 检索增强生成：结合知识库检索和文本生成的技巧，提升回答的准确性。
嵌入（在RAG上下文的Embedding）：将查询和文档转为向量，用于相似性搜索。
Vector Database 向量数据库：存储和管理向量数据的数据库，支持相似性搜索。
Similarity Search 相似性搜索：在RAG中查找与查询最相似的向量。
Knowledge Base 知识库：RAG使用的文本文档集合，提供生成上下文。
Chunking 分块：将大文档分割为小块，便于索引和检索。
Hallucination 幻觉：LLM生成与事实不符或无依据的信息。
Bias 偏见：模型输出中反映的训练数据中的偏见，可能导致不公平的结果。
Ethical Considerations：涉及隐私、安全和误导信息传播的伦理问题。

LLM领域术语详解

LLM Large Language Model
- 定义：使用深度学习和大规模文本数据训练的模型，能够理解、总结和生成文本。
- 示例：ChatGPT、DeepSeek、Grok；
- 应用：广泛用于聊天机器人、内容生成和问答系统；
Transformer 架构
- 定义：基于自注意力机制的神经网络，是LLM的核心技术，擅长处理长序列文本，是BERT、GPT等模型的基础。
- 特点：能够同时处理输入序列的各个部分，通过自注意力机制来捕捉句子中长距离的依赖关系。
- 应用：机器翻译、文本生成、文本分类；
提示词 Prompt
- 定义：Prompt是用户输入给LLM的文本指令，用于引导模型生成特定类型的输出。
- 示例：“请使用一句话总结这篇文章”或者”写一首关于秋天的诗”；
- 特点：提示词的设计直接影响到LLM的输出质量，需要清晰且具体，另外，提示词工程是优化提示以提升效果的一项技术。
- 应用：控制模型行为，例如生成创意内容、回答问题、完成任务。
Fine-tuning 微调
- 定义：Fine-tuning 是在预训练模型基础上，使用特定任务的数据集进一步训练，以提升模型在该任务上的性能。
- 示例：在BERT上微调以进行情感分析，或者在GPT上微调以生成特定领域的文本。
- 特点：比从头开始训练节省时间和计算资源，同时使得模型更适应某些特定领域或任务。
- 应用：文本分类、命名实体识别NER、问答系统。
Token
- 定义：Tokenization 是将文本拆分为模型可处理的基本单元，例如单词、子词或字符。
- 示例：将 playing football 拆分为 ["play", "##ing", "foot", "##ball"] （使用BEF方法）；
- 特点：不同的分词方法（例如BEF、WordPiece）影响模型对罕见词的处理，同时也是文本预处理的关键步骤；
- 应用：准备模型输入、处理多语言文本；
Embedding 嵌入
- 定义：Embedding是将文本（单词、句子等）转换为高维向量表示，捕捉其语义关系。
- 示例：Word2Vec、GloVe、BERT 的嵌入表示。
- 特点：语义相似的词在向量空间中距离较近，为模型提供可计算的输入形式；
- 应用：文本分类、语义相似性搜索、聚类分析；
Attention Mechanism 注意力机制
- 定义：Attention Mechanism 是 Transformer 的核心机制，允许模型动态关注输入序列的不同部分以理解上下文关系；
- 示例：在翻译 the cat is on the mat 时，模型关注 cat 和 mat 的关系；
- 特点：提升对长序列的处理能力，支持并行计算，相较传统模型更高效。
- 应用：机器翻译、文本生成、问答模型；
NLP 自然语言处理
- 定义：NLP Natural Language Processing 自然语言处理是人工智能的一个子领域，研究如何让计算机理解、处理和生成人类语言；
- 示例：情感分析、机器翻译、语音识别；
- 特点：结合语言学、计算机科学和数学，LLM是现代NLP的核心工具；
- 应用：语音助手、文本分析、自动客服；
Text Generation 文本生成
- 定义：Text Generation 是生成连贯且符合语法的文本的任务；
- 示例：聊天机器人回复、自动生成新闻文章；
- 特点：依赖模型的语言建模能力，也可能会出现幻觉；
- 应用：内容创作、对话系统、创意写作；
Text Classification 文本分类

定义：Text Classification是将文本分配到预定义类别中的任务；
示例：情感分析、垃圾邮件检测；
特点：需要标注数据进行监督训练，或者使用 zero-shot技术，结果通常是离散标签；
应用：新闻分类、意图识别、客户评价分析；

Summarization 摘要

定义：Summarization 是生成文本的简要总结，保留核心信息；
示例：新闻摘要、会议记录提炼；
特点：可分为抽取式（提取原文片段）和生成式（生成新的句子），常用评估指标
应用：自动摘要工具、研究论文提要。

Translation 翻译
- 定义：Translation 是将一门语言的文本转换为另外一种语言的任务；
- 示例：将 hello 翻译为德文；
- 特点：现代方法基于Transformer，优于传统的 Seq2Seq；
- 应用：在线翻译工具、跨语言交流；
Question Answering 问答

定义：Question Answering 是根据上下文或知识库回答用户提出的问题；
示例：回答 “python的创始人是谁？” 答：“为Guido van Rossum”；
特点：可分为开放域（无限制）和封闭域（特定文档），常结合检索和生成技术（如RAG）；
应用：虚拟助手、FAQ机器人、知识查询；

GPT生成预训练变换器
- 定义：GPT是OpenAI开发的模型系列，擅长生成连贯的类人文本；
- 示例：GPT-3、GPT-4；
- 特点：使用自回归方式，逐个生成Token，且支持zero-shot和few-shot学习；
- 应用：文本生成、对话系统、代码补全；
BERT双向编码器表示从变换器
- 定义：BERT是Google开发的模型，擅长理解文本的上下文；
- 示例：BERT-base、BERT-large
- 特点：双向编码，同时考虑词的前后文，常用于微调特定任务；
- 应用：文本分类、命名实体识别、问答；
RoBERTa
- 定义：RoBERTa是BERT的优化版本，通过更多训练数据和改进策略提升性能；
- 示例：RoBERTa-large
- 特点：去除了BERT的下一句预测任务，专注于掩码语言建模，在多个NLP基准测试中表现优于BERT；
- 应用：文本理解、分类、问答；
开源模型
- 定义：开源模型是指代码和权重公开的模型，允许社区自由修改、研究和使用；
- 示例：LLaMA、Mistral、Bloom
- 特点：促进学术研究和产业创新，用户可根据需求进行定制；
- 应用：学术研究、商业应用、模型微调；
多模态模型
- 定义：多模态模型是能够同时处理多种数据类型（例如文本、图像、音频）的模型；
- 示例：CLIP（文本-图像）、DALL-E（文本生成图像）
- 特点：快模态生成，捕捉不同数据之间的关系，训练复杂，需大量多模态数据；
- 应用：图像描述、视觉问答、跨模态检索；
RAG检索增强生成
- 定义：RAG是一种结合检索和生成的技术，通过从知识库检索相关信息来增强生成的准确性；
- 示例：在问答系统中，RAG从文档中检索答案后再生成回复；
- 特点：减少幻觉，提升知识密集型任务的表现，依赖高效的检索系统；
- 应用：开放域问答、文档查询、知识库对话；
嵌入（在RAG上下文的Embedding）
- 定义：在RAG中，嵌入Embedding是将查询和文档转换为向量表示，用于相似性搜索；
- 示例：使用 Sentence-BERT 生成文档的向量表示；
- 特点：捕捉语义相似性，支持快速匹配，是RAG检索阶段的核心；
- 应用：文档检索、推荐系统、语义检索；
Vector Database 向量数据库
- 定义：向量数据库是专门存储和管理高维向量数据的数据库，支持高校的相似性搜索；
- 示例：Faiss、Milvus、Pinecone
- 特点：优化了向量索引和查询速度，支持大规模数据处理；
- 应用：RAG中的文档检索、图像搜索、推荐系统；
Similarity Search 相似性搜索
- 定义：Similarity Search是向量数据库中查找与查询向量最相似的向量；
- 示例：在RAG中，查找与用户问题相关的文档；
- 特点：常用余弦相似度或欧氏距离计算，高效算法如ANN提升速度；
- 应用：信息检索、内容推荐、语义匹配；
Knowledge Base 知识库
- 定义：知识库是RAG使用的文本文档集合，为生成回答提供上下文信息；
- 示例：Wikipedia、企业内部文档；
- 特点：数据质量和结构化程度影响回答准确性，需要定期更新以保持时效性；
- 应用：问答系统、信息检索、知识管理；
Chunking 分块
- 定义：Chunking 是将大文档分割为小块chunks，便于索引和检索；
- 示例：将一篇长文章分割为段落或固定长度的句子；
- 特点：减小检索粒度，提升效率，分块策略影响上下文质量；
- 应用：RAG的文档预处理、长文本处理；
Hallucination 幻觉
- 定义：Hallucination是指LLM生成与事实不符或无依据的信息；
- 示例：模型声称“地球是平的”，但无证据支持；
- 特点：常见于生成型任务，难以完全避免，可通过RAG或事实核查缓解；
- 应用：内容审核、生成质量控制；
Bias 偏见
- 定义：Bias 是模型输出中反映的训练数据中的偏见，可能导致不公平或歧视性结果。
- 示例：模型对某些职业表现出性别刻板印象。
- 特点：源于训练数据的偏差，可通过数据清洗和模型调整减轻；
- 应用：公平性评估、伦理审查；
Ethical Considerations 伦理考虑
- 定义：Ethical Considerations 涉及 LLM 使用中的伦理问题，如隐私保护、安全性和误导信息传播。
- 示例：防止模型泄露用户数据、避免生成有害内容。
- 特点：随着LLM应用扩展，伦理问题日益重要，需要技术、政策和教育共同解决；
- 应用：模型部署审查、用户隐私保护。

AIGC基础-常见名词解释

Table of Contents

关键要点

LLM功能分类

LLM领域术语介绍

LLM领域术语详解