Logo Neo93
AIGC基础-常见名词解释

AIGC基础-常见名词解释

February 24, 2025
3 min read
Table of Contents

以此篇文章介绍一下在AIGC领域(Artificial Intelligence Generated Content)领域常见的一些名词。

关键要点

  1. LLM是大型语言模型,擅长理解和生成文本。
  2. 常见术语包括提示词(Prompt)、微调(Fine-tuning)和嵌入(Embedding)。
  3. LLM按功能可以分为 文本生成、语言理解、多模态和潜入模型。

LLM功能分类

LLM按照功能可以分为以下几种:

  1. 文本生成LLM:例如GPT,专注于生成新文本。
  2. 语言理解LLM:例如BERT,擅长理解文本,例如分类和问答,
  3. 多模态LLM:能处理文本以外的数据,例如图像和音频。
  4. 嵌入模型:用于生成文本的向量表示,支持RAG中的相似性搜索,可从LLM导出或使用小型模型。

LLM领域术语介绍

大模型语言 (LLM)是人工智能领域的重要技术,广泛用于自然语言处理任务,以下是按从常见到较少见的顺序整理的术语及其含义。

  1. LLM 大模型语言:使用深度学习和大量数据训练的模型,能理解、总结和生成文本,例如 ChatGPT 和 GPT-4.
  2. Transformer 架构:LLM常用的神经网络结构,基于自注意力机制处理文本序列。
  3. Prompt 提示词:输入给LLM的指令,引导其生成特定输出,提示词工程是优化输出的关键。
  4. Fine-tuning 微调:在预训练模型基础上,进一步用特定数据集训练以适应特定任务。
  5. Tokenization 分词:将文本拆分为模型可处理的单元(例如单词和子句)。
  6. Embedding 嵌入:将单词或文本表示为数值向量,捕捉其语义关系。
  7. Attention Mechanism 注意力机制:Transformer 的一部分,让模型关注输入序列的特定部分理解上下文。
  8. NLP 自然语言处理:AI子领域,涉及计算机与人类语言的交互,例如分类和翻译。
  9. Text Generation 文本生成:生成连贯新文本的任务,例如聊天机器人内容。
  10. Text Classification 文本分类:给文本分配标签,例如情感分析。
  11. Summarization 摘要:生成文本的简要总结,保留关键信息。
  12. Translation 翻译:将一种语言的文本转换为另一种语言。
  13. Question Answering 问答:基于上下文或知识库回答问题。
  14. GPT 生成预训练变换器:OpenAI开发的系列模型,擅长生成类人文本。
  15. BERT 双向编码器表示从变换器:Google开发的模型,擅长理解句子上下文。
  16. RoBERTa:BERT的优化版本,训练的数据更多,性能更加强。
  17. 开源模型:例如LLaMA和 Mistral,代码和权重是公开的,可以修改和研究。
  18. 多模态模型:能够处理文本、图像、音频等多种数据,例如 CLIP。
  19. RAG 检索增强生成:结合知识库检索和文本生成的技巧,提升回答的准确性。
  20. 嵌入(在RAG上下文的Embedding):将查询和文档转为向量,用于相似性搜索。
  21. Vector Database 向量数据库:存储和管理向量数据的数据库,支持相似性搜索。
  22. Similarity Search 相似性搜索:在RAG中查找与查询最相似的向量。
  23. Knowledge Base 知识库:RAG使用的文本文档集合,提供生成上下文。
  24. Chunking 分块:将大文档分割为小块,便于索引和检索。
  25. Hallucination 幻觉:LLM生成与事实不符或无依据的信息。
  26. Bias 偏见:模型输出中反映的训练数据中的偏见,可能导致不公平的结果。
  27. Ethical Considerations:涉及隐私、安全和误导信息传播的伦理问题。

LLM领域术语详解

  1. LLM Large Language Model

    • 定义:使用深度学习和大规模文本数据训练的模型,能够理解、总结和生成文本。
    • 示例:ChatGPT、DeepSeek、Grok;
    • 应用:广泛用于聊天机器人、内容生成和问答系统;
  2. Transformer 架构

    • 定义:基于自注意力机制的神经网络,是LLM的核心技术,擅长处理长序列文本,是BERT、GPT等模型的基础。
    • 特点:能够同时处理输入序列的各个部分,通过自注意力机制来捕捉句子中长距离的依赖关系。
    • 应用:机器翻译、文本生成、文本分类;
  3. 提示词 Prompt

    • 定义:Prompt是用户输入给LLM的文本指令,用于引导模型生成特定类型的输出。
    • 示例:“请使用一句话总结这篇文章”或者”写一首关于秋天的诗”;
    • 特点:提示词的设计直接影响到LLM的输出质量,需要清晰且具体,另外,提示词工程是优化提示以提升效果的一项技术。
    • 应用:控制模型行为,例如生成创意内容、回答问题、完成任务。
  4. Fine-tuning 微调

    • 定义:Fine-tuning 是在预训练模型基础上,使用特定任务的数据集进一步训练,以提升模型在该任务上的性能。
    • 示例:在BERT上微调以进行情感分析,或者在GPT上微调以生成特定领域的文本。
    • 特点:比从头开始训练节省时间和计算资源,同时使得模型更适应某些特定领域或任务。
    • 应用:文本分类、命名实体识别NER、问答系统。
  5. Token

    • 定义:Tokenization 是将文本拆分为模型可处理的基本单元,例如单词、子词或字符。
    • 示例:将 playing football 拆分为 ["play", "##ing", "foot", "##ball"] (使用BEF方法);
    • 特点:不同的分词方法(例如BEF、WordPiece)影响模型对罕见词的处理,同时也是文本预处理的关键步骤;
    • 应用:准备模型输入、处理多语言文本;
  6. Embedding 嵌入

    • 定义:Embedding是将文本(单词、句子等)转换为高维向量表示,捕捉其语义关系。
    • 示例:Word2Vec、GloVe、BERT 的嵌入表示。
    • 特点:语义相似的词在向量空间中距离较近,为模型提供可计算的输入形式;
    • 应用:文本分类、语义相似性搜索、聚类分析;
  7. Attention Mechanism 注意力机制

    • 定义:Attention Mechanism 是 Transformer 的核心机制,允许模型动态关注输入序列的不同部分以理解上下文关系;
    • 示例:在翻译 the cat is on the mat 时,模型关注 catmat 的关系;
    • 特点:提升对长序列的处理能力,支持并行计算,相较传统模型更高效。
    • 应用:机器翻译、文本生成、问答模型;
  8. NLP 自然语言处理

    • 定义:NLP Natural Language Processing 自然语言处理是人工智能的一个子领域,研究如何让计算机理解、处理和生成人类语言;
    • 示例:情感分析、机器翻译、语音识别;
    • 特点:结合语言学、计算机科学和数学,LLM是现代NLP的核心工具;
    • 应用:语音助手、文本分析、自动客服;
  9. Text Generation 文本生成

    • 定义:Text Generation 是生成连贯且符合语法的文本的任务;
    • 示例:聊天机器人回复、自动生成新闻文章;
    • 特点:依赖模型的语言建模能力,也可能会出现幻觉;
    • 应用:内容创作、对话系统、创意写作;
  10. Text Classification 文本分类

  • 定义:Text Classification是将文本分配到预定义类别中的任务;
  • 示例:情感分析、垃圾邮件检测;
  • 特点:需要标注数据进行监督训练,或者使用 zero-shot技术,结果通常是离散标签;
  • 应用: 新闻分类、意图识别、客户评价分析;
  1. Summarization 摘要
  • 定义:Summarization 是生成文本的简要总结,保留核心信息;
  • 示例:新闻摘要、会议记录提炼;
  • 特点:可分为抽取式(提取原文片段)和生成式(生成新的句子),常用评估指标
  • 应用:自动摘要工具、研究论文提要。
  1. Translation 翻译

    • 定义:Translation 是将一门语言的文本转换为另外一种语言的任务;
    • 示例:将 hello 翻译为 德文;
    • 特点:现代方法基于Transformer,优于传统的 Seq2Seq;
    • 应用:在线翻译工具、跨语言交流;
  2. Question Answering 问答

  • 定义:Question Answering 是根据上下文或知识库回答用户提出的问题;
  • 示例:回答 “python的创始人是谁?” 答:“为Guido van Rossum”;
  • 特点:可分为开放域(无限制)和封闭域(特定文档),常结合检索和生成技术(如RAG);
  • 应用:虚拟助手、FAQ机器人、知识查询;
  1. GPT生成预训练变换器

    • 定义:GPT是OpenAI开发的模型系列,擅长生成连贯的类人文本;
    • 示例:GPT-3、GPT-4;
    • 特点:使用自回归方式,逐个生成Token,且支持zero-shot和few-shot学习;
    • 应用:文本生成、对话系统、代码补全;
  2. BERT双向编码器表示从变换器

    • 定义:BERT是Google开发的模型,擅长理解文本的上下文;
    • 示例:BERT-base、BERT-large
    • 特点:双向编码,同时考虑词的前后文,常用于微调特定任务;
    • 应用:文本分类、命名实体识别、问答;
  3. RoBERTa

    • 定义:RoBERTa是BERT的优化版本,通过更多训练数据和改进策略提升性能;
    • 示例:RoBERTa-large
    • 特点:去除了BERT的下一句预测任务,专注于掩码语言建模,在多个NLP基准测试中表现优于BERT;
    • 应用:文本理解、分类、问答;
  4. 开源模型

    • 定义:开源模型是指代码和权重公开的模型,允许社区自由修改、研究和使用;
    • 示例:LLaMA、Mistral、Bloom
    • 特点:促进学术研究和产业创新,用户可根据需求进行定制;
    • 应用:学术研究、商业应用、模型微调;
  5. 多模态模型

    • 定义:多模态模型是能够同时处理多种数据类型(例如文本、图像、音频)的模型;
    • 示例:CLIP(文本-图像)、DALL-E(文本生成图像)
    • 特点:快模态生成,捕捉不同数据之间的关系,训练复杂,需大量多模态数据;
    • 应用:图像描述、视觉问答、跨模态检索;
  6. RAG检索增强生成

    • 定义:RAG是一种结合检索和生成的技术,通过从知识库检索相关信息来增强生成的准确性;
    • 示例:在问答系统中,RAG从文档中检索答案后再生成回复;
    • 特点:减少幻觉,提升知识密集型任务的表现,依赖高效的检索系统;
    • 应用:开放域问答、文档查询、知识库对话;
  7. 嵌入(在RAG上下文的Embedding)

    • 定义:在RAG中,嵌入Embedding是将查询和文档转换为向量表示,用于相似性搜索;
    • 示例:使用 Sentence-BERT 生成文档的向量表示;
    • 特点:捕捉语义相似性,支持快速匹配,是RAG检索阶段的核心;
    • 应用:文档检索、推荐系统、语义检索;
  8. Vector Database 向量数据库

    • 定义:向量数据库是专门存储和管理高维向量数据的数据库,支持高校的相似性搜索;
    • 示例:Faiss、Milvus、Pinecone
    • 特点:优化了向量索引和查询速度,支持大规模数据处理;
    • 应用:RAG中的文档检索、图像搜索、推荐系统;
  9. Similarity Search 相似性搜索

    • 定义:Similarity Search是向量数据库中查找与查询向量最相似的向量;
    • 示例:在RAG中,查找与用户问题相关的文档;
    • 特点:常用余弦相似度或欧氏距离计算,高效算法如ANN提升速度;
    • 应用:信息检索、内容推荐、语义匹配;
  10. Knowledge Base 知识库

    • 定义:知识库是RAG使用的文本文档集合,为生成回答提供上下文信息;
    • 示例:Wikipedia、企业内部文档;
    • 特点:数据质量和结构化程度影响回答准确性,需要定期更新以保持时效性;
    • 应用:问答系统、信息检索、知识管理;
  11. Chunking 分块

    • 定义:Chunking 是将大文档分割为小块chunks,便于索引和检索;
    • 示例:将一篇长文章分割为段落或固定长度的句子;
    • 特点:减小检索粒度,提升效率,分块策略影响上下文质量;
    • 应用:RAG的文档预处理、长文本处理;
  12. Hallucination 幻觉

    • 定义:Hallucination是指LLM生成与事实不符或无依据的信息;
    • 示例:模型声称“地球是平的”,但无证据支持;
    • 特点:常见于生成型任务,难以完全避免,可通过RAG或事实核查缓解;
    • 应用:内容审核、生成质量控制;
  13. Bias 偏见

    • 定义:Bias 是模型输出中反映的训练数据中的偏见,可能导致不公平或歧视性结果。
    • 示例:模型对某些职业表现出性别刻板印象。
    • 特点:源于训练数据的偏差,可通过数据清洗和模型调整减轻;
    • 应用:公平性评估、伦理审查;
  14. Ethical Considerations 伦理考虑

    • 定义:Ethical Considerations 涉及 LLM 使用中的伦理问题,如隐私保护、安全性和误导信息传播。
    • 示例:防止模型泄露用户数据、避免生成有害内容。
    • 特点:随着LLM应用扩展,伦理问题日益重要,需要技术、政策和教育共同解决;
    • 应用:模型部署审查、用户隐私保护。