以此篇文章介绍一下在AIGC领域(Artificial Intelligence Generated Content)领域常见的一些名词。
关键要点
LLM是大型语言模型,擅长理解和生成文本。- 常见术语包括提示词(
Prompt)、微调(Fine-tuning)和嵌入(Embedding)。 - LLM按功能可以分为 文本生成、语言理解、多模态和潜入模型。
LLM功能分类
LLM按照功能可以分为以下几种:
- 文本生成LLM:例如GPT,专注于生成新文本。
- 语言理解LLM:例如BERT,擅长理解文本,例如分类和问答,
- 多模态LLM:能处理文本以外的数据,例如图像和音频。
- 嵌入模型:用于生成文本的向量表示,支持RAG中的相似性搜索,可从LLM导出或使用小型模型。
LLM领域术语介绍
大模型语言 (LLM)是人工智能领域的重要技术,广泛用于自然语言处理任务,以下是按从常见到较少见的顺序整理的术语及其含义。
- LLM 大模型语言:使用深度学习和大量数据训练的模型,能理解、总结和生成文本,例如 ChatGPT 和 GPT-4.
- Transformer 架构:LLM常用的神经网络结构,基于自注意力机制处理文本序列。
- Prompt 提示词:输入给LLM的指令,引导其生成特定输出,提示词工程是优化输出的关键。
- Fine-tuning 微调:在预训练模型基础上,进一步用特定数据集训练以适应特定任务。
- Tokenization 分词:将文本拆分为模型可处理的单元(例如单词和子句)。
- Embedding 嵌入:将单词或文本表示为数值向量,捕捉其语义关系。
- Attention Mechanism 注意力机制:Transformer 的一部分,让模型关注输入序列的特定部分理解上下文。
- NLP 自然语言处理:AI子领域,涉及计算机与人类语言的交互,例如分类和翻译。
- Text Generation 文本生成:生成连贯新文本的任务,例如聊天机器人内容。
- Text Classification 文本分类:给文本分配标签,例如情感分析。
- Summarization 摘要:生成文本的简要总结,保留关键信息。
- Translation 翻译:将一种语言的文本转换为另一种语言。
- Question Answering 问答:基于上下文或知识库回答问题。
- GPT 生成预训练变换器:OpenAI开发的系列模型,擅长生成类人文本。
- BERT 双向编码器表示从变换器:Google开发的模型,擅长理解句子上下文。
- RoBERTa:BERT的优化版本,训练的数据更多,性能更加强。
- 开源模型:例如LLaMA和 Mistral,代码和权重是公开的,可以修改和研究。
- 多模态模型:能够处理文本、图像、音频等多种数据,例如 CLIP。
- RAG 检索增强生成:结合知识库检索和文本生成的技巧,提升回答的准确性。
- 嵌入(在RAG上下文的Embedding):将查询和文档转为向量,用于相似性搜索。
- Vector Database 向量数据库:存储和管理向量数据的数据库,支持相似性搜索。
- Similarity Search 相似性搜索:在RAG中查找与查询最相似的向量。
- Knowledge Base 知识库:RAG使用的文本文档集合,提供生成上下文。
- Chunking 分块:将大文档分割为小块,便于索引和检索。
- Hallucination 幻觉:LLM生成与事实不符或无依据的信息。
- Bias 偏见:模型输出中反映的训练数据中的偏见,可能导致不公平的结果。
- Ethical Considerations:涉及隐私、安全和误导信息传播的伦理问题。
LLM领域术语详解
-
LLM Large Language Model
- 定义:使用深度学习和大规模文本数据训练的模型,能够理解、总结和生成文本。
- 示例:ChatGPT、DeepSeek、Grok;
- 应用:广泛用于聊天机器人、内容生成和问答系统;
-
Transformer 架构
- 定义:基于自注意力机制的神经网络,是LLM的核心技术,擅长处理长序列文本,是BERT、GPT等模型的基础。
- 特点:能够同时处理输入序列的各个部分,通过自注意力机制来捕捉句子中长距离的依赖关系。
- 应用:机器翻译、文本生成、文本分类;
-
提示词 Prompt
- 定义:
Prompt是用户输入给LLM的文本指令,用于引导模型生成特定类型的输出。 - 示例:“请使用一句话总结这篇文章”或者”写一首关于秋天的诗”;
- 特点:提示词的设计直接影响到LLM的输出质量,需要清晰且具体,另外,提示词工程是优化提示以提升效果的一项技术。
- 应用:控制模型行为,例如生成创意内容、回答问题、完成任务。
- 定义:
-
Fine-tuning 微调
- 定义:Fine-tuning 是在预训练模型基础上,使用特定任务的数据集进一步训练,以提升模型在该任务上的性能。
- 示例:在BERT上微调以进行情感分析,或者在GPT上微调以生成特定领域的文本。
- 特点:比从头开始训练节省时间和计算资源,同时使得模型更适应某些特定领域或任务。
- 应用:文本分类、命名实体识别NER、问答系统。
-
Token
- 定义:Tokenization 是将文本拆分为模型可处理的基本单元,例如单词、子词或字符。
- 示例:将
playing football拆分为["play", "##ing", "foot", "##ball"](使用BEF方法); - 特点:不同的分词方法(例如BEF、WordPiece)影响模型对罕见词的处理,同时也是文本预处理的关键步骤;
- 应用:准备模型输入、处理多语言文本;
-
Embedding 嵌入
- 定义:Embedding是将文本(单词、句子等)转换为高维向量表示,捕捉其语义关系。
- 示例:Word2Vec、GloVe、BERT 的嵌入表示。
- 特点:语义相似的词在向量空间中距离较近,为模型提供可计算的输入形式;
- 应用:文本分类、语义相似性搜索、聚类分析;
-
Attention Mechanism 注意力机制
- 定义:Attention Mechanism 是 Transformer 的核心机制,允许模型动态关注输入序列的不同部分以理解上下文关系;
- 示例:在翻译
the cat is on the mat时,模型关注cat和mat的关系; - 特点:提升对长序列的处理能力,支持并行计算,相较传统模型更高效。
- 应用:机器翻译、文本生成、问答模型;
-
NLP 自然语言处理
- 定义:NLP
Natural Language Processing自然语言处理是人工智能的一个子领域,研究如何让计算机理解、处理和生成人类语言; - 示例:情感分析、机器翻译、语音识别;
- 特点:结合语言学、计算机科学和数学,LLM是现代NLP的核心工具;
- 应用:语音助手、文本分析、自动客服;
- 定义:NLP
-
Text Generation 文本生成
- 定义:Text Generation 是生成连贯且符合语法的文本的任务;
- 示例:聊天机器人回复、自动生成新闻文章;
- 特点:依赖模型的语言建模能力,也可能会出现幻觉;
- 应用:内容创作、对话系统、创意写作;
-
Text Classification 文本分类
- 定义:Text Classification是将文本分配到预定义类别中的任务;
- 示例:情感分析、垃圾邮件检测;
- 特点:需要标注数据进行监督训练,或者使用 zero-shot技术,结果通常是离散标签;
- 应用: 新闻分类、意图识别、客户评价分析;
- Summarization 摘要
- 定义:Summarization 是生成文本的简要总结,保留核心信息;
- 示例:新闻摘要、会议记录提炼;
- 特点:可分为抽取式(提取原文片段)和生成式(生成新的句子),常用评估指标
- 应用:自动摘要工具、研究论文提要。
-
Translation 翻译
- 定义:Translation 是将一门语言的文本转换为另外一种语言的任务;
- 示例:将
hello翻译为 德文; - 特点:现代方法基于Transformer,优于传统的 Seq2Seq;
- 应用:在线翻译工具、跨语言交流;
-
Question Answering 问答
- 定义:Question Answering 是根据上下文或知识库回答用户提出的问题;
- 示例:回答 “python的创始人是谁?” 答:“为Guido van Rossum”;
- 特点:可分为开放域(无限制)和封闭域(特定文档),常结合检索和生成技术(如RAG);
- 应用:虚拟助手、FAQ机器人、知识查询;
-
GPT生成预训练变换器
- 定义:GPT是OpenAI开发的模型系列,擅长生成连贯的类人文本;
- 示例:GPT-3、GPT-4;
- 特点:使用自回归方式,逐个生成Token,且支持zero-shot和few-shot学习;
- 应用:文本生成、对话系统、代码补全;
-
BERT双向编码器表示从变换器
- 定义:BERT是Google开发的模型,擅长理解文本的上下文;
- 示例:BERT-base、BERT-large
- 特点:双向编码,同时考虑词的前后文,常用于微调特定任务;
- 应用:文本分类、命名实体识别、问答;
-
RoBERTa
- 定义:RoBERTa是BERT的优化版本,通过更多训练数据和改进策略提升性能;
- 示例:RoBERTa-large
- 特点:去除了BERT的下一句预测任务,专注于掩码语言建模,在多个NLP基准测试中表现优于BERT;
- 应用:文本理解、分类、问答;
-
开源模型
- 定义:开源模型是指代码和权重公开的模型,允许社区自由修改、研究和使用;
- 示例:LLaMA、Mistral、Bloom
- 特点:促进学术研究和产业创新,用户可根据需求进行定制;
- 应用:学术研究、商业应用、模型微调;
-
多模态模型
- 定义:多模态模型是能够同时处理多种数据类型(例如文本、图像、音频)的模型;
- 示例:CLIP(文本-图像)、DALL-E(文本生成图像)
- 特点:快模态生成,捕捉不同数据之间的关系,训练复杂,需大量多模态数据;
- 应用:图像描述、视觉问答、跨模态检索;
-
RAG检索增强生成
- 定义:RAG是一种结合检索和生成的技术,通过从知识库检索相关信息来增强生成的准确性;
- 示例:在问答系统中,RAG从文档中检索答案后再生成回复;
- 特点:减少幻觉,提升知识密集型任务的表现,依赖高效的检索系统;
- 应用:开放域问答、文档查询、知识库对话;
-
嵌入(在RAG上下文的Embedding)
- 定义:在RAG中,嵌入Embedding是将查询和文档转换为向量表示,用于相似性搜索;
- 示例:使用 Sentence-BERT 生成文档的向量表示;
- 特点:捕捉语义相似性,支持快速匹配,是RAG检索阶段的核心;
- 应用:文档检索、推荐系统、语义检索;
-
Vector Database 向量数据库
- 定义:向量数据库是专门存储和管理高维向量数据的数据库,支持高校的相似性搜索;
- 示例:Faiss、Milvus、Pinecone
- 特点:优化了向量索引和查询速度,支持大规模数据处理;
- 应用:RAG中的文档检索、图像搜索、推荐系统;
-
Similarity Search 相似性搜索
- 定义:Similarity Search是向量数据库中查找与查询向量最相似的向量;
- 示例:在RAG中,查找与用户问题相关的文档;
- 特点:常用余弦相似度或欧氏距离计算,高效算法如ANN提升速度;
- 应用:信息检索、内容推荐、语义匹配;
-
Knowledge Base 知识库
- 定义:知识库是RAG使用的文本文档集合,为生成回答提供上下文信息;
- 示例:Wikipedia、企业内部文档;
- 特点:数据质量和结构化程度影响回答准确性,需要定期更新以保持时效性;
- 应用:问答系统、信息检索、知识管理;
-
Chunking 分块
- 定义:Chunking 是将大文档分割为小块chunks,便于索引和检索;
- 示例:将一篇长文章分割为段落或固定长度的句子;
- 特点:减小检索粒度,提升效率,分块策略影响上下文质量;
- 应用:RAG的文档预处理、长文本处理;
-
Hallucination 幻觉
- 定义:Hallucination是指LLM生成与事实不符或无依据的信息;
- 示例:模型声称“地球是平的”,但无证据支持;
- 特点:常见于生成型任务,难以完全避免,可通过RAG或事实核查缓解;
- 应用:内容审核、生成质量控制;
-
Bias 偏见
- 定义:Bias 是模型输出中反映的训练数据中的偏见,可能导致不公平或歧视性结果。
- 示例:模型对某些职业表现出性别刻板印象。
- 特点:源于训练数据的偏差,可通过数据清洗和模型调整减轻;
- 应用:公平性评估、伦理审查;
-
Ethical Considerations 伦理考虑
- 定义:Ethical Considerations 涉及 LLM 使用中的伦理问题,如隐私保护、安全性和误导信息传播。
- 示例:防止模型泄露用户数据、避免生成有害内容。
- 特点:随着LLM应用扩展,伦理问题日益重要,需要技术、政策和教育共同解决;
- 应用:模型部署审查、用户隐私保护。