Embedding入门介绍以及为什么Embedding在大语言模型中很重要

2 篇文章 0 订阅
订阅专栏
Embeddings技术简介及其历史概要

在机器学习和自然语言处理中,embedding是指将高维度的数据(例如文字、图片、音频)映射到低维度空间的过程。embedding向量通常是一个由实数构成的向量,它将输入的数据表示成一个连续的数值空间中的点。

简单来说,embedding就是一个N维的实值向量,它几乎可以用来表示任何事情,如文本、音乐、视频等。在这里,我们也主要是关注文本的embedding。

而embedding重要的原因在于它可以表示单词或者语句的语义。实值向量的embedding可以表示单词的语义,主要是因为这些embedding向量是根据单词在语言上下文中的出现模式进行学习的。例如,如果一个单词在一些上下文中经常与另一个单词一起出现,那么这两个单词的嵌入向量在向量空间中就会有相似的位置。这意味着它们有相似的含义和语义。

embedding技术的发展可以追溯到20世纪50年代和60年代的语言学研究,其中最著名的是Harris在1954年提出的分布式语义理论(distributional semantic theory)。这个理论认为,单词的语义可以通过它们在上下文中的分布来表示,也就是说,单词的含义可以从其周围的词语中推断出来。

 

在计算机科学领域,最早的embedding技术可以追溯到20世纪80年代和90年代的神经网络研究。在那个时候,人们开始尝试使用神经网络来学习单词的embedding表示。其中最著名的是Bengio在2003年提出的神经语言模型(neural language model),它可以根据单词的上下文来预测下一个单词,并且可以使用这个模型来生成单词的embedding表示。

自从2010年左右以来,随着深度学习技术的发展,embedding技术得到了广泛的应用和研究。在这个时期,出现了一些重要的嵌入算法,例如Word2Vec、GloVe和FastText等。这些算法可以通过训练神经网络或使用矩阵分解等技术来学习单词的嵌入表示。这些算法被广泛用于各种自然语言处理任务中,例如文本分类、机器翻译、情感分析等。

近年来,随着深度学习和自然语言处理技术的快速发展,embedding技术得到了进一步的改进和发展。例如,BERT、ELMo和GPT等大型语言模型可以生成上下文相关的embedding表示,这些embedding可以更好地捕捉单词的语义和上下文信息。

Embedding的主要价值在哪里?

如前所述,embedding向量是包含语义信息的。也就是含义相近的单词,embedding向量在空间中有相似的位置,但是,除此之外,embedding也有其它优点。

例如,实值向量表示的embedding可以进行向量运算。例如,通过对embedding向量执行向量加法和减法操作,可以推断出单词之间的语义关系。例如,对于embedding向量表示的“king”和“man”,执行“queen = king - man + woman”操作可以得到一个向量表示“queen”,这个向量与实际的“queen”向量在向量空间中非常接近。

此外,实值向量embedding还可以在多个自然语言处理任务中进行共享和迁移。例如,在训练一个情感分析模型时,可以使用在句子分类任务中训练的嵌入向量,这些向量已经学习到了单词的语义和上下文信息,从而可以提高模型的准确性和泛化能力。

综上所述,实值向量embedding可以通过从大量的语言数据中学习单词的语义和上下文信息,从而能够表示单词的语义,并且可以进行向量运算和在不同自然语言处理任务中共享和迁移。

Embedding在大模型中的价值

前面说的其实都是Embedding在之前的价值。但是,大语言模型时代,例如ChatGPT这样的模型流行之后,大家发现embedding有了新的价值,即解决大模型的输入限制。

此前,OpenAI官方也发布了一个案例,即如何使用embedding来解决长文本输入问题,我们DataLearner官方博客也介绍了这个教程: OpenAI官方教程:如何使用基于embeddings检索来解决GPT无法处理长文本和最新数据的问题。

像 GPT-3 这样的语言模型有一个限制,即它们可以处理的输入文本量有限。这个限制通常在几千到数万个tokens之间,具体取决于模型架构和可用的硬件资源。

这意味着对于更长的文本,例如整本书或长文章,可能无法一次将所有文本输入到语言模型中。在这种情况下,文本必须被分成较小的块或“片段”,可以由语言模型单独处理。但是,这种分段可能会导致输出的上下文连贯性和整体连贯性问题,从而降低生成文本的质量。

这就是Embedding的重要性所在。通过将单词和短语表示为高维向量,Embedding允许语言模型以紧凑高效的方式编码输入文本的上下文信息。然后,模型可以使用这些上下文信息来生成更连贯和上下文适当的输出文本,即使输入文本被分成多个片段。

此外,可以在大量文本数据上预训练Embedding,然后在小型数据集上进行微调,这有助于提高语言模型在各种自然语言处理应用程序中的准确性和效率。

如何基于Embedding让大模型解决长文本(如PDF)的输入问题?

这里我们给一个案例来说明如何用Embedding来让ChatGPT回答超长文本中的问题。

如前所述,大多数大语言模型都无法处理过长的文本。除非是GPT-4-32K,否则大多数模型如ChatGPT的输入都很有限。假设此时你有一个很长的PDF,那么,你该如何让大模型“读懂”这个PDF呢?

首先,你可以基于这个PDF来创建向量embedding,并在数据库中存储(当前已经有一些很不错的向量数据库了,如Pinecone)。

接下来,假设你想问个问题“这个文档中关于xxx是如何讨论的?”。那么,此时你有2个向量embedding了,一个是你的问题embedding,一个是之前PDF的embedding。此时,你应该基于你的问题embedding,去向量数据库中搜索PDF中与问题embedding最相似的embedding。然后,把你的问题embedding和检索的得到的最相似的embedding一起给ChatGPT,然后让ChatGPT来回答。

当然,你也可以针对问题和检索得到的embedding做一些提示工程,来优化ChatGPT的回答。

如何生成和存储Embedding

其实,生成Embedding的方法有很多。这里列举几个比较经典的方法和库:

  1. Word2Vec:是一种基于神经网络的模型,用于将单词映射到向量空间中。Word2Vec包括两种架构:CBOW (Continuous Bag-of-Words) 和 Skip-gram。CBOW 通过上下文预测中心单词,而 Skip-gram 通过中心单词预测上下文单词。这些预测任务训练出来的神经网络权重可以用作单词的嵌入。

  2. GloVe:全称为 Global Vectors for Word Representation,是一种基于共现矩阵的模型。该模型使用统计方法来计算单词之间的关联性,然后通过奇异值分解(SVD)来生成嵌入。GloVe 的特点是在计算上比 Word2Vec 更快,并且可以扩展到更大的数据集。

  3. FastText:是由 Facebook AI Research 开发的一种模型,它在 Word2Vec 的基础上添加了一个字符级别的 n-gram 特征。这使得 FastText 可以将未知单词的嵌入表示为已知字符级别 n-gram 特征的平均值。FastText 在处理不规则单词和罕见单词时表现出色。

  4. OpenAI的Embeddings:这是OpenAI官方发布的Embeddings的API接口。目前有2代产品。目前主要是第二代模型:text-embedding-ada-002。它最长的输入是8191个tokens,输出的维度是1536。

这些方法都有各自的优点和适用场景,选择最适合特定应用程序的嵌入生成方法需要根据具体情况进行评估和测试。不过,有人测试过,OpenAI应该是目前最好的。不过,收费哦~但是很便宜,1000个tokens只要0.0004美元,也就是1美元大约可以返回3000页的内容。获取之后直接保存就行。

目前,embedding的保存可以考虑使用向量数据库。例如,

  1. Pinecone的产品,最近刚以10亿美元的估值融资了1亿美金。Shopify, Brex, Hubspot都是它产品的用户。
  2. Milvus是一个开源的向量数据库。
  3. Anthropic VDB,这是Anthropic公司开发的安全性高的向量数据库,能够对向量数据进行改变、删除、替换等操作,同时保证数据库完整性。
总结

embedding在word2vec发布的时候很火。这几年似乎没那么热,但是随着大语言模型的长输入限制越来越明显,embedding技术重新被大家所重视。

 

语言模型在信息检索的应用与优化
程序员光剑
07-23 727
语言模型在信息检索的应用与优化 作者:禅与计算机程序设计艺术 / Zen and the Art of Computer Programming 1. 背景介绍 1.1 问题的由来 信息检索是人工智能领域的一个基础且广泛应
AI大模型应用入门实战与进阶:大规模语言模型的训练技巧
程序员光剑
02-01 130
1.背景介绍 AI大模型应用入门实战与进阶:大规模语言模型的训练技巧 作者:禅与计算机程序设计艺术 背景介绍 1.1 人工智能与大模型 随着人工智能(Artifici
Embedding原理到实战
KaikebaAI的博客
03-09 1758
原创:王稳钺 资料来源:张春阳 词向量被应用在非常非常多的场景,甚至可以说跟文字相关的互联网应用基本上都会跟词向量有关系。本文主要从应用、发展以及实战代码来介绍词向量。 1. 词向量的应用 搜索引擎是人们每天都在使用的产品,搜索引擎其实就是利用词向量技术来进行搜索的。搜索引擎是如何工作的呢?其实主要分为三步。第一步,搜索引擎需要爬取互联网上所有的文章,把这些文章全部都转化成词向量。第二步是要将搜索词也转化为词向量。最后一步就是用搜索词的词向量与文章转变成的词向量进行相似度的比较,再把与搜索词相似的文章返回
深入浅出:大语言模型必不可少的技术——Embedding简介
Climbman的博客
07-30 3064
最著名的是Bengio在2003年提出的神经语言模型(neural language model),它可以根据单词的上下文来预测下一个单词,并且可以使用这个模型来生成单词的embedding表示。这个理论认为,单词的语义可以通过它们在上下文的分布来表示,也就是说,单词的含义可以从其周围的词语推断出来。不过,有人测试过,OpenAI应该是目前最好的。例如,在训练一个情感分析模型时,可以使用在句子分类任务训练的嵌入向量,这些向量已经学习到了单词的语义和上下文信息,从而可以提高模型的准确性和泛化能力。
神经网络算法 - 一文搞懂Embedding(嵌入)
最新发布
weixin_53880910的博客
08-03 1924
本文将从**Embedding的本质、Embedding的原理、Embedding的应用**三个方面,带您一文搞懂Embedding(嵌入)。
【大模型开发】 一文搞懂Embedding工作原理
热门推荐
qq_39172059的博客
03-12 1万+
本文将从三个方面,带您一文搞懂。
embedding的原理和结构
m0_46311043的博客
02-29 1371
(向量化)是一个将数据转化为向量矩阵的过程,作用是:将高维稀疏向量转化为稠密向量,从而方便下游模型处理简单的概念大家应该都知道了,以LLM为例输入:文字模型embedding输出:向量我疑惑的难点主要为以下:1.embedding的结构√2.embedding的训练(根据不同的目标进行数据不同的组织形式,进行相对应任务的训练,可以看结构想到)3.embedding的难点以及各种模型的优势(未解决)
embedding表示方法及原理
盏茶AI
06-04 7734
目录1.前言2.embedding表示方法2.1 word2vec embedding2.2 neural network embedding2.3 graph embedding3.参考文献 1.前言 近几年embedding的使用及优化在各种比赛、论文都有很多的应用,使用embedding表示特征的空间表示也在各种应用确定是一种很有效的特征表示方法,基于embedding进行的特征交叉的工作也有很多,因此本文主要整理常用的embedding表示方法及原理 2.embedding表示方法 2.1 wo
神经网络算法:一文搞懂 Embedding(嵌入)
2401_84033492的博客
04-02 3770
本文将从Embedding的本质、Embedding的原理、Embedding的应用三个方面,带您一文搞懂Embedding(嵌入)。
AI大模型应用入门实战与进阶:大模型在舆情分析的应用
程序员光剑
01-06 1116
舆情分析是一种利用大数据技术、人工智能技术对社交媒体、新闻报道、论坛讨论等信息进行分析,以了解公众对某个话题的态度、需求和需求,为政府和企业制定政策和营销策略提供依据的方法。随着人工智能技术的发展,尤其是大模型技术的迅猛发展,舆情分析的应用也得到了广泛的推广和认可。
基于LangChain-Chatchat实现的RAG-本地知识库的问答应用[6]-实现Milvus向量检索+实现自定义关键词调整Embedding模型
丨汀、的博客
07-02 330
基于LangChain-Chatchat实现的RAG-本地知识库的问答应用[6]-实现Milvus向量检索+实现自定义关键词调整Embedding模型
AIGC从入门到实战:自然语言处理和大语言模型简介
程序员光剑
05-28 314
AIGC从入门到实战:自然语言处理和大语言模型简介 作者:禅与计算机程序设计艺术 1.背景介绍 1.1 人工智能的发展历程 1.1.1 人工智能的起源与定义
模型开发Embedding技术介绍
金木编程
06-19 579
比如,在电影推荐系统,可以通过Embedding表示用户的喜好和电影的特征,从而进行个性化推荐。Embedding技术在大模型开发发挥了重要作用,能够有效地将数据转换为向量表示,捕捉数据的语义和上下文信息。通常使用神经网络模型,如Word2Vec、GloVe和BERT等,将离散的数据映射到连续的向量空间。在特定任务和领域,可以通过自定义训练Embedding模型,获取适合特定任务的词向量。使用预训练模型,如Word2Vec、GloVe和BERT,直接获取预训练好的词向量。自然语言处理(NLP)
认识大模型Embedding技术,加代码实战
python12222_的博客
06-14 1446
Embedding (嵌入)是一个浮点数的向量(列表)。两个向量之间的距离度量它们的相关性,小的距离表示高相关性,大的距离表示低相关性。Embedding (嵌入)也是是一种在机器学习和深度学习广泛应用的技术,特别是自然语言处理(NLP)和其他涉及高维离散数据的领域。它指的是将原本高维且通常是离散的输入数据(如单词、短语、用户ID、商品ID等)映射到一个低维连续向量空间的过程。这些低维向量称为嵌入(Embedding vectors)。例如,“国王”和“王后”在嵌入向量的空间里,位置就会挨得很近;
什么是Embedding
Kp0fS的草稿纸
01-27 1128
什么是Embedding Embedding 这样一种将离散变量转变为连续向量的方式为神经网络在各方面的应用带来了极大的扩展。——Ethan
算法面试之Embedding
持续战斗状态的博客
04-07 714
词向量(Word Vector)或称为词嵌入(Word Embedding)做的事情就是将词表的单词映射为实数向量 1.One-Hot 无法反映文本的有序性 无法通过词向量来衡量相关词之间的距离关系 高维情形下将导致数据样本稀疏 解决了分类器不好处理属性数据的问题。 在一定程度上也起到了扩充特征的作用。 2.N-gram模型 用之前的n个文本来计算当前文本的条件概率,一个词的出现不依赖于其他任何词时,称为unigram;当一个词的出现依赖于上一个词时,我们称为bigram Ngram仅仅解决了文本之间的
机器学习Embeddings是什么
如果想成为中心,那么就到中心去吧。
07-03 1189
要理解嵌入,我们必须首先了解机器学习模型的基本要求。具体来说,大多数机器学习算法只能将低维数值数据作为输入。在下面的神经网络,每个输入特征都必须是数字。这意味着在推荐系统等领域,我们必须将非数字变量(例如项目和用户)转换为数字和向量。我们可以尝试用产品 ID 来表示商品;然而,神经网络将数字输入视为连续变量。这意味着较高的数字“大于”较低的数字。它还将相似的数字视为相似的项目。这对于“年龄”这样的字段来说非常有意义,但当数字代表分类变量时就毫无意义了。
写文章

热门文章

  • HUDI原理及深入探究(一) 4502
  • windows下spark2.1源码编译及修改 4188
  • 为什么HBase数据查询快速 3990
  • centos7默认开机进入命令行界面 3885
  • Java操作HBase时报NotServingRegionException异常 3811

分类专栏

  • 大模型 2篇
  • 数据湖 3篇
  • MFC控件 3篇
  • linux 1篇
  • 大数据 20篇
  • hbase 9篇
  • spark 7篇
  • 设计模式 1篇

最新评论

  • Hive基准测试神器-hive-testbench

    飙风宅男: 大部分跑通了,spark-sql基本都能跑通

  • Hive基准测试神器-hive-testbench

    m0_75040626: 你跑通了吗,我做sql查询也有大量语法错误

  • HUDI原理及深入探究(一)

    qq_43820655: 机制感觉和HBASE差不多啊

  • MapReduce NativeTask优化详解

    一个渣渣sql_boy: 非常好的文章,我想了解一下,您是如何判断nativetask如何适配Hadoop 0.20-0.23版本的呢?或者说您是否有手动部署native task到较早版本的hadoop的经验呢?

  • Kerberos下Dbeaver连接Hive

    冻情: 宁宁总,yyds,检查了半天我hosts没添加表情包

大家在看

  • Type-C 诱骗取电快充协议芯片,支持取电电压5V、9V、12V、15V、20V 397
  • PD 取电快充协议芯片 支持广泛应用,最高取电电压100W
  • Boston波士顿房价预测 +两种回归算法建模和分析 1068
  • 828华为云征文|华为云Flexus X实例下的场景体验——小企业使用Python语言——超迅速搭建简单公网API接口服务
  • 【Proteus仿真】基于51单片机的简易电压表制作(可串口远程调控) 584

最新文章

  • Hadoop性能调优建议
  • 一文了解数据治理全知识体系!
  • 大语模型前世今生
2023年7篇
2022年11篇
2021年12篇
2019年1篇
2018年2篇
2017年1篇
2016年8篇
2013年3篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

玻璃钢生产厂家商场美陈柱子装饰德阳玻璃钢人物雕塑湖南玻璃钢仿真水果雕塑定制南京哪里有玻璃钢雕塑厂家开原玻璃钢游乐场门头雕塑玻璃钢卡通雕塑哪家有宁夏景观玻璃钢雕塑定做佛山浮雕玻璃钢雕塑曲阳现代人物玻璃钢雕塑太康制作玻璃钢雕塑厂电话北京户内玻璃钢雕塑玻璃钢云彩浮雕雕塑图片鹤壁公园景观玻璃钢人物雕塑海口玻璃钢大熊雕塑山西玻璃钢抽象动物雕塑加工价格连云港玻璃钢雕塑设计与制作个旧市玻璃钢雕塑设计价格表大型商场美陈制造清远公园玻璃钢雕塑太湖玻璃钢动物雕塑河南附近玻璃钢仿铜雕塑生产玻璃钢鹿雕塑摆件供应邳州商场美陈布置武威彩色玻璃钢雕塑制作天津省玻璃钢雕塑公仔玻璃钢卡通雕塑尺寸贵州做商场美陈番禺玻璃钢鹿雕塑河北玻璃钢佛像雕塑张飞校园玻璃钢雕塑加工香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声单亲妈妈陷入热恋 14岁儿子报警汪小菲曝离婚始末遭遇山火的松茸之乡雅江山火三名扑火人员牺牲系谣言何赛飞追着代拍打萧美琴窜访捷克 外交部回应卫健委通报少年有偿捐血浆16次猝死手机成瘾是影响睡眠质量重要因素高校汽车撞人致3死16伤 司机系学生315晚会后胖东来又人满为患了小米汽车超级工厂正式揭幕中国拥有亿元资产的家庭达13.3万户周杰伦一审败诉网易男孩8年未见母亲被告知被遗忘许家印被限制高消费饲养员用铁锨驱打大熊猫被辞退男子被猫抓伤后确诊“猫抓病”特朗普无法缴纳4.54亿美元罚金倪萍分享减重40斤方法联合利华开始重组张家界的山上“长”满了韩国人?张立群任西安交通大学校长杨倩无缘巴黎奥运“重生之我在北大当嫡校长”黑马情侣提车了专访95后高颜值猪保姆考生莫言也上北大硕士复试名单了网友洛杉矶偶遇贾玲专家建议不必谈骨泥色变沉迷短剧的人就像掉进了杀猪盘奥巴马现身唐宁街 黑色着装引猜测七年后宇文玥被薅头发捞上岸事业单位女子向同事水杯投不明物质凯特王妃现身!外出购物视频曝光河南驻马店通报西平中学跳楼事件王树国卸任西安交大校长 师生送别恒大被罚41.75亿到底怎么缴男子被流浪猫绊倒 投喂者赔24万房客欠租失踪 房东直发愁西双版纳热带植物园回应蜉蝣大爆发钱人豪晒法院裁定实锤抄袭外国人感慨凌晨的中国很安全胖东来员工每周单休无小长假白宫:哈马斯三号人物被杀测试车高速逃费 小米:已补缴老人退休金被冒领16年 金额超20万

玻璃钢生产厂家 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化