【技术实现步骤摘要】
一种基于BM25加权结合词向量的文本表示方法
本专利技术涉及到数据库数据复制
,特别涉及一种基于BM25加权结合词向量的文本表示方法。
技术介绍
将文本表示成有意义和有效的形式是自然语言处理中的一项基本任务。它也是许多基于文本的预测任务(如文档分类)的初始步骤。由于它的重要性,因此有许多前人工作致力于开发高效和有效的算法来表示有利于下游任务的文本。早期的研究依赖于特征工程,通过从原始文本中提取词n元句法、词汇和句法特征来构造它们的特征集。它们使用一个超大维向量,如果某个词出现,则该向量对应维度为1,因此称为“单热”表示。这样的表示通常是稀疏的和离散的,不能捕捉特征之间的深层语义关联。其他各种技术,使用外部资源,如WordNet,以缓解特征稀疏问题。表示学习的最新进展缓解了上述问题。表示学习的目的是学习为文本学习一个稠密的,连续的向量,并捕捉语义之间的相关性文本。根据他们是否依赖外部监督,可以进一步分类为无监督和监督的方法。无监督的方法,如Word2vec,段落向量,首先随机初始化文本表示,然后更新表示来预测其上下文。共享相似上下文的文本在向量空间中彼此接近。 ...
【技术保护点】
1.一种基于BM25加权结合词向量的文本表示方法,其特征在于,从一个句子输入到模型中,到最后系统判定其是否为点击诱饵的实施过程分解包括如以下步骤:步骤1:词的切分,将文档中的句子分解成为单独的词以便进行后续处理;步骤2:预训练词向量,使用当前流行的词向量表示,稀疏和离散的“单热”表示难以捕捉词之间的语义关联性,而词向量表示连续和稠密,被训练来预测上下文中的周围单词;步骤3:计算词的BM25权重,在进行文本表示时,需要综合考虑词的局部重要性和全局重要性,计算每个词相对整篇文档的权重时,通过BM25算法给予与文档相关的词更高的权重;步骤4:得到文档向量表示,通过在引入的BM25 ...
【技术特征摘要】
1.一种基于BM25加权结合词向量的文本表示方法,其特征在于,从一个句子输入到模型中,到最后系统判定其是否为点击诱饵的实施过程分解包括如以下步骤:步骤1:词的切分,将文档中的句子分解成为单独的词以便进行后续处理;步骤2:预训练词向量,使用当前流行的词向量表示,稀疏和离散的“单热”表示难以捕捉词之间的语义关联性,而词向量表示连续和稠密,被训练来预测上下文中的周围单词;步骤3:计算词的BM25权重,在进行文本表示时,需要综合考虑词的局部重要性和全局重要性,计算每个词相对整篇文档的权重时,通过BM25算法给予与文档相关的词更高的权重;步骤4:得到文档向量表示,通过在引入的BM25函数获得单词向量及每个词对文档的相对重要性,可以获得一个文本的稠密向量表示,通过对词的向量与词的权重进行加权求和,能够得到文档的向量表示,并将其作为最终进行分类的特征表示;步骤5:分类,将词向量加权得到的向量作为文本的特征输入,通过分类器进行判断该文档分类到各个类别的概率,将概率最大的类别作为模型的输出。2.根据权利要求1所述的一种基于BM25加权结合词向量的文本表示方法,其特征在于,模型的框架由BM25加权模块、文本表示组件以及分类组件组成,其中,BM25加权模块测量文本中每个单词的重要性;文本表示组件计算用于文...
【专利技术属性】
技术研发人员:付俊峰,郑锦坤,梁良,
申请(专利权)人:国网江西省电力有限公司信息通信分公司,国家电网有限公司,
类型:发明
国别省市:江西,36
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。