一种文本相似词汇检索方法、系统、介质及电子设备技术方案

技术编号:29584514 阅读:9 留言:0更新日期:2021-08-06 19:43
本公开提供了一种文本相似词汇检索方法、系统、介质及电子设备,获取文本中的待聚类的词语;根据获取的词语,得到词语、字符、子字符和笔画在构建词嵌入向量中的权重,根据权重得到最终的词嵌入向量;根据各个词语的词嵌入向量的夹角余弦值的差异进行文本中词语的聚类;本公开结合词语内部的笔画信息、子字符信息和字符信息,给予词语内部组件合理的权重,实现了词嵌入向量的联合优化,提高了词嵌入向量的质量,极大的提高了文本相似词汇检索的准确度。

【技术实现步骤摘要】
一种文本相似词汇检索方法、系统、介质及电子设备
本公开涉及文本数据处理
,特别涉及一种文本相似词汇检索方法、系统、介质及电子设备。
技术介绍
本部分的陈述仅仅是提供了与本公开相关的
技术介绍
,并不必然构成现有技术。自然语言处理作为计算机科学和人工智能(ArtificialIntelligence,AI)领域的重要研究学科具有巨大的优势。自然语言处理的研究目的在于使计算机理解和应用人类语言,从而实现人机之间的声音、文字、图像等信息交互。把单词视为基本单元,并将单词映射到向量空间来学习词嵌入已成为一种重要的方法。词向量作为语言模型的输入单词特征,在自然语言处理任务中有着广泛的应用,比如情感分析、命名实体识别、命名实体消歧、机器翻译、文本分类和文本语义相似性分析。词嵌入向量作为单词特征,能够从多个角度去考虑词的信息,不仅蕴含着词语与词语在向量空间上的距离信息,还包含着丰富的语义信息。但是,传统的训练词嵌入向量的方法需要消耗巨大的计算资源,无法高效的处理以亿计的大规模文本语料库。专利技术人发现,与英文不同的是,中文词语可能由一个或多个字符组成,并且,每一个字符包含着丰富的语义信息。比如说,词语“眼睛”由汉字“眼”和汉字“睛”两个字符组成。现有的方案中并未考虑构成词语的笔画、子字符和字符对于表达词语语义的贡献度的问题,通常情况下,词语能够表达出80%-90%的语义信息,然而只根据构成词语的字符、子字符和笔画,无法完全的表达出词语的整个语义。
技术实现思路
为了解决现有技术的不足,本公开提供了一种文本相似词汇检索方法、系统、介质及电子设备,结合词语内部的笔画信息、子字符信息和字符信息,给予词语内部组件合理的权重,实现了词嵌入向量的联合优化,提高了词嵌入向量的质量,极大的提高了文本相似词汇检索的准确度。为了实现上述目的,本公开采用如下技术方案:本公开第一方面提供了一种文本相似词汇检索方法。一种文本相似词汇检索方法,包括以下过程:获取目标词语和待检索的包含多个词语的文本数据;根据获取的目标词语和文本数据,得到词语、字符、子字符和笔画在构建词嵌入向量中的权重,根据权重得到最终的词嵌入向量;根据目标词语与文本数据中各个词语的词嵌入向量的夹角余弦值的差异进行文本数据中词语的聚类,根据聚类结果得到与目标词语匹配的识别结果。进一步的,根据获取的词语,使用Skip-Gram语言模型,得到初始笔画嵌入向量、初始子字符嵌入向量、初始字符嵌入向量和初始词语嵌入向量;分别根据初始笔画嵌入向量、初始子字符嵌入向量、初始字符嵌入向量和初始词语嵌入向量,得到各自构建的词嵌入向量在词语相似度任务上的得分;根据得分和预设转换函数,得到词语、字符、子字符和笔画在构建词嵌入向量中的权重。更进一步的,预设转换函数为:F(x)=ex-1。更进一步的,笔画、子字符、字符和词语在构建词嵌入向量过程中的权重为:其中,λ1,λ2,λ3,λ4分别为笔画、子字符、字符和词语在构建词嵌入向量过程中的权重,ρ1、ρ2、ρ3和ρ4分别为笔画、子字符、字符和词语的得分。更进一步的,分别利用初始笔画嵌入向量、初始子字符嵌入向量、初始字符嵌入向量和初始词语嵌入向量,在预设数据集上进行相似度任务评估;计算词语之间的相似度,使用标注得分和由词嵌入向量计算的相似度值计算皮尔逊相关系数,取皮尔逊相关系数的平均值作为词嵌入向量在词语相似度任务上的得分。更进一步的,利用字符构建的词嵌入向量为各个字符向量的加和与字符向量个数的比值。更进一步的,利用子字符构建的词嵌入向量为各个子字符向量的加和与字符向量个数的比值。更进一步的,利用笔画构建的词嵌入向量为各个笔画向量的加和与笔画向量个数的比值。本公开第二方面提供了一种文本相似词汇检索系统。一种文本相似词汇检索系统,包括:数据获取模块,被配置为:获取文本中的待聚类的词语;词嵌入向量构建模块,被配置为:根据获取的词语,得到词语、字符、子字符和笔画在构建词嵌入向量中的权重,根据权重得到最终的词嵌入向量;词汇检索模块,被配置为:根据各个词语的词嵌入向量的夹角余弦值的差异进行文本中词语的聚类。本公开第三方面提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如本公开第一方面所述的文本相似词汇检索方法中的步骤。本公开第四方面提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本公开第一方面所述的文本相似词汇检索方法中的步骤。与现有技术相比,本公开的有益效果是:本公开所述的文本相似词汇检索方法、系统、介质及电子设备,结合词语内部的笔画信息、子字符信息和字符信息,给予词语内部组件合理的权重,实现了词嵌入向量的联合优化,提高了词嵌入向量的质量,极大的提高了文本相似词汇检索的准确度。本公开附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本公开的实践了解到。附图说明构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。图1为公开实施例1提供的词嵌入向量的构建方法的流程示意图。图2为公开实施例1提供的优化词嵌入向量的方法示意图。图3为公开实施例1提供的结果示意图。具体实施方式下面结合附图与实施例对本公开作进一步说明。应该指出,以下详细说明都是示例性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属
的普通技术人员通常理解的相同含义。需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。实施例1:如图1-3所示,本公开实施例1提供了一种文本相似词汇检索方法,包括以下过程:获取目标词语和待检索的包含多个词语的文本数据;根据获取的目标词语和文本数据,得到词语、字符、子字符和笔画在构建词嵌入向量中的权重,根据权重得到最终的词嵌入向量;根据目标词语与文本数据中各个词语的词嵌入向量的夹角余弦值的差异进行文本数据中词语的聚类,根据聚类结果得到与目标词语匹配的识别结果。具体的,词嵌入向量的获取,包括以下内容:步骤(1):使用Skip-Gram语言模型获取初始词嵌入向量、初始字符嵌入向量、初始子字符嵌入向量、初始笔画嵌入向量。步骤(2):使用仅由字符组成的词嵌入向量,在WordSim-29本文档来自技高网
...

【技术保护点】
1.一种文本相似词汇检索方法,其特征在于:包括以下过程:/n获取目标词语和待检索的包含多个词语的文本数据;/n根据获取的目标词语和文本数据,得到词语、字符、子字符和笔画在构建词嵌入向量中的权重,根据权重得到最终的词嵌入向量;/n根据目标词语与文本数据中各个词语的词嵌入向量的夹角余弦值的差异进行文本数据中词语的聚类,根据聚类结果得到与目标词语匹配的识别结果。/n

【技术特征摘要】
1.一种文本相似词汇检索方法,其特征在于:包括以下过程:
获取目标词语和待检索的包含多个词语的文本数据;
根据获取的目标词语和文本数据,得到词语、字符、子字符和笔画在构建词嵌入向量中的权重,根据权重得到最终的词嵌入向量;
根据目标词语与文本数据中各个词语的词嵌入向量的夹角余弦值的差异进行文本数据中词语的聚类,根据聚类结果得到与目标词语匹配的识别结果。


2.如权利要求1所述的文本相似词汇检索方法,其特征在于:
根据获取的词语,使用Skip-Gram语言模型,得到初始笔画嵌入向量、初始子字符嵌入向量、初始字符嵌入向量和初始词语嵌入向量;
分别根据初始笔画嵌入向量、初始子字符嵌入向量、初始字符嵌入向量和初始词语嵌入向量,得到各自构建的词嵌入向量在词语相似度任务上的得分;
根据得分和预设转换函数,得到词语、字符、子字符和笔画在构建词嵌入向量中的权重。


3.如权利要求2所述的文本相似词汇检索方法,其特征在于:
预设转换函数为:F(x)=ex-1。


4.如权利要求3所述的文本相似词汇检索方法,其特征在于:
笔画、子字符、字符和词语在构建词嵌入向量过程中的权重为:



其中,λ1,λ2,λ3,λ4分别为笔画、子字符、字符和词语在构建词嵌入向量过程中的权重,ρ1、ρ2、ρ3和ρ4分别为笔画、子字符、字符和词语的得分。


5.如权利要求2所述的文本相似词汇检索方法,其特征在于:
分别利用初始笔画嵌入向量、初始子字符嵌入向量、初始字符嵌入向量和初始词语嵌入...

【专利技术属性】
技术研发人员:郑元杰庄承阳姜岩芸刘弘黄文慧
申请(专利权)人:山东师范大学
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1