一种文本相似词汇检索方法、系统、介质及电子设备技术方案

技术编号:29584514 阅读:16 留言:0更新日期:2021-08-06 19:43
本公开提供了一种文本相似词汇检索方法、系统、介质及电子设备,获取文本中的待聚类的词语;根据获取的词语,得到词语、字符、子字符和笔画在构建词嵌入向量中的权重,根据权重得到最终的词嵌入向量;根据各个词语的词嵌入向量的夹角余弦值的差异进行文本中词语的聚类;本公开结合词语内部的笔画信息、子字符信息和字符信息,给予词语内部组件合理的权重,实现了词嵌入向量的联合优化,提高了词嵌入向量的质量,极大的提高了文本相似词汇检索的准确度。

【技术实现步骤摘要】
一种文本相似词汇检索方法、系统、介质及电子设备
本公开涉及文本数据处理
,特别涉及一种文本相似词汇检索方法、系统、介质及电子设备。
技术介绍
本部分的陈述仅仅是提供了与本公开相关的
技术介绍
,并不必然构成现有技术。自然语言处理作为计算机科学和人工智能(ArtificialIntelligence,AI)领域的重要研究学科具有巨大的优势。自然语言处理的研究目的在于使计算机理解和应用人类语言,从而实现人机之间的声音、文字、图像等信息交互。把单词视为基本单元,并将单词映射到向量空间来学习词嵌入已成为一种重要的方法。词向量作为语言模型的输入单词特征,在自然语言处理任务中有着广泛的应用,比如情感分析、命名实体识别、命名实体消歧、机器翻译、文本分类和文本语义相似性分析。词嵌入向量作为单词特征,能够从多个角度去考虑词的信息,不仅蕴含着词语与词语在向量空间上的距离信息,还包含着丰富的语义信息。但是,传统的训练词嵌入向量的方法需要消耗巨大的计算资源,无法高效的处理以亿计的大规模文本语料库。专利技术人发现,与英文不同的是,中文词语可能由本文档来自技高网...

【技术保护点】
1.一种文本相似词汇检索方法,其特征在于:包括以下过程:/n获取目标词语和待检索的包含多个词语的文本数据;/n根据获取的目标词语和文本数据,得到词语、字符、子字符和笔画在构建词嵌入向量中的权重,根据权重得到最终的词嵌入向量;/n根据目标词语与文本数据中各个词语的词嵌入向量的夹角余弦值的差异进行文本数据中词语的聚类,根据聚类结果得到与目标词语匹配的识别结果。/n

【技术特征摘要】
1.一种文本相似词汇检索方法,其特征在于:包括以下过程:
获取目标词语和待检索的包含多个词语的文本数据;
根据获取的目标词语和文本数据,得到词语、字符、子字符和笔画在构建词嵌入向量中的权重,根据权重得到最终的词嵌入向量;
根据目标词语与文本数据中各个词语的词嵌入向量的夹角余弦值的差异进行文本数据中词语的聚类,根据聚类结果得到与目标词语匹配的识别结果。


2.如权利要求1所述的文本相似词汇检索方法,其特征在于:
根据获取的词语,使用Skip-Gram语言模型,得到初始笔画嵌入向量、初始子字符嵌入向量、初始字符嵌入向量和初始词语嵌入向量;
分别根据初始笔画嵌入向量、初始子字符嵌入向量、初始字符嵌入向量和初始词语嵌入向量,得到各自构建的词嵌入向量在词语相似度任务上的得分;
根据得分和预设转换函数,得到词语、字符、子字符和笔画在构建词嵌入向量中的权重。


3.如权利要求2所述的文本相似词汇检索方法,其特征在于:
预设转换函数为:F(x)=ex-1。


4.如权利要求3所述的文本相似词汇检索方法,其特征在于:
笔画、子字符、字符和词语在构建词嵌入向量过程中的权重为:



其中,λ1,λ2,λ3,λ4分别为笔画、子字符、字符和词语在构建词嵌入向量过程中的权重,ρ1、ρ2、ρ3和ρ4分别为笔画、子字符、字符和词语的得分。


5.如权利要求2所述的文本相似词汇检索方法,其特征在于:
分别利用初始笔画嵌入向量、初始子字符嵌入向量、初始字符嵌入向量和初始词语嵌入...

【专利技术属性】
技术研发人员:郑元杰庄承阳姜岩芸刘弘黄文慧
申请(专利权)人:山东师范大学
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1