一种用于检索特定信息的计算词间相似度的方法及装置制造方法及图纸

技术编号:41846701 阅读:23 留言:0更新日期:2024-06-27 18:25
本发明专利技术公开了一种用于检索特定信息的计算词间相似度的方法及装置,属于自然语言处理技术领域。获取文本数据集,并将所述文本数据集根据不同主题进行分类,获得子数据集;针对每一个所述子数据集中的文本进行预处理,分类获取所述子数据集的高频关键词;利用预先建立的相似度模型,针对每一个所述子数据集,抽取其高频关键词,两两组合,通过所述相似度模型确定它们之间的相似度。本发明专利技术利用自定义的相似度模型计算高频关键词间相似度,该方法扩大了相关词汇的方差,增加了相似度比较的准确性。另外根据得到的针对用户特定需求的关键词集绘制得到实体关系树,使得单次能够检索任意两个词汇,并得到与目标词汇相关联的全部高频词,更为准确迅速。

【技术实现步骤摘要】

本专利技术涉及自然语言处理,特别涉及一种用于检索特定信息的计算词间相似度的方法及装置


技术介绍

1、关系抽取是信息抽取研究领域中的重要研究课题之一,其目的是从海量非结构化的自然语言文本中识别并抽取出实体之间的语义关系,最终生成计算机可以识别与处理的结构化信息。

2、大数据时代背景下,网络用户人数激增,各类信息数量爆发式增长,包含了文本数据、声音数据、图像数据等,这其中文本数据所占比例最大,因此如何处理和利用海量文本数据显得尤为重要。然而文本数据虽然数量巨大,但并非所有文本都具有实际价值或对特定用户有意义,简单检索容易导致检索得到的词集不够泛化,信息不够准确。


技术实现思路

1、针对现有技术的问题,本专利技术提出了一种通过实体词间跳数衡量相关性的方法,以相关性指标计算为依据,呈现各实体间的相关性程度,根据实体词组和实体词组之间的跳数,预测得到实体词组之间的关系程度。

2、为了达到上述目的,本专利技术提供了一种用于检索特定信息的计算词间相似度的方法,其特征在于。包括如下步骤:

...

【技术保护点】

1.一种用于检索特定信息的计算词间相似度的方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的用于检索特定信息的计算词间相似度的方法,其特征在于,所述预处理包括:

3.根据权利要求2所述的用于检索特定信息的计算词间相似度的方法,其特征在于:所述筛选关键词,基于辅助处理文本分析的NLTK、spaCy、JSON第三方库获取,且所述关键词只保留名词。

4.根据权利要求1所述的用于检索特定信息的计算词间相似度的方法,其特征在于,所述相似度模型具体为:

5.根据权利要求1所述的用于检索特定信息的计算词间相似度的方法,其特征在于,将所述文本数据集...

【技术特征摘要】

1.一种用于检索特定信息的计算词间相似度的方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的用于检索特定信息的计算词间相似度的方法,其特征在于,所述预处理包括:

3.根据权利要求2所述的用于检索特定信息的计算词间相似度的方法,其特征在于:所述筛选关键词,基于辅助处理文本分析的nltk、spacy、json第三方库获取,且所述关键词只保留名词。

4.根据权利要求1所述的用于检索特定信息的计算词间相似度的方法,其特征在于,所述相似度模型具体为:

5.根据权利要求1所述的用于检索特定信息的计算词间相似度的方法,其特征在于,将所述文本数据集根据...

【专利技术属性】
技术研发人员:赵轩赵莉张自远廖帅宇叶兆膨夏晓菲任思颖
申请(专利权)人:上海工程技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1