【技术实现步骤摘要】
本专利技术涉及自然语言处理,特别涉及一种用于检索特定信息的计算词间相似度的方法及装置。
技术介绍
1、关系抽取是信息抽取研究领域中的重要研究课题之一,其目的是从海量非结构化的自然语言文本中识别并抽取出实体之间的语义关系,最终生成计算机可以识别与处理的结构化信息。
2、大数据时代背景下,网络用户人数激增,各类信息数量爆发式增长,包含了文本数据、声音数据、图像数据等,这其中文本数据所占比例最大,因此如何处理和利用海量文本数据显得尤为重要。然而文本数据虽然数量巨大,但并非所有文本都具有实际价值或对特定用户有意义,简单检索容易导致检索得到的词集不够泛化,信息不够准确。
技术实现思路
1、针对现有技术的问题,本专利技术提出了一种通过实体词间跳数衡量相关性的方法,以相关性指标计算为依据,呈现各实体间的相关性程度,根据实体词组和实体词组之间的跳数,预测得到实体词组之间的关系程度。
2、为了达到上述目的,本专利技术提供了一种用于检索特定信息的计算词间相似度的方法,其特征在于。包括如
...
【技术保护点】
1.一种用于检索特定信息的计算词间相似度的方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的用于检索特定信息的计算词间相似度的方法,其特征在于,所述预处理包括:
3.根据权利要求2所述的用于检索特定信息的计算词间相似度的方法,其特征在于:所述筛选关键词,基于辅助处理文本分析的NLTK、spaCy、JSON第三方库获取,且所述关键词只保留名词。
4.根据权利要求1所述的用于检索特定信息的计算词间相似度的方法,其特征在于,所述相似度模型具体为:
5.根据权利要求1所述的用于检索特定信息的计算词间相似度的方法,其特征在
...【技术特征摘要】
1.一种用于检索特定信息的计算词间相似度的方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的用于检索特定信息的计算词间相似度的方法,其特征在于,所述预处理包括:
3.根据权利要求2所述的用于检索特定信息的计算词间相似度的方法,其特征在于:所述筛选关键词,基于辅助处理文本分析的nltk、spacy、json第三方库获取,且所述关键词只保留名词。
4.根据权利要求1所述的用于检索特定信息的计算词间相似度的方法,其特征在于,所述相似度模型具体为:
5.根据权利要求1所述的用于检索特定信息的计算词间相似度的方法,其特征在于,将所述文本数据集根据...
【专利技术属性】
技术研发人员:赵轩,赵莉,张自远,廖帅宇,叶兆膨,夏晓菲,任思颖,
申请(专利权)人:上海工程技术大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。