【技术实现步骤摘要】
一种基于词汇语义增强的句子相似度计算方法
[0001]本专利技术属于自然语言处理领域,具体涉及一种基于词汇语义增强的句子相似度计算方法
。
技术介绍
[0002]目前,由于科学技术和互联网的飞速发展,网上的信息资源迅速增长,网民可以查阅的资源也越来越丰富,凡是不懂的问题,都可以在网络上查阅
。
随着注入网络中的信息不断丰富,也不乏充斥着大量的重复信息,其中据研究调查显示,网络中重复的网页数量占比约总网页数量的
1/3
,这说明在互联网中有相当大比例的网页成分是十分相似的
。
重复的网页信息对于搜索引擎来说意义是不大的,重复的信息不仅过度占用存储资源外,还使得人们很难获取到真正需要的信息,影响用户浏览体验
。
因此,在海量的数据中,高效准确地排查句子的相似性显得尤为重要
。
[0003]在基于词级句子相似性的相关技术中,公开了一种基于词频的
TF
‑
IDF
的统计方法计算句子的相似性
。
其
【技术保护点】
【技术特征摘要】
1.
一种基于词汇语义增强的句子相似度计算方法,其特征在于,包括如下步骤:步骤
1、
获取源数据和词汇约束集合;步骤
2、
对源数据和词汇约束集合进行预处理;步骤
3、
采用主成分分析法对第二数据进行降维处理,提取词向量中的主要特征,得到第三数据;步骤
4、
针对不同的词汇约束集合构建不同的损失函数;步骤
5、
进行分布式词向量优化;步骤
6、
计算两个句子的余弦相似度
。2.
根据权利要求1所述基于词汇语义增强的句子相似度计算方法,其特征在于,所述步骤1中,获取的源数据为通过
Word2vec
模型训练生成的分布式词向量;通过学习不同的知识资源获得词汇约束集合,词汇约束集合中包括三种,分别为:同义词约束集合
、
反义词约束集合
、
上义词
‑
下义词约束集合
。3.
根据权利要求1所述基于词汇语义增强的句子相似度计算方法,其特征在于,所述步骤2的具体过程如下:步骤
2.1、
对源数据建立数据字典,将每个词汇映射成唯一的索引;步骤
2.2、
读取源数据和词汇约束集合,将源数据作为第一数据;步骤
2.3、
读取词汇约束集合和第一数据,进行字段类型转换;步骤
2.4、
将词汇约束集合中的词汇与第一数据中的词汇做对比,判断词汇约束集合中的词汇是否存在于第一数据中,将既属于词汇约束集合又属于第一数据的词汇作为第二数据;步骤
2.5、
将不同的词汇约束集合进行重复值处理,去除词汇约束集合中的重复内容
。4.
根据权利要求1所述基于词汇语义增强的句子相似度计算方法,其特征在于,所述步骤3的具体过程如下:步骤
3.1、
对第二数据的分布式词向量进行去中心化操作;步骤
3.2、
计算选取的
batch
块中词向量的的协方差矩阵;步骤
3.3、
对协方差矩阵做特征值分解,计算特征值和特征向量,并对特征值进行降序排列;步骤
3.4、
按照实际需求,取最大的
D
个特征值所对应的单位特征向量;步骤
3.5、
确定变换矩阵,进行数据降维,求解结束后获得降维后的第三数据
。5.
根据权利要求1所述基于词汇语义增强的句子相似度计算方法,其特征在于,所述步骤4的具体过程如下:构建第一损失函数,公式如下:
L
i,j
=
log(∑
(i,k)∈M
exp(
β
‑
D
i,k
)+∑
(j,k)∈M
exp(
β
‑
D
j,k
))+D
i,j
ꢀꢀꢀ
(1)
;其中,
L
i,j
表示样本示例对
(i,j)
在分布式空间中的损失;
i
表示示示例对
(i,j)
中的锚点样本;
k
表示
batch
块选中的距离锚点样本
i
最近的负样本;
M
表示
batch
块中所有的负样本对;
D
i,k
表示锚点样本
i
与其负样本
k
之间的距离;
j
表示样本示...
【专利技术属性】
技术研发人员:潘正祥,王潇,朱淑娟,杨东强,
申请(专利权)人:山东科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。