消除新闻中行业词歧义的方法、装置、设备和存储介质制造方法及图纸

技术编号:30079693 阅读:17 留言:0更新日期:2021-09-18 08:36
本发明专利技术属于数据处理技术领域,具体涉及一种消除新闻中行业词歧义的方法、装置、设备和存储介质。其中方法包括:获取新闻,对新闻进行行业分类,得到行业标签分类结果;对行业标签分类结果进行标签共现检验,若检验未通过,则将全部的行业标签加入歧义判别列表中,若检验通过,则将存在歧义词集合中的特征词对应的行业标签加入歧义判别列表中,若不存在,则直接输出结果;通过预设的歧义判别模型对歧义判别列表中的行业标签进行判别,得到歧义判别结果,根据歧义判别结果进行输出。本发明专利技术摆脱了对歧义词表或知识图谱的重度依赖,可以自动发现歧义词表之外的歧义词带来的错误,大大减少了开发成本。了开发成本。了开发成本。

【技术实现步骤摘要】
消除新闻中行业词歧义的方法、装置、设备和存储介质


[0001]本专利技术属于数据处理
,具体涉及一种消除新闻中行业词歧义的方法、装置、设备和存储介质。

技术介绍

[0002]自然语言中存在许多一词多义的情况,当使用这些多义词作为特征进行文本分类时,歧义会影响分类结果的准确性,因此需要对多义词进行消歧计算,以确定多义词在当前上下文环境中的真实含义。
[0003]中国专利技术专利CN112069826A《融合主题模型和卷积神经网络的垂直域实体消歧方法》中提出了一种用主题模型计算主体特征相似度和用分类模型计算语义特征相似度,再将两种相似度融合以确定候选语义的方法。
[0004]中国专利技术专利CN112214999A《一种基于图模型和词向量相结合的词义消歧方法及装置》中提出了一种基于图模型和词向量相结合的词义消歧方法,通过图模型获取上下文背景知识,再通过词向量计算相似度以确定候选语义。
[0005]中国专利技术专利CN112256885A《一种标签消歧方法、装置、设备和计算机可读存储介质》中提出了一种通过知识图谱消歧的方法,从预先构建的知识图谱中获取与歧义标签对应的子图,借助指示词计算各个子图的权重,选出目标子图以确定候选语义。
[0006]目前现有的语义消歧方法存在一些不足,主要有以下几点:
[0007]1、需要事先确定歧义实体集合。
[0008]如上述专利技术CN112069826A、CN112214999A和CN112256885A都需要事先确定歧义词或歧义实体集合,只有在集合内的词才会进行消歧计算,未出现在集合内的新的歧义词无法被消歧。这需要不断地对歧义词集合进行人工维护,成本较高。
[0009]2、需要人工标注训练数据。
[0010]如上述专利技术CN112069826A中需要人工标注无歧义样本数据作为训练语料来训练分类模型,人工标注不仅花费较多的时间和资金成本,而且还存在标注一致性,类别变动时的扩充成本等问题。
[0011]3、需要知识图谱。
[0012]如上述专利技术CN112256885A利用知识图谱来进行消歧,知识图谱的代价比人工标注数据更为高昂,而且知识图谱往往针对特定领域,很难进行跨领域迁移。

技术实现思路

[0013]本专利技术针对现有的语义消歧方法存在人工维护成本高、需要人工标注训练数据或需要知识图谱的技术问题,目的在于提供一种消除新闻中行业词歧义的方法、装置、设备和存储介质。
[0014]一种消除新闻中行业词歧义的方法,包括:
[0015]获取新闻,对所述新闻进行行业分类,得到行业标签分类结果,所述行业标签分类
结果包括多个行业标签和所述行业标签对应的特征词集合;
[0016]对所述行业标签分类结果进行标签共现检验,若检验未通过,则将全部的所述行业标签加入预设的歧义判别列表中,若检验通过,则判断在所述特征词集合中是否存在特征词使得所述特征词在预设的歧义词集合中,若存在,则将所述特征词对应的所述行业标签加入所述歧义判别列表中,若不存在,则直接输出结果;
[0017]通过预设的歧义判别模型对所述歧义判别列表中的所述行业标签进行判别,得到歧义判别结果,根据所述歧义判别结果进行输出。
[0018]可选的,所述获取新闻,对所述新闻进行行业分类,得到行业标签分类结果,所述行业标签分类结果包括多个行业标签和所述行业标签对应的特征词集合,包括:
[0019]通过预设的行业分类模型对所述新闻进行行业分类,得到所述行业标签分类结果;
[0020]所述行业分类模型是能进行多标签分类,且能够输出类别特征词的模型,所述行业分类模型为SVM模型(支持向量机模型)、随机森林模型或朴素贝叶斯分类模型中的一种。
[0021]可选的,所述对所述行业标签分类结果进行标签共现检验之前,包括:
[0022]将多个所述行业标签按照和所述新闻的关联度进行降序排列,得到排列后的多个所述行业标签及对应的特征词集合;
[0023]所述行业标签分类结果还包括每个所述行业标签与所述新闻的关联度。
[0024]可选的,所述对所述行业标签分类结果进行标签共现检验,若检验未通过,则将全部的所述行业标签加入预设的歧义判别列表中,若检验通过,则判断在所述特征词集合中是否存在特征词使得所述特征词在预设的歧义词集合中,若存在,则将所述特征词对应的所述行业标签加入所述歧义判别列表中,包括:
[0025]将所述行业标签记为I={I1,

I
m
},其中I
i
表示第i个行业标签,I的特征词集合记为F,其中行业标签I
i
的特征词记为F
i
={w
i1
,

w
in
},其中w
ij
表示I
i
对应的第j个特征词,转到下一步;
[0026]从I中取行业标签I
i
,i∈[1,m

1],转到下一步;
[0027]从I中取行业标签I
j
,j∈[i+1,m],转到下一步;
[0028]将I
i
和I
j
按行业名称的文字顺序排序,为方便计,排序后仍记为行业对(I
i
,I
j
),检查行业对(I
i
,I
j
)是否存在于合理共现关系集合VALID_COOC中,如存在,转到下一步,否则转到第7步;
[0029]若j=m,转到下一步,否则j+=1并转到第3步;
[0030]若i=m

1,转到第8步,否则i+=1并转到第2步;
[0031]将I中的所有行业加入到歧义判别列表CHECK_LIST中,标签共现检验结束;
[0032]从F中取特征词集合F
i
,i∈{1,

,m},转到下一步;
[0033]判断是否存在特征词w
ij
,j∈[1,n],使得w
ij
在事先设定的歧义词集合AMB_WORDS中,如存在,转到下一步,否则转到第11步;
[0034]将行业I
i
加入到歧义判别列表CHECK_LIST中,转到下一步;
[0035]若i=m,标签共现检验结束,否则i+=1并转到第8步。
[0036]可选的,所述合理共现关系集合VALID_COOC采用如下方式获得:
[0037]建立共现次数统计结构cooc_cnt,所述共现次数统计结构cooc_cnt是一个空的语
言字典(python dict),转到下一步;
[0038]取预设时间段内的新闻,记为新闻集合D,所述新闻集合D中共包含n篇新闻,转到下一步;
[0039]从所述新闻集合D中取新闻d
l
,l∈[1,n],转到下一步;
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种消除新闻中行业词歧义的方法,其特征在于,包括:获取新闻,对所述新闻进行行业分类,得到行业标签分类结果,所述行业标签分类结果包括多个行业标签和所述行业标签对应的特征词集合;对所述行业标签分类结果进行标签共现检验,若检验未通过,则将全部的所述行业标签加入预设的歧义判别列表中,若检验通过,则判断在所述特征词集合中是否存在特征词使得所述特征词在预设的歧义词集合中,若存在,则将所述特征词对应的所述行业标签加入所述歧义判别列表中,若不存在,则直接输出结果;通过预设的歧义判别模型对所述歧义判别列表中的所述行业标签进行判别,得到歧义判别结果,根据所述歧义判别结果进行输出。2.如权利要求1所述的消除新闻中行业词歧义的方法,其特征在于,所述获取新闻,对所述新闻进行行业分类,得到行业标签分类结果,所述行业标签分类结果包括多个行业标签和所述行业标签对应的特征词集合,包括:通过预设的行业分类模型对所述新闻进行行业分类,得到所述行业标签分类结果;所述行业分类模型是能进行多标签分类,且能够输出类别特征词的模型,所述行业分类模型为SVM模型、随机森林模型或朴素贝叶斯分类模型中的一种。3.如权利要求1所述的消除新闻中行业词歧义的方法,其特征在于,所述对所述行业标签分类结果进行标签共现检验之前,包括:将多个所述行业标签按照和所述新闻的关联度进行降序排列,得到排列后的多个所述行业标签及对应的特征词集合;所述行业标签分类结果还包括每个所述行业标签与所述新闻的关联度。4.如权利要求1所述的消除新闻中行业词歧义的方法,其特征在于,所述对所述行业标签分类结果进行标签共现检验,若检验未通过,则将全部的所述行业标签加入预设的歧义判别列表中,若检验通过,则判断在所述特征词集合中是否存在特征词使得所述特征词在预设的歧义词集合中,若存在,则将所述特征词对应的所述行业标签加入所述歧义判别列表中,包括:将所述行业标签记为I={I1,

I
m
},其中I
i
表示第i个行业标签,I的特征词集合记为F,其中行业标签I
i
的特征词记为F
i
={w
i1
,

w
in
},其中w
ij
表示I
i
对应的第j个特征词,转到下一步;从I中取行业标签I
i
,i∈[1,m

1],转到下一步;从I中取行业标签I
j
,j∈[i+1,m],转到下一步;将I
i
和I
j
按行业名称的文字顺序排序,为方便计,排序后仍记为行业对(I
i
,I
j
),检查行业对(I
i
,I
j
)是否存在于合理共现关系集合VALID_COOC中,如存在,转到下一步,否则转到第7步;若j=m,转到下一步,否则j+=1并转到第3步;若i=m

1,转到第8步,否则i+=1并转到第2步;将I中的所有行业加入到歧义判别列表CHECK_LIST中,标签共现检验结束;从F中取特征词集合F
i
,i∈{1,

,m},转到下一步;判断是否存在特征词w
ij
,j∈[1,n],使得w
ij
在事先设定的歧义词集合AMB_WORDS中,如存在,转到下一步,否则转到第11步;
将行业I
i
加入到歧义判别列表CHECK_LIST中,转到下一步;若i=m,标签共现检验结束,否则i+=1并转到第8步。5.如权利要求4所述的消除新闻中行业词歧义的方法,其特征在于,所述合理共现关系集合VALID_COOC采用如下方式获得:建立共现次数统计结构cooc_cnt,所述共现次数统计结构cooc_cnt是一个空的语言字典,转到下一步;取预设时间段内的新闻,记为新闻集合D,所述新闻集合D中共包含n篇新闻,转到下一步;从所述新闻集合D中取新闻d
l
,l∈[1,n],转到下一步;使用预设的行业分类模型对新闻d
l
进行分类,得到行业标签分类结果,将所述行业标签分类结果中的行业标签记为I={I1,

I
m
},转到下一步;从I中取行业I
i
,i∈[1,m

1],转到下一步;从I中取行业I
j
,j∈[i+1,m],转到下一步;将I
i
和I
j
按行业名称的文字顺序排序,为方便计,排序后仍记为行业对(I
i
,I
j
),转到下一步;如所述共现次数统计结构cooc_cnt中没有(I
i
,I
j
),令cooc_cnt[(I
i
,I
j
)]=0,转到下一步;令cooc_cnt[(I
i
,I
j
)]+=1,转到下一步;若j=m,转到下一步,否则j+=1并转到第6步;若i=m

1,转到下一步,否则i+=1并转到第5步;若l=n,转到下一步,否则l+=1并转到第3步;计算所述共现次数统计结构cooc_cnt所有value之和,得到cnt
all
,定义value累积值cnt
sum
,令所述累积值cnt
sum
=0,设置共现值阈值cnt_thresh=n*0.001,转到下一步;将所述共现次数统计结构cooc_cnt中的key和value按照value降序排列,得到cooc_cnt_sort,转到下一步;从cooc_cnt_sort中取行业对(I
i
,I
j
)和共现值cnt
ij
,转到下一步;令cnt
sum
+=cnt
ij
,转到下一步;若cnt
sum
/cnt
all
≤N and cnt
ij
>cnt_thresh,将(I
i
,I
j
)记入合理共现关系集合VALID_COOC,其中,N为预设的另一阈值,转到下一步;若cnt
sum
/cnt
all
&gt;N and cnt<...

【专利技术属性】
技术研发人员:贾宁
申请(专利权)人:数库上海科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1