一种领域词抽取方法、装置、终端及计算机可读存储介质制造方法及图纸

技术编号:35815428 阅读:28 留言:0更新日期:2022-12-03 13:39
本发明专利技术所提供的一种领域词抽取方法、装置、终端及计算机可读存储介质,所述领域词抽取方法包括:将目标文本输入已训练的领域词抽取模型,抽取所述目标文本中所有的原始领域词;将所有所述原始领域词输入已训练的领域词分类模型,获得每个所述原始领域词对应的分类结果;根据所述分类结果,按照预设关联规则将所述原始领域词关联到标准层级关系表中的标准领域词,并输出所述标准领域词。本发明专利技术通过领域词抽取模型初步抽取出原始领域词,再利用领域词分类模型对抽取出的原始领域词进一步分类清理,将分类后的原始领域词关联到标准层级关系表中的标准领域词,并输出所述标准领域词,进行了归一化处理,提高了抽取领域词的质量和准确率。量和准确率。量和准确率。

【技术实现步骤摘要】
一种领域词抽取方法、装置、终端及计算机可读存储介质


[0001]本专利技术涉及自然语言处理
,尤其涉及的是一种领域词抽取方法、装置、终端及计算机可读存储介质。

技术介绍

[0002]随着科技的发展和技术的进步,如果将文本中的关键领域词准确抽取出来,可以大大提高文本的分类以及搜索推荐等任务的速度和效率。例如,随着科技的发展和技术的进步,产生了越来越多的学术论文,数据库中的学术论文更是以每天万级别的速度增长,而且,学术论文一般都比较长,可达到几千到几万字不等。如此巨大的量和长度,对处理论文相关的任务提出了巨大的挑战。如果将论文中的关键领域词准确抽取出来,可以大大提高论文分类以及搜索推荐等任务的速度和效率。而目前现存的领域词提取方法包括无监督方法抽取领域词和有监督方法抽取领域词,使用无监督方法抽取领域词,会导致抽取的领域词错误率高;使用有监督方法抽取领域词后直接进行输出,提取出的领域词质量也较差。
[0003]因此,现有技术存在缺陷,有待改进与发展。

技术实现思路

[0004]本专利技术要解决的技术问题在于,针对现有技术本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种领域词抽取方法,其特征在于,包括:将目标文本输入已训练的领域词抽取模型,抽取所述目标文本中所有的原始领域词;将所有所述原始领域词输入已训练的领域词分类模型,获得每个所述原始领域词对应的分类结果;根据所述分类结果,按照预设关联规则将所述原始领域词关联到标准层级关系表中的标准领域词,并输出所述标准领域词。2.根据权利要求1所述的领域词抽取方法,其特征在于,所述将目标文本输入已训练的领域词抽取模型,抽取所述目标文本中所有的原始领域词,包括:将目标文本输入已训练的领域词抽取模型,得到与所述目标文本对应的向量序列,所述向量序列中的每个向量与所述目标文本中的每个单词一一对应;利用全连接层对每个向量进行分类,输出分类结果序列,所述分类结果序列中包括与每个单词一一对应的标签,所述标签包括:领域词起始位置、领域词非起始位置以及非领域词;以标签为领域词起始位置对应的单词和领域词非起始位置对应的单词抽取为原始领域词。3.根据权利要求1或2所述的领域词抽取方法,其特征在于,将所有所述原始领域词输入已训练的领域词分类模型,获得每个所述原始领域词对应的分类结果,包括:将所有所述原始领域词输入已训练的领域词分类模型;按照所述领域词分类模型中的分类模型特征,对所有所述原始领域词进行分类,类别包括:已知领域词、新领域词、全新领域词以及噪音。4.根据权利要求3所述的领域词抽取方法,其特征在于,根据所述分类结果,按照预设关联规则将所述领域词关联到标准层级关系表中的标准领域词,并输出所述标准领域词,包括:当所述原始领域词的类别为噪音时,将所述原始领域词删除;当所述原始领域词的类别为已知领域词时,按照第一预设关联规则将所述原始领域词关联到所述标准层级关系表中的标准领域词,并输出所述标准领域词;当所述原始领域词的类别为新领域词或全新领域词时,按照第二预设关联规则将所述原始领域词关联至标准层级关系表中的标准领域词,并输出所述标准领域词;其中,所述标准层级关系表中包括:标准领域词以及标准领域词之间的层级关系。5.根据权利要求4所述的领域词抽取方法,其特征在于,所述第一预设关联规则为根据语义和字形关联;所述第二预设关联规则为根据层级匹配公式、字形和语义关联;所述层级匹配公式为其中,所述I和J均为领域词,所述∑
k∈(I∩J)
I表示I和J同时出现的次数,所述∑
k∈I
I表示I出现的次数,所述∑
k∈J
I表示J出现的次数;当所述RC(i,j)大于预设阈值时,I为J的一个子类。6.根据权利要求2所述的领域词抽取方法,其特征在于,所述领域词抽取模型和所述领域词分类模型的训练步骤包括:
获取第一训练数据集,对初始领域词抽取模型进行训练,得到第一训练领域词;对所述第一训练领域词进行标注,并根据标注的所述第一训练领域词构建初始层级关系表;根据标注的所述第一训练领域词,按照分类模型特征对所述初始领域词分类模型进行训练;获取第二训练数据集,将所述第二训练数据集输入所述初始领域词抽取模型,得到所述第二训练数据集中的所有第二训练领域词;将所有所述第二训练领域词进行分类处理,类别包括:已知领域词、新领域词、全新领域词以及噪音;根据所述第二训练领域词的类别...

【专利技术属性】
技术研发人员:孙向欣魏书法谢育涛
申请(专利权)人:粤港澳大湾区数字经济研究院福田
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1