获取专业词的相关词的方法及相关系统技术方案

技术编号:27806000 阅读:24 留言:0更新日期:2021-03-30 09:18
本申请一种获取专业词的相关词的方法,其特征在于,包括:从多个包含专业知识的渠道中获取同一领域的多个专业词构成专业词词表;分别爬取所述专业词词表中的每个专业词对应的专业词汇解释网页中的信息;其中,所述信息包括所述专业词汇解释网页中的信息栏的信息以及文本段落;通过预先构建的信息栏抽取模块从所述信息栏的信息中抽取出所述专业词的相关词,以及通过预先构建的文本抽取模块,从所述文本段落中,抽取出所述专业词的相关词;其中,所述相关词包括所述专业词的同义词、上位词以及下位词。实现了一种方便快捷的全自动获取专业词的相关词的方法,从而不需要耗费大量的人力和时间成本,有效地提高了专业词的相关词的获取效率。获取效率。获取效率。

【技术实现步骤摘要】
获取专业词的相关词的方法及相关系统


[0001]本专利技术涉及信息提取
,特别涉及一种获取专业词的相关词的方法及相关系统。

技术介绍

[0002]词语的相关词,在对词语的语义的理解上起着关键的作用,例如词语的同义词、上位词以及下位词。所以,词语的相关词的获取是自然语言处理中一种较为重要的工作。
[0003]在现有技术中,主要针对的都是普通词语的相关词的获取,例如,高兴、愉快、开心等普通词语。由于,普通词语拥有大量的文本语料以及现成的词表,所以可以根据词表,通过算法来捕获语料中词语上下文语义,从而获取到普通词语的相关词。
[0004]但是对于固定领域下的专业词,由于,专业词本身以及专业词的相关词都对应着该领域下的专业概念,例如,司法领域中的“59岁现象”、“最后捞一把”、“最后捞一把现象”等专业词。并且,专业词词表以及相关的语料也比较稀缺。所以,大部分通过人工进行总结,来获取专业词的相关词。显然,这样不仅会耗费大量的人力和时间成本,而且效率也非常低。

技术实现思路

[0005]基于上述现有技术的不足,本专利技本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种获取专业词的相关词的方法,其特征在于,包括:从多个包含专业知识的渠道中获取同一领域的多个专业词构成专业词词表;分别爬取所述专业词词表中的每个专业词对应的专业词汇解释网页中的信息;其中,所述信息包括所述专业词汇解释网页中的信息栏的信息以及文本段落;通过预先构建的信息栏抽取模块从所述信息栏的信息中抽取出所述专业词的相关词,以及通过预先构建的文本抽取模块,从所述文本段落中,抽取出所述专业词的相关词;其中,所述相关词包括所述专业词的同义词、上位词以及下位词。2.根据权利要求1所述的方法,其特征在于,所述从多个包含专业知识的渠道中获取同一领域的多个专业词构成专业词词表,包括:获取专业词汇解释网站的词汇分类的类别中所述领域下的词汇、所述领域的知识问答平台中用户查询的关键词以及权威期刊库中的所述领域的文章中的关键词,组成待过滤专业词词表;过滤掉所述待过滤专业词词表中不存在对应的所述专业词汇解释网页的词汇,得到所述领域的专业词词表。3.根据权利要求1所述的方法,其特征在于,所述分别爬取所述专业词词表中的每个专业词对应的专业词汇解释网页中的信息,包括:通过多线程爬虫器分别查询所述专业词词表中的每个专业词对应的专业词汇解释网页,并爬取每个所述专业词对应的所述专业词汇解释网页中所有信息栏的信息以及文本段落。4.根据权利要求1所述的方法,其特征在于,所述通过预先构建的信息栏抽取模块,从所述信息栏的信息中抽取出所述专业词的相关词,包括:通过预先构建的信息栏抽取模块,分别基于同义词、上位词以及下位词对应的预设字段,从所述信息栏的信息中,抽取所述专业词的同义词、上位词以及下位词对应的字符串;将所述字符串中的无意义字符去除,并将所述字符串进行分割,获得所述专业词的多个同义词、上位词以及下位词。5.根据权利要求1所述的方法,其特征在于,所述通过预先构建的文本抽取模块,从所述文本段落中抽取出所述专业词的相关词,包括:通过预先构建的文本抽取模块,分别基于同义词、上位词以及下位词对应的预设正则表达式,从所述文本段落中,抽取出所述专业词的多个同义词、上位词以及下位词。6.根据权利要求1所述的方法,其特征在于,所述通过预先构建的信息栏抽取模块从所述信息栏...

【专利技术属性】
技术研发人员:戚成琳冯鸳鹤
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1