当前位置: 首页 > 专利查询>清华大学专利>正文

关键词汇扩展方法及系统、电子设备及存储介质技术方案

技术编号:28055394 阅读:22 留言:0更新日期:2021-04-14 13:24
本发明专利技术提供一种关键词汇扩展方法及系统、电子设备及存储介质,包括:S1:基于关键词汇,从数据库中提取出与关键词汇相对应的文本数据;S2:对所述文本数据进行实体链接,得到和关键词汇相关的关联要素;S3:基于所述关键词汇和关联要素,进行相关性筛选,得到筛选后的词汇;S4:判断所述筛选后的词汇是否满足预设条件;若是,执行S5;若否,则将所述筛选后的词汇作为关键词汇,返回所述S1;S5:将筛选后的词汇汇总作为关键词汇的相关词汇列表。本发明专利技术只需要使用少量的领域种子词汇或种子文本,通过较少的人力成本、时间能够快速实现领域词汇扩展的任务。的任务。的任务。

【技术实现步骤摘要】
关键词汇扩展方法及系统、电子设备及存储介质


[0001]本专利技术涉及数据搜寻
,特别涉及一种关键词汇扩展方法及系统、电子设备及存储介质。

技术介绍

[0002]词汇,又称语汇,是一种语言里所有的(或特定范围的)词和固定短语的总和。例如汉语词汇、英语词汇或一般词汇、关键词汇、文言词汇、方言词汇等;还可以指某一个人或某一作品所用的词和固定短语的总和,如

老舍的词汇



《鲁迅全集》的词汇

等等。词汇是词的集合体,词汇和词的关系是集体与个体的关系,好比树林和树的关系。
[0003]科技进步导致互联网中知识更新周期变短,传统的依赖专家标注进行的领域词汇扩展已经很难满足知识更新速度,所以自动化的领域词汇扩展方法也需要相关工作。
[0004]中国专利200910006748.1

关键词汇实时扩展方法、系统及其计算机可擦写记录媒体

公开了一种关键词汇实时扩展方法、系统及其计算机可擦写记录媒体,包括:根据查询词汇,分别于数个搜寻引擎上进行一数据搜寻。继之,分别由一该些搜寻引擎获得相关于该查询词汇的数笔文件片段。分析每一文件片段以建立一相关词汇表,每一文件片段列举相对应的数个关键词汇。接着,根据每一文件片段所相对应的每一关键词汇与查询词汇的一相对应位置关系,进行一关联计算步骤,以分别赋予每一关键词汇一关联值。续之,进行一语意合并步骤,计算具有相同语意的每一关键词汇在文件片段中的关联值成一关联指针。最后,决定部分该些关键词汇组成该查询词汇的一关键词汇集合。该方法对关联到的词全部进行了保留,不进行评价,不能确定保留数据的高低。
[0005]中国专利201310231653.6

一种扩展检索词的方法和系统

,提出了一种扩展检索词的方法和系统,该方法包括给每个普通词汇设置不少于一个的标签词,形成标签词词典;根据第一普通词汇周边的第二普通词汇之间的关系,给每个第二普通词汇所属的每个标签词进行加权,并进行排序;从第二普通词汇所属的全部标签词中,抽取预设数量的高权值标签词,作为第一普通词汇的扩展范围;输入第一普通词汇作为检索词时,将位于第一普通词汇扩展范围内的标签词对应的普通词汇展现出来;从扩展范围内的标签词对应的普通词汇中,选择需要的普通词汇,作为检索词的扩展检索词,但没有通过外部资源来扩展对应的词汇数量,因此扩展的范围有限。
[0006]中国专利201911080694.3,

一种用于舆情爬取的机构特征词汇扩展系统和方法

提供了一种用于舆情爬取的机构特征词汇扩展系统,包括:数据采集模块:用于采集数据;特征词清洗加工模块:用于对特征词进行初步筛选;特征词统计分析模块:用于通过相关度分析,进一步筛选特征词,最终生成拓展特征词。该方法是针对舆情爬取的机构特征词汇扩展方法,不具有通用性。

技术实现思路

[0007]本专利技术提供一种能简单快速实现领域词汇扩展的关键词汇扩展方法及系统、电子
设备及存储介质。
[0008]本专利技术提供一种关键词汇扩展方法,包括:
[0009]S1:基于关键词汇,从数据库中提取出与关键词汇相对应的文本数据;
[0010]S2:对所述文本数据进行实体链接,得到和关键词汇相关的关联要素;
[0011]S3:基于所述关键词汇和关联要素,进行相关性筛选,得到筛选后的词汇;
[0012]S4:判断所述筛选后的词汇是否满足预设条件;若是,执行S5;若否,则将所述筛选后的词汇作为关键词汇,返回所述S1;
[0013]S5:将筛选后的词汇汇总作为关键词汇的相关词汇列表。
[0014]优选的是,所述的关键词汇扩展方法,其中,所述关键词汇包括输入的种子词汇,以及通过对输入的种子文本进行实体链接所得到的与所述种子文本领域相关的种子文本相关要素。
[0015]优选的是,所述的关键词汇扩展方法,其中,从数据库中提取出与关键词汇相对应的文本数据具体包括:从数据库中检索得到带有所述关键词汇的文本数据,所述数据库包括字典、百科页面、书籍页面。
[0016]优选的是,所述的关键词汇扩展方法,其中,所述关联要素包括关联词汇及其对应在所属的文本数据中出现的频次,所述种子文本相关要素包括种子文本相关词汇及其对应在所属的文本数据中出现的频次;所述相关性筛选包括词汇频次排序、相似度计算、百科页面中 tag分类的排序、筛选。
[0017]本专利技术提供了一种关键词汇扩展系统,包括:
[0018]文本数据提取模块,用于基于关键词汇,从数据库中提取出与关键词汇相对应的文本数据;
[0019]第一实体链接模块,用于对所述文本数据进行实体链接,得到和关键词汇相关的关联要素;
[0020]相关性筛选模块,用于基于所述关键词汇和关联要素,进行相关性筛选,得到筛选后的词汇;
[0021]扩展模块,用于判断所述筛选后的词汇是否满足预设条件;若是,将筛选后的词汇汇总作为关键词汇的相关词汇列表所述筛选后的词汇;若否,则将所述筛选后的词汇作为关键词汇,返回所述文本数据提取模块。
[0022]优选的是,所述的关键词汇扩展系统,其中,还包括第二实体链接模块,所述关键词汇包括输入的种子词汇,以及通过所述第二实体链接模块对输入的种子文本进行实体链接所得到的与所述种子文本领域相关的种子文本相关要素。
[0023]优选的是,所述的关键词汇扩展系统,其中,所述从数据库中提取出与关键词汇相对应的文本数据具体包括:从数据库中检索得到带有所述关键词汇的文本数据,所述数据库包括字典、百科页面、书籍页面。
[0024]优选的是,所述的关键词汇扩展系统,其中,所述关联要素包括关联词汇及其对应在所属的文本数据中出现的频次,所述种子文本相关要素包括种子文本相关词汇及其对应在所属的文本数据中出现的频次;所述相关性筛选包括词汇频次排序、相似度计算、百科页面中 tag分类的排序、筛选。
[0025]本专利技术提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器
上运行的计算机程序,所述处理器执行所述程序时实现所述的关键词汇扩展方法的步骤。
[0026]本专利技术提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的关键词汇扩展方法的步骤。
[0027]本专利技术通过某领域少量种子词汇或种子文本,经过词汇扩展功能实现对某领域词汇的扩展功能,扩展后的词汇再进行相关性排序进行筛选的过程,且该过程可以迭代多次,直到满足词汇数量要求,不需要专家知识,只需要使用少量的领域种子词汇或种子文本,通过较少的人力成本、时间能够快速实现领域词汇扩展的任务。
附图说明
[0028]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种关键词汇扩展方法,其特征在于,包括:S1:基于关键词汇,从数据库中提取出与关键词汇相对应的文本数据;S2:对所述文本数据进行实体链接,得到和关键词汇相关的关联要素;S3:基于所述关键词汇和关联要素,进行相关性筛选,得到筛选后的词汇;S4:判断所述筛选后的词汇是否满足预设条件;若是,执行S5;若否,则将所述筛选后的词汇作为关键词汇,返回所述S1;S5:将筛选后的词汇汇总作为关键词汇的相关词汇列表。2.根据权利要求1所述的关键词汇扩展方法,其特征在于,所述关键词汇包括输入的种子词汇,以及通过对输入的种子文本进行实体链接所得到的与所述种子文本领域相关的种子文本相关要素。3.根据权利要求1所述的关键词汇扩展方法,其特征在于,从数据库中提取出与关键词汇相对应的文本数据具体包括:从数据库中检索得到带有所述关键词汇的文本数据,所述数据库包括字典、百科页面、书籍页面。4.根据权利要求2所述的关键词汇扩展方法,其特征在于,所述关联要素包括关联词汇及其对应在所属的文本数据中出现的频次,所述种子文本相关要素包括种子文本相关词汇及其对应在所属的文本数据中出现的频次;所述相关性筛选包括词汇频次排序、相似度计算、百科页面中tag分类的排序、筛选。5.一种关键词汇扩展系统,其特征在于,包括:文本数据提取模块,用于基于关键词汇,从数据库中提取出与关键词汇相对应的文本数据;第一实体链接模块,用于对所述文本数据进行实体链接,得到和关键词汇相关的关联要素;相关性筛选模块,用于基于所述关键词汇和关联要素,进行相关...

【专利技术属性】
技术研发人员:侯磊刘丁枭张益李涓子张鹏唐杰许斌
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1