一种关键词的选取方法及系统技术方案

技术编号:30227656 阅读:22 留言:0更新日期:2021-09-29 09:54
本发明专利技术涉及数据处理技术领域,尤其涉及一种关键词的选取方法及系统。通过将从一图像数据中识别出的包含的所有文字分割成两个以上的词组,再选取出属于限定词或名词的词组并进行分别归类,得到各自对应的限定词集合和名词集合;接着分别从限定词集合和名词集合选取出优选名词和优选限定词组成本方案最终的关键词,能够更加全面地反映出该文本的核心思想,有助于提升阅读效果。有助于提升阅读效果。有助于提升阅读效果。

【技术实现步骤摘要】
一种关键词的选取方法及系统


[0001]本专利技术涉及数据处理
,尤其涉及一种关键词的选取方法及系统。

技术介绍

[0002]目前,对于文本中的关键词的选取方法通常是筛选出该文本中所包含的高频词汇,将高频词汇作为关键词以供读者检索使用,然而,仅凭高频词汇这一因素作为关键词的选取条件,往往不能全面地反映出该文本的核心思想,即高频词汇不相当于核心关键词,因此,不利于读者的阅读效果。

技术实现思路

[0003]本专利技术所要解决的技术问题是:提供一种全新的关键词的选取方法及系统,能够更加全面地反映出该文本的核心思想,有助于提升阅读效果。
[0004]为了解决上述技术问题,本专利技术采用的一技术方案为:
[0005]一种关键词的选取方法,包括以下步骤:
[0006]S1、识别出一图像数据中包含的所有文字,将所有文字分割成两个以上的词组,从两个以上的词组中选取出属于限定词或名词的词组并进行分别归类,得到各自对应的限定词集合和名词集合;
[0007]S2、对所述名词集合中的每个词组分别统计出现的频次,选取频次最大的词组作为优选名词;
[0008]S3、判断在所述限定词集合中是否有与所述优选名词位于同一整句中的限定词;
[0009]若有,则判断所述位于同一整句中的限定词的数量是否不小于两个;
[0010]若是,则选取与所述优选名词之间的间隔最少文字数量的限定词作为优选限定词;若否,则将所述位于同一整句中的限定词作为优选限定词;
[0011]若无,则对所述限定词集合中的每个词组分别统计出现的频次,根据每个词组对应的频次以及每个词组各自与优选名词的匹配度计算得到所述限定词集合中的每个词组对应的匹配值,将匹配值最高的词组作为优选限定词;
[0012]S4、将步骤S2得到的优选名词和步骤S3得到的优选限定词进行组合,得到关键词。
[0013]本专利技术采用的另一技术方案为:
[0014]一种关键词的选取系统,包括一个或多个处理器及存储器,所述存储器存储有程序,该程序被处理器执行时实现以下步骤:
[0015]S1、识别出一图像数据中包含的所有文字,将所有文字分割成两个以上的词组,从两个以上的词组中选取出属于限定词或名词的词组并进行分别归类,得到各自对应的限定词集合和名词集合;
[0016]S2、对所述名词集合中的每个词组分别统计出现的频次,选取频次最大的词组作为优选名词;
[0017]S3、判断在所述限定词集合中是否有与所述优选名词位于同一整句中的限定词;
[0018]若有,则判断所述位于同一整句中的限定词的数量是否不小于两个;
[0019]若是,则选取与所述优选名词之间的间隔最少文字数量的限定词作为优选限定词;若否,则将所述位于同一整句中的限定词作为优选限定词;
[0020]若无,则对所述限定词集合中的每个词组分别统计出现的频次,根据每个词组对应的频次以及每个词组各自与优选名词的匹配度计算得到所述限定词集合中的每个词组对应的匹配值,将匹配值最高的词组作为优选限定词;
[0021]S4、将步骤S2得到的优选名词和步骤S3得到的优选限定词进行组合,得到关键词。
[0022]本专利技术的有益效果在于:
[0023]本专利技术提供的一种关键词的选取方法,通过将从一图像数据中识别出的包含的所有文字分割成两个以上的词组,再选取出属于限定词或名词的词组并进行分别归类,得到各自对应的限定词集合和名词集合;接着分别从限定词集合和名词集合选取出优选名词和优选限定词组成本方案最终的关键词。其中,按照先确定优选名词再确定优选限定词顺序执行选取方法,在选取优选限定词时,先判断在所述限定词集合中是否有与所述优选名词位于同一整句中的限定词;若有,则判断所述位于同一整句中的限定词的数量是否不小于两个;若是,则选取与所述优选名词之间的间隔最少文字数量的限定词作为优选限定词;若否,则将所述位于同一整句中的限定词作为优选限定词;若无,则对所述限定词集合中的每个词组分别统计出现的频次,根据每个词组对应的频次以及每个词组各自与优选名词的匹配度计算得到所述限定词集合中的每个词组对应的匹配值,将匹配值最高的词组作为优选限定词。通过该方式得到的优选限定词能够与优选名词存在较高的关联性,最后通过由该优选名词和优选限定词组成的关键词能够更加全面地反映出该文本的核心思想,有助于提升阅读效果。本专利技术还提供的一种关键词的选取系统,同样能够达到上述所宣称的技术效果。
附图说明
[0024]图1为本专利技术的一种关键词的选取方法的步骤流程图;
[0025]图2为本专利技术的一种关键词的选取系统的结构示意图;
[0026]标号说明:
[0027]1、一种关键词的选取系统;2、处理器;3、存储器。
具体实施方式
[0028]为详细说明本专利技术的
技术实现思路
、所实现目的及效果,以下结合实施方式并配合附图予以说明。
[0029]请参照图1,本专利技术提供的一种关键词的选取方法,包括以下步骤:
[0030]S1、识别出一图像数据中包含的所有文字,将所有文字分割成两个以上的词组,从两个以上的词组中选取出属于限定词或名词的词组并进行分别归类,得到各自对应的限定词集合和名词集合;
[0031]S2、对所述名词集合中的每个词组分别统计出现的频次,选取频次最大的词组作为优选名词;
[0032]S3、判断在所述限定词集合中是否有与所述优选名词位于同一整句中的限定词;
[0033]若有,则判断所述位于同一整句中的限定词的数量是否不小于两个;
[0034]若是,则选取与所述优选名词之间的间隔最少文字数量的限定词作为优选限定词;若否,则将所述位于同一整句中的限定词作为优选限定词;
[0035]若无,则对所述限定词集合中的每个词组分别统计出现的频次,根据每个词组对应的频次以及每个词组各自与优选名词的匹配度计算得到所述限定词集合中的每个词组对应的匹配值,将匹配值最高的词组作为优选限定词;
[0036]S4、将步骤S2得到的优选名词和步骤S3得到的优选限定词进行组合,得到关键词。
[0037]从上述描述可知,本专利技术的有益效果在于:
[0038]本专利技术提供的一种关键词的选取方法,通过将从一图像数据中识别出的包含的所有文字分割成两个以上的词组,再选取出属于限定词或名词的词组并进行分别归类,得到各自对应的限定词集合和名词集合;接着分别从限定词集合和名词集合选取出优选名词和优选限定词组成本方案最终的关键词。其中,按照先确定优选名词再确定优选限定词顺序执行选取方法,在选取优选限定词时,先判断在所述限定词集合中是否有与所述优选名词位于同一整句中的限定词;若有,则判断所述位于同一整句中的限定词的数量是否不小于两个;若是,则选取与所述优选名词之间的间隔最少文字数量的限定词作为优选限定词;若否,则将所述位于同一整句中的限定词作为优选限定词;若无,则对所述限定词集合中的每个词组分别统计出现的频次,根据每个词组对应本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种关键词的选取方法,其特征在于,包括以下步骤:S1、识别出一图像数据中包含的所有文字,将所有文字分割成两个以上的词组,从两个以上的词组中选取出属于限定词或名词的词组并进行分别归类,得到各自对应的限定词集合和名词集合;S2、对所述名词集合中的每个词组分别统计出现的频次,选取频次最大的词组作为优选名词;S3、判断在所述限定词集合中是否有与所述优选名词位于同一整句中的限定词;若有,则判断所述位于同一整句中的限定词的数量是否不小于两个;若是,则选取与所述优选名词之间的间隔最少文字数量的限定词作为优选限定词;若否,则将所述位于同一整句中的限定词作为优选限定词;若无,则对所述限定词集合中的每个词组分别统计出现的频次,根据每个词组对应的频次以及每个词组各自与优选名词的匹配度计算得到所述限定词集合中的每个词组对应的匹配值,将匹配值最高的词组作为优选限定词;S4、将步骤S2得到的优选名词和步骤S3得到的优选限定词进行组合,得到关键词。2.根据权利要求1所述的一种关键词的选取方法,其特征在于,步骤S3中根据每个词组对应的频次以及每个词组各自与优选名词的匹配度计算得到所述限定词集合中的每个词组对应的匹配值,具体为:根据每个词组对应的频次,查询得到对应的权重值;计算得到每个词组各自与优选名词的匹配度;将每个词组对应的频次乘以对应的权重值后再加上计算得到的每个词组各自与优选名词的匹配度,计算得到所述限定词集合中的每个词组对应的匹配值。3.根据权利要求1所述的一种关键词的选取方法,其特征在于,步骤S3中根据每个词组对应的频次以及每个词组各自与优选名词的匹配度计算得到所述限定词集合中的每个词组对应的匹配值,具体为:识别出所述图像数据中位于标题位上的文字,所述图像数据为通过拍摄处于阅读状态下的纸质读物而获取;根据每个词组对应的频次、每个词组各自与优选名词的匹配度以及位于标题位上的文字计算得到所述限定词集合中的每个词组对应的匹配值。4.根据权利要求3所述的一种关键词的选取方法,其特征在于,还包括:获取阅读者在预设时段内的阅读数据;所述阅读数据包括历史关键词、阅读时段和阅读力数据;根据每个词组对应的频次、每个词组各自与优选名词的匹配度以及位于标题位上的文字计算得到所述限定词集合中的每个词组对应的匹配值,具体为:根据每个词组对应的频次、每个词组各自与优选名词的匹配...

【专利技术属性】
技术研发人员:匡海云
申请(专利权)人:福州米鱼信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1