一种文本关键词的查找方法、装置、设备和存储介质制造方法及图纸

技术编号:26376402 阅读:28 留言:0更新日期:2020-11-19 23:45
本发明专利技术实施例公开了一种文本关键词的查找方法、装置、设备和存储介质。该方法包括:获取目标文本;采用命名实体识别技术提取出所述目标文本中的第一实体词语;将所述第一实体词语输入至预先训练好的第一神经网络模型以得到每个所述第一实体词语的第一词向量;确定所述第一词向量的中心点;将与所述第二词向量对应的第一实体词语作为所述目标文本的关键词,所述第二词向量为与所述中心点的距离最近的前第一预设数量的第一词向量。本发明专利技术实施例实现了快速准确的获取文本关键词。

【技术实现步骤摘要】
一种文本关键词的查找方法、装置、设备和存储介质
本专利技术实施例涉及文本技术,尤其涉及一种文本关键词的查找方法、装置、设备和存储介质。
技术介绍
在博眼球、赚点击的时代,很多文本的内容彼此不协调,可能在段落中穿插了广告或一些无意义的内容,商家获取到了点击量,但是用户的时间却因此被浪费。但在现有的用户获取文本进行阅读的过程中,没有方法对这些文本中的广告进行过滤,用户没有办法跳过这些穿插的无效信息,无法直接找到自己想要看的信息,也无法仅仅通过文本标题直接判断该文本是否为自己所需要的,因此为了让阅读或查找更有效率,直接获取到一篇文本的关键词,可以帮助用户判断是否需要阅读或该篇文本是否为自己想要的需求越来越迫切。
技术实现思路
本专利技术实施例提供一种文本关键词的查找方法、装置、设备和存储介质,以实现快速准确的获取文本关键词。为达此目的,本专利技术实施例提供了一种文本关键词的查找方法,该方法包括:获取目标文本;采用命名实体识别技术提取出所述目标文本中的第一实体词语;将所述第一实体词语输入至预先训练好的第一神经网络模型以得到每个所述第一实体词语的第一词向量;确定所述第一词向量的中心点;将与所述第二词向量对应的第一实体词语作为所述目标文本的关键词,所述第二词向量为与所述中心点的距离最近的前第一预设数量的第一词向量。进一步的,所述确定所述第一词向量的中心点之后包括:获取与所述第三词向量对应的第一实体词语作为所述目标文本的过滤词,所述第三词向量为与所述中心点的距离最远的前第二预设数量的第一词向量;对所述过滤词进行调整以展示所述目标文本。进一步的,所述对所述过滤词进行调整以展示所述目标文本包括:对所述过滤词进行折叠以展示所述目标文本。进一步的,所述对所述过滤词进行调整以展示所述目标文本包括:对所述过滤词进行调整后,将所述目标文本中同一段落内的句子依次两两输入至预先训练好的第二神经网络模型以得到同一段落内句子间的相似度;根据同一段落内句子间的相似度展示所述目标文本。进一步的,所述根据同一段落内句子间的相似度展示所述目标文本包括:根据同一段落内句子间的相似度获取同一段落内每个所述句子的相似度分数;根据所述相似度分数展示所述目标文本。进一步的,所述第一神经网络模型为Word2vec模型。进一步的,所述第二神经网络模型为孪生神经网络模型。一方面,本专利技术实施例还提供了一种文本关键词的查找装置,该装置包括:文本获取模块,用于获取目标文本;词语提取模块,用于采用命名实体识别技术提取出所述目标文本中的第一实体词语;向量获取模块,用于将所述第一实体词语输入至预先训练好的第一神经网络模型以得到每个所述第一实体词语的第一词向量;中心确定模块,用于确定所述第一词向量的中心点;关键词获取模块,用于将与所述第二词向量对应的第一实体词语作为所述目标文本的关键词,所述第二词向量为与所述中心点的距离最近的前第一预设数量的第一词向量。另一方面,本专利技术实施例还提供了一种计算机设备,该计算机设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本专利技术任一实施例提供的方法。又一方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本专利技术任一实施例提供的方法。本专利技术实施例通过获取目标文本;采用命名实体识别技术提取出所述目标文本中的第一实体词语;将所述第一实体词语输入至预先训练好的第一神经网络模型以得到每个所述第一实体词语的第一词向量;确定所述第一词向量的中心点;将与所述第二词向量对应的第一实体词语作为所述目标文本的关键词,所述第二词向量为与所述中心点的距离最近的前第一预设数量的第一词向量,解决了用户没有办法跳过这些穿插的无效信息,无法直接找到自己想要看的信息,也无法仅仅通过文本标题直接判断该文本是否为自己所需要的问题,实现了快速准确的获取文本关键词的效果。附图说明图1是本专利技术实施例一提供的一种文本关键词的查找方法的流程示意图;图2是本专利技术实施例二提供的一种文本关键词的查找方法的流程示意图;图3是本专利技术实施例三提供的一种文本关键词的查找装置的结构示意图;图4为本专利技术实施例四提供的一种计算机设备的结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时处理可以被终止,但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。此外,术语“第一”、“第二”等可在本文中用于描述各种方向、动作、步骤或元件等,但这些方向、动作、步骤或元件不受这些术语限制。这些术语仅用于将第一个方向、动作、步骤或元件与另一个方向、动作、步骤或元件区分。举例来说,在不脱离本申请的范围的情况下,可以将第一模块称为第二模块,且类似地,可将第二模块称为第一模块。第一模块和第二模块两者都是模块,但其不是同一模块。术语“第一”、“第二”等不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本专利技术实施例的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。实施例一如图1所示,本专利技术实施例一提供了一种文本关键词的查找方法,该方法包括:S110、获取目标文本。S120、采用命名实体识别技术提取出所述目标文本中的第一实体词语。本实施例中,获取用户输入的目标文本,然后采用命名实体识别技术提取出目标文本中的第一实体词语,其中,命名实体识别技术(NER,NamedEntityRecognition)可以识别出目标文本中三大类(实体类、时间类和数字类)和七小类(人名、机构名、地名、时间、日期、货币和百分比)的命名实体。示例性的,目标文本包括句子“小明早上8点去学校上课”,那么使用命名实体识别技术就可以提取出人名:“小明”,时间:“早上8点”,地点:“学校”。逐句识别直至识别完整个目标文本。S130、将所述第一实体词语输入至预先训练好的第一神经网络模型以得到每个所述第一实体词语的第一词向量。S140、确定所述第一词向量的中心点。S150、将与所述第二词向量对应的第一实体词语作为所述目标文本的关键词,所述本文档来自技高网...

【技术保护点】
1.一种文本关键词的查找方法,其特征在于,包括:/n获取目标文本;/n采用命名实体识别技术提取出所述目标文本中的第一实体词语;/n将所述第一实体词语输入至预先训练好的第一神经网络模型以得到每个所述第一实体词语的第一词向量;/n确定所述第一词向量的中心点;/n将与所述第二词向量对应的第一实体词语作为所述目标文本的关键词,所述第二词向量为与所述中心点的距离最近的前第一预设数量的第一词向量。/n

【技术特征摘要】
1.一种文本关键词的查找方法,其特征在于,包括:
获取目标文本;
采用命名实体识别技术提取出所述目标文本中的第一实体词语;
将所述第一实体词语输入至预先训练好的第一神经网络模型以得到每个所述第一实体词语的第一词向量;
确定所述第一词向量的中心点;
将与所述第二词向量对应的第一实体词语作为所述目标文本的关键词,所述第二词向量为与所述中心点的距离最近的前第一预设数量的第一词向量。


2.根据权利要求1所述的方法,其特征在于,所述确定所述第一词向量的中心点之后包括:
获取与所述第三词向量对应的第一实体词语作为所述目标文本的过滤词,所述第三词向量为与所述中心点的距离最远的前第二预设数量的第一词向量;
对所述过滤词进行调整以展示所述目标文本。


3.根据权利要求2所述的方法,其特征在于,所述对所述过滤词进行调整以展示所述目标文本包括:
对所述过滤词进行折叠以展示所述目标文本。


4.根据权利要求2所述的方法,其特征在于,所述对所述过滤词进行调整以展示所述目标文本包括:
对所述过滤词进行调整后,将所述目标文本中同一段落内的句子依次两两输入至预先训练好的第二神经网络模型以得到同一段落内句子间的相似度;
根据同一段落内句子间的相似度展示所述目标文本。


5.根据权利要求4所述的方法,其特征在于,所述根据同一段落内句子间的相似度展示...

【专利技术属性】
技术研发人员:卓民杨楠
申请(专利权)人:深圳市卡牛科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1