关键词提取方法、装置、电子设备和存储介质制造方法及图纸

技术编号:28053538 阅读:19 留言:0更新日期:2021-04-14 13:19
本公开提供一种关键词提取方法、装置、电子设备和存储介质。该方法的一具体实施方式包括:对目标文本对应的候选关键词集合中各候选关键词进行向量表示得到对应的向量;对各候选关键词对应的向量进行异常点检测,得到异常点向量集合;删除候选关键词集合中与各异常点向量对应的关键词;将候选关键词集合确定为与目标文本对应的关键词集合。该实施方式提高了关键词提取的准确度。键词提取的准确度。键词提取的准确度。

【技术实现步骤摘要】
关键词提取方法、装置、电子设备和存储介质


[0001]本公开的实施例涉及自然语言处理
,具体涉及关键词提取方法、装置、电子设备和存储介质。

技术介绍

[0002]随着文本信息爆发式地增长,为了方便人们快速了解某篇文本内容,一种重要方式是为人们提取能够确切反映文本内容的关键词。
[0003]关键词提取通常可以分为两种方法:有监督方法和无监督方法。其中,有监督方法需要大量的人工标注数据,成本较高;而目前的无监督方法提取出来的关键词往往包含很多“杂质”,即其中存在与文本内容无关、或相关性较低的非关键词,因此提取出来的关键词准确度较低。

技术实现思路

[0004]本公开的实施例提出了关键词提取方法、装置、电子设备和存储介质。
[0005]第一方面,本公开的实施例提供了一种关键词提取方法,该方法包括:对目标文本对应的候选关键词集合中各候选关键词进行向量表示得到对应的向量;对各上述候选关键词对应的向量进行异常点检测,得到异常点向量集合;删除上述候选关键词集合中与各上述异常点向量对应的关键词;将上述候选关键词集合确定为与本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种关键词提取方法,包括:对目标文本对应的候选关键词集合中各候选关键词进行向量表示得到对应的向量;对各所述候选关键词对应的向量进行异常点检测,得到异常点向量集合;删除所述候选关键词集合中与各所述异常点向量对应的关键词;将所述候选关键词集合确定为与所述目标文本对应的关键词集合。2.根据权利要求1所述的方法,其中,所述目标文本对应的候选关键词通过如下方式生成:对所述目标文本进行关键词提取,得到对应的候选关键词集合。3.根据权利要求1或2所述的方法,其中,所述目标文本通过如下方式生成:获取待识别语音数据;对所述待识别语音数据进行自动语音识别得到所述目标文本。4.根据权利要求1或2所述的方法,其中,所述待识别语音数据为目标音视频会议的音频数据。5.根据权利要求1或2所述的方法,其中,所述对所述目标文本进行关键词提取,得到对应的候选关键词集合,包括:基于无监督关键词提取方法对所述目标文本进行关键词提取,得到对应的候选关键词集合。6.根据权利要求5所述的方法,其中,所述无监督关键词提取方法为词频

逆文本频率指数方法、Textrank方法、文档主题生成模型中的任意一种。7.根据权利要求1或2所述的方法,其中,所述对各所述候选关键词对应的向量进行异常点检测,得到异常点...

【专利技术属性】
技术研发人员:郑翔杨晶生陈可蓉刘敬晖宗博文
申请(专利权)人:北京字跳网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1