关键词提取方法、装置、存储介质及电子设备制造方法及图纸

技术编号:23149924 阅读:61 留言:0更新日期:2020-01-18 13:47
本公开涉及一种关键词提取方法、装置、存储介质及电子设备,以增加文本中词与词之间的权重值区分度,使关键词提取更加准确。该方法包括:获取待进行关键词提取的第一文本;对第一文本进行分词,得到多个分词;将多个分词输入词图模型中,得到每个分词对应的权重值;根据每个分词对应的权重值,对第一文本进行关键词提取;其中,词图模型用于通过如下方式确定每个分词的权重值:获取目标词图;在目标词图中,确定第一分词对应的节点与第二分词对应的节点之间的第一边权值;在预设词图中确定第一分词对应的节点与第二分词对应的节点之间的第二边权值;根据第一边权值与第二边权值,确定目标词图中的第一分词对应节点的权重值。

Key words extraction method, device, storage medium and electronic equipment

【技术实现步骤摘要】
关键词提取方法、装置、存储介质及电子设备
本公开涉及文本处理
,具体地,涉及一种关键词提取方法、装置、存储介质及电子设备。
技术介绍
关键词是指能反映文本主题或者主要内容的词语。关键词提取是NLP(NaturalLanguageProcessing,自然语言处理)领域的一个重要的子任务。在信息检索中,准确的关键词提取可以大幅提升效率;在对话系统中,机器可以通过关键词来理解用户意图;在文本分类中,关键词提取也非常有帮助。相关技术中,关键词提取大多是根据文本中词与词之间的共现次数,确定该词在文本中的权重值,然后根据该权重值进行关键词提取。但是,在短文本中,由于词数量较少,因此词与词之间的共现次数差异不大,从而造成词与词之间的权重值差异也不大,甚至可能存在权重值基本相同的情况,进而影响关键词提取,比如,可能将文本中的所有分词作为关键词,等等。
技术实现思路
本公开的目的是提供一种关键词提取方法、装置、存储介质及电子设备,以提高词与词之间的权重值区分度,使关键词提取更加准确。为了实现上述目的,第一方面,本公开提供一种关键词提取本文档来自技高网...

【技术保护点】
1.一种关键词提取方法,其特征在于,所述方法包括:/n获取待进行关键词提取的第一文本;/n对所述第一文本进行分词,得到多个分词;/n将所述多个分词输入词图模型中,得到每个分词对应的权重值;/n根据每个分词对应的权重值,对所述第一文本进行关键词提取;/n其中,所述词图模型用于通过如下方式确定所述每个分词的权重值:/n获取目标词图,所述目标词图是基于第一文本中的分词建立的;/n在所述目标词图中,确定第一分词对应的节点与第二分词对应的节点之间的第一边权值;/n在预设词图中,确定所述第一分词对应的节点与所述第二分词对应的节点之间的第二边权值,其中,所述预设词图是基于第二文本中的分词建立的,所述第二文本...

【技术特征摘要】
1.一种关键词提取方法,其特征在于,所述方法包括:
获取待进行关键词提取的第一文本;
对所述第一文本进行分词,得到多个分词;
将所述多个分词输入词图模型中,得到每个分词对应的权重值;
根据每个分词对应的权重值,对所述第一文本进行关键词提取;
其中,所述词图模型用于通过如下方式确定所述每个分词的权重值:
获取目标词图,所述目标词图是基于第一文本中的分词建立的;
在所述目标词图中,确定第一分词对应的节点与第二分词对应的节点之间的第一边权值;
在预设词图中,确定所述第一分词对应的节点与所述第二分词对应的节点之间的第二边权值,其中,所述预设词图是基于第二文本中的分词建立的,所述第二文本的词汇量大于所述第一文本;
根据所述第一边权值与所述第二边权值,确定所述目标词图中的所述第一分词对应节点的权重值。


2.根据权利要求1所述的方法,其特征在于,所述获取待进行关键词提取的第一文本,包括:
接收用户输入的语音信息;
对所述语音信息进行识别,得到所述语音信息对应的目标文本;
将所述目标文本作为待进行关键词提取的第一文本。


3.根据权利要求1所述的方法,其特征在于,所述获取待进行关键词提取的第一文本,包括:
响应用户触发的输入完成信息,在客户端的文本框中获取待进行关键词提取的第一文本。


4.根据权利要求1所述的方法,其特征在于,所述根据所述第一分词与所述第二分词在预设时长的共现次数、以及所述第二分词与多个所述第一目标高频词在所述预设时长的平均共现次数,确定所述第一分词对应的节点与所述第二分词对应的节点之间的第二边权值,包括:
按照以下公式,确定所述第一分词对应的节点与所述第二分词对应的节点之间的第二边权值:



其中,w12-init表示所述第二边权值,fr(w1,w2)表示第一分词w1与第二分词w2在预设时长内的共现次数,fr(w2,wo1)表示第二分词w2与第一目标高频词wo1在所述预设时长内的共现次数,n表示所述第一目标高频词wo1的个数,a和b为常数,且满足a+b=1,max(sim,n)表示与所述第一分词w1相似度最高的n个第一目标高频词组成的词集合。


5.根据权利要求1所述的方法,其特征在于,所述根据所述第一分词与所述第二分词在预设时长内的共现次数、所述第二分词与多个所述第一目标高频词在所述预设时长的平均共现次数、以及所述第一分词与多个所述第二目标高频词在所述预设时长的平均共现次数,确定所述第一分词对应的节点与所述第二分词对应的节点之间的第二边权值,包括:
按照以下公式,确定所述第一分词对应的节点与所述第二分词对应的节点之间的第二边权值:



其中,w12-init表示所述第二边权值,fr(w1,w2)表示第一分词w1与第二分词w2在预设时长内的共现次数,fr(w2,wo1)表示第二分词w2与第一目标高频词wo1在所述预设时长内的共现次数,fr(w1,wo2)表示第一分词w1与第二目标高频词wo2在所述预设时长内的共现次数,n1表示第一目标高频词wo1的个...

【专利技术属性】
技术研发人员:贾弼然崔朝辉赵立军张霞
申请(专利权)人:东软集团股份有限公司
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1