提取短文本关键词的方法、装置、设备及存储介质制造方法及图纸

技术编号:24996108 阅读:44 留言:0更新日期:2020-07-24 17:58
本申请涉及人工智能领域,公开了一种提取短文本关键词的方法、装置、设备及存储介质,提高短文本关键词提取的准确性。本申请方法包括:从待处理短文本中获取候选关键词;获取候选关键词中顺序号为连续性的目标标注信息以及目标标注信息对应的目标候选关键词,得到待处理信息;根据待处理信息创建N元语法信息,并将N元语法信息标注至目标候选关键词,得到标注关键词;合并标注关键词,得到候选短语;按照预设短语词性拼接规则对候选短语进行分析,获得目标候选短语;当分析到目标候选短语存在子字符串关系时,将与子字符串关系对应的目标候选短语删除,得到修正候选短语;将存在交叉字的修正候选短语进行拼接处理,得到目标关键词。

【技术实现步骤摘要】
提取短文本关键词的方法、装置、设备及存储介质
本申请涉及自然语言处理领域,尤其涉及提取短文本关键词的方法、装置、设备及存储介质。
技术介绍
短文本关键词抽取是文本挖掘的一个重要研究方向,在自动问答、话题跟踪、信息检索和产品推荐等领域具有重要作用。然而在海量的互联网文档中仅有少部分带有关键词标注,如何给短文本打上一个表意准确的关键词标签成为信息抽取领域的重要问题。现有的短文本关键词抽取通过对短文本进行分词及词性标注,采用词频-逆文本频率指数(termfrequency–inversedocumentfrequency,TF-IDF)算法或基于图的排序算法TextRank算法或主题模型(latentdirichletallocation,LDA)得到短文本的候选关键词,对候选关键词进行重新组合或者排序,得到最终的关键词。由于TF-IDF算法局限于在词语重复出现的情况下使用,相对短文本的关键词提取存在较为适用长文本的缺陷,TextRank算法局限于将图节点作为候选词,将图的边作为词与词之间的共现关系,相对短文本的关键词提取存在较为适用本文档来自技高网...

【技术保护点】
1.一种提取短文本关键词的方法,其特征在于,包括:/n对待处理短文本进行关键词预提取处理,获得候选关键词;/n获取所述候选关键词的目标标注信息以及所述目标标注信息对应的目标候选关键词,得到待处理信息,所述目标标注信息为顺序号为连续性的标注信息;/n根据所述待处理信息创建N元语法信息,并将所述N元语法信息标注至所述目标候选关键词,得到标注关键词;/n根据所述目标标注信息和所述N元语法信息合并所述标注关键词,得到候选短语;/n按照预设短语词性拼接规则对所述候选短语进行分析,获得目标候选短语;/n当分析到所述目标候选短语存在子字符串关系时,将与所述子字符串关系对应的目标候选短语删除,得到修正候选短语...

【技术特征摘要】
1.一种提取短文本关键词的方法,其特征在于,包括:
对待处理短文本进行关键词预提取处理,获得候选关键词;
获取所述候选关键词的目标标注信息以及所述目标标注信息对应的目标候选关键词,得到待处理信息,所述目标标注信息为顺序号为连续性的标注信息;
根据所述待处理信息创建N元语法信息,并将所述N元语法信息标注至所述目标候选关键词,得到标注关键词;
根据所述目标标注信息和所述N元语法信息合并所述标注关键词,得到候选短语;
按照预设短语词性拼接规则对所述候选短语进行分析,获得目标候选短语;
当分析到所述目标候选短语存在子字符串关系时,将与所述子字符串关系对应的目标候选短语删除,得到修正候选短语,所述目标候选短语包括主目标候选短语和/或子目标候选短语,所述子字符串关系指示所述子目标候选短语由所述主目标候选短语中的字词构成;
将存在交叉字的所述修正候选短语进行拼接处理,得到目标关键词,所述交叉字指示在两个所述修正候选短语中一个修正候选短语的末端词与另一个修正候选短语的始端词相同。


2.根据权利要求1所述的方法,其特征在于,所述根据所述目标标注信息和所述N元语法信息合并所述标注关键词,得到候选短语,包括:
获取所述标注关键词的词性,并按照预设过滤规则和所述词性对所述标注关键词进行过滤处理,得到目标标注关键词;
比较所述目标标注关键词的N元语法信息的值的大小,获得值最大的N元语法信息对应的目标词;
根据所述目标标注信息中的目标顺序号,获取所述目标标注关键词中排序在所述目标词之前的关键词,得到待合并关键词;
根据所述目标顺序号对所述待合并关键词和所述目标词进行合并,获得候选短语。


3.根据权利要求1所述的方法,其特征在于,所述按照预设短语词性拼接规则对所述候选短语进行分析,获得目标候选短语,包括:
通过分析所述候选短语的词性是否存在预设词性中的至少一项,获得第一待分析短语和第二待分析短语,所述预设词性包括动词、动名词和动词语素,所述第一待分析短语为词性存在所述预设词性中至少一项的候选短语,所述第二待分析短语为词性不为所述预设词性中的任意一项的候选短语;
根据所述预设词性连接后的词性和第一预设规则对所述第一待分析短语进行分析,获得目标候选短语;
根据第二预设规则和目标词性对所述第二待分析短语进行分析,获得目标候选短语,所述目标词性为所述第二待分析短语的各词性和所述各词性连接后的词性。


4.根据权利要求1所述的方法,其特征在于,所述当分析到所述目标候选短语存在子字符串关系时,将与所述子字符串关系对应的目标候选短语删除,得到修正候选短语,所述目标候选短语包括主目标候选短语和/或子目标候选短语,所述子字符串关系指示所述子目标候选短语由所述主目标候选短语中的字词构成,包括:
将所述目标候选短语进行分类,得到主目标候选短语和/或子目标候选短语,所述子目标候选短语由所述主目标候选短语中的字词构成;
将所述主目标候选短语作为父节点,将所述子目标候选短语的长度作为分支条件;
根据所述主目标候选短语、所述子目标候选短语和所述分支条件,得到子字符串关系识别树;
检索所述目标候选短语在所述子字符串关系识别树中的位置;
若检索到目标候选短语位于所述子字符串关系识别树中的父节点处,则删除所述子字符串关系识别树中所有子节点对应的目标候选短语,得到修正候选短语;
若检索到目标候选短语位于所述子字符串关系识别树中的候选子节点处,则删除目标子节点对应的目标候选短语,得到修正候选短语,所述目标子节点为所述候选子节点后的子节点。


5.根据权利要求1-4中任意一项所述的方...

【专利技术属性】
技术研发人员:唐亚
申请(专利权)人:中国平安人寿保险股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1