【技术实现步骤摘要】
文本关键信息的提取方法、装置及介质
本专利技术涉及信息抽取与文本挖掘领域,具体涉及一种文本关键信息的提取方法、装置及介质。
技术介绍
随着信息技术的不断发展,海量的数据成为最具价值的财富。如何快速、精准地掌握信息,并准确做出合理的决策,成为企业生存与发展的必经之路。这就要求从海量的文本中挖掘出有效的关键信息,例如文本摘要、关键词等。很多文本,例如网络上的新闻文本等,都是非结构化的文本。要从这些非结构化的文本中挖掘出有效的、结构化的关键信息,可以采用TextRank算法。TextRank算法是一种用于文本的基于图的排序算法。其基本思想是通过把文本分割成若干组成单元(例如句子)并建立图模型,利用投票机制对文本中的每一个组成单元进行排序,然后利用排序靠前的部分组成单元,组合形成关键信息(例如文本摘要)。这样,仅利用单篇文档本身的信息即可实现文本关键信息的提取。采用TextRank算法来从文本中提取出关键信息的方法,由于TextRank算法本身的局限性,提取出的关键信息容易出现相似度高或重复的内容。例如,采用TextRank算法从一个包括100个句子的文本A中提取出5个句 ...
【技术保护点】
1.一种文本关键信息的提取方法,其特征在于,包括:获取待提取文本,所述待提取文本包括标题和正文;生成第一列表,其中,所述第一列表中包括至少一个候选关键单元,所述候选关键单元为利用所述正文中的组成单元的相似度权重,从所述正文中抽取出的组成单元;从所述正文中选取出标题相似单元,其中,所述标题相似单元为与所述标题相似度最高的组成单元;如果所述标题相似单元与任一个候选关键单元都不同,则将所述标题相似单元添加到所述第一列表中;利用所述第一列表生成关键信息。
【技术特征摘要】
1.一种文本关键信息的提取方法,其特征在于,包括:获取待提取文本,所述待提取文本包括标题和正文;生成第一列表,其中,所述第一列表中包括至少一个候选关键单元,所述候选关键单元为利用所述正文中的组成单元的相似度权重,从所述正文中抽取出的组成单元;从所述正文中选取出标题相似单元,其中,所述标题相似单元为与所述标题相似度最高的组成单元;如果所述标题相似单元与任一个候选关键单元都不同,则将所述标题相似单元添加到所述第一列表中;利用所述第一列表生成关键信息。2.根据权利要求1所述的方法,其特征在于,生成第一列表的步骤,包括:分别计算未存在于第一列表中的每一个组成单元各自对应的MMR得分;将MMR得分最高的组成单元确定为一个候选关键单元,添加到第一列表中;迭代执行计算组成单元对应的MMR得分和确定候选关键单元的步骤,直到第一列表中的候选关键单元达到预设的数量。3.根据权利要求1所述的方法,其特征在于,利用所述第一列表生成关键信息的步骤,包括:从所述第一列表中的选取n个关键单元,其中,所述n个关键单元中包括所述标题相似单元,以及(n-1)个相似度权重最大的候选关键单元,n为大于或等于2的整数;按照所述n个关键单元在所述正文中位置组合所述n个关键单元,得到关键信息。4.根据权利要求1-3任一项所述的方法,其特征在于,当所述组成单元为句子,所述候选关键单元为候选关键句,所述标题相似单元为标题相似句时,生成的所述关键信息包括文本摘要;或者,当所述组成单元为词语,所述候选关键单元为候选关键词,所述标题相似单元为标题相似词时,生成的所述关键信息包括关键词。5.根据权利要求4所述的方法,其特征在于,所述关键信息还包括关键实体,所述方法还包括:从所述正文中识别出至少一个命名实体;如果所述命名实体存在于所述标题或者所述文本摘要中,则将所述命名实体确定为关键实体。6.一种文本关键信息的提取方法,其特征在于,所述关键信息包括关键词,包括:获取待提取文本,所述待提取文本包括正文;从所述正文中抽取出至少一个待校关键词;从所述正文中识别出至少一个命名实体;如果第一待校关键词为一个命名实体的子串,则将所述命名实体确定为从所述正文中提取...
【专利技术属性】
技术研发人员:吴云鹤,李德彦,吴少军,
申请(专利权)人:安徽省泰岳祥升软件有限公司,
类型:发明
国别省市:安徽,34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。