一种非结构化文本的关键信息挖掘方法、介质及设备技术

技术编号:18445066 阅读:26 留言:0更新日期:2018-07-14 10:26
本发明专利技术提供了一种非结构化文本的关键信息挖掘方法、介质及设备。所述方法,包括:获取非结构文本的文本信息;采用分词算法,将所述文本信息解析为多个词向量;根据所述词向量,提取所述文本信息的语言模板;将所述语言模板与所述文本信息进行匹配,获得所述文本信息的关键信息;将所述关键信息输出给用户。通过根据文本信息的词向量,提取文本信息的语言模板,再将语言模板与文本信息进行匹配,提取文本信息的关键信息,能够从非结构化的文本信息中提取出结构化的语言模板,从而提取文本信息的关键信息,使用户能够快速获取文本中的关键信息,提高工作效率。

A key information mining method, medium and equipment for unstructured text

The invention provides a key information mining method, medium and equipment for unstructured text. The method includes: obtaining text information of unstructured text, using a word segmentation algorithm to parse the text information into a plurality of word vectors, extract the language template of the text information according to the word vector, and match the language template with the text information, and obtain the key information of the text information. The key information is exported to the user. The language template of text information is extracted according to the word vector of text information, and then the language template is matched with the text information to extract the key information of text information. The structured language template can be extracted from the unstructured text information to extract the key information of the text message. Get the key information in the text and improve work efficiency.

【技术实现步骤摘要】
一种非结构化文本的关键信息挖掘方法、介质及设备
本专利技术涉及数据挖掘
,具体涉及一种非结构化文本的关键信息挖掘方法、介质及设备。
技术介绍
当今互联网世界中,信息以指数级的速度增长,其中占比最大的是文本非结构化数据。相对传统数据库存储的数据统一的结构,非结构化数据通常由人们的自然语言生成,不具备统一、清晰的数据结构,难以通过现有算法对这些数据进行统计分析或进行深入挖掘。
技术实现思路
针对现有技术中的缺陷,本专利技术提供一种非结构化文本的关键信息挖掘方法、介质及设备,能够从非结构化的文本信息中提取出结构化的语言模板,从而提取文本信息的关键信息,使用户能够快速获取文本中的关键信息,提高工作效率。第一方面,本专利技术提供了一种非结构化文本的关键信息挖掘方法,包括:获取非结构文本的文本信息;采用分词算法,将所述文本信息解析为多个词向量;根据所述词向量,提取所述文本信息的语言模板;将所述语言模板与所述文本信息进行匹配,获得所述文本信息的关键信息;将所述关键信息输出给用户。可选的,所述根据所述词向量,提取所述文本信息的语言模板,包括:采用tf-idf算法,计算所述词向量中各个词汇的权重;根据各个词汇的所述权重,获得所述文本信息的权重向量;根据所述权重向量和所述词向量,获得所述文本信息的词典;根据所述词典和所述词向量,生成所述文本信息的语言模板。可选的,所述根据所述权重向量和所述词向量,获得所述文本信息的词典,包括:将所述权重向量中每个词汇的权重,按从大到小的顺序排列;从权重最大值开始,选取预设数量的权重,作为高权重;将选取的所述高权重与所述词向量中的词汇进行匹配,获得所述高权重对应的重要词汇;利用所述重要词汇组成所述文本信息的词典。可选的,根据所述词典和所述词向量,生成所述文本信息的语言模板,包括:根据所述词典,采用dummy算法,对所述词向量进行数值转换,获得所述词向量对应的数值向量;根据所述数值向量和所述词典,生成所述文本信息的语言模板。可选的,根据所述数值向量和所述词典,生成所述文本信息的语言模板,包括:采用聚类算法,计算所述数值向量的聚类中心;将所述聚类中心与所述词典进行匹配,生成所述文本信息的语言模板。可选的,所述聚类算法采用Kmeans聚类算法。第二方面,本专利技术提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述一种非结构化文本的关键信息挖掘方法。第三方面,本专利技术提供一种非结构化文本的关键信息挖掘设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述一种非结构化文本的关键信息挖掘方法。本专利技术提供了一种非结构化文本的关键信息挖掘方法,包括:获取非结构文本的文本信息;采用分词算法,将所述文本信息解析为多个词向量;根据所述词向量,提取所述文本信息的语言模板;将所述语言模板与所述文本信息进行匹配,获得所述文本信息的关键信息;将所述关键信息输出给用户。通过根据文本信息的词向量,提取文本信息的语言模板,再将语言模板与文本信息进行匹配,提取文本信息的关键信息,能够从非结构化的文本信息中提取出结构化的语言模板,从而提取文本信息的关键信息,使用户能够快速获取文本中的关键信息,提高工作效率。本专利技术提供的一种计算机可读存储介质和一种非结构化文本的关键信息挖掘设备,与上述非结构化文本的关键信息挖掘方法出于相同的专利技术构思,具有相同的有益效果。附图说明为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。图1为本专利技术提供的一种非结构化文本的关键信息挖掘方法的流程图;图2为本专利技术提供的一种非结构化文本的关键信息挖掘设备的结构示意图。具体实施方式下面将结合附图对本专利技术技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本专利技术的技术方案,因此只是作为示例,而不能以此来限制本专利技术的保护范围。需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本专利技术所属领域技术人员所理解的通常意义。本专利技术提供了一种非结构化文本的关键信息挖掘方法、介质及设备。下面结合附图对本专利技术的实施例进行说明。第一实施例:请参考图1,图1为本专利技术具体实施例提供的一种非结构化文本的关键信息挖掘方法的流程图,本实施例提供的一种非结构化文本的关键信息挖掘方法,包括:步骤S101:获取非结构文本的文本信息。步骤S102:采用分词算法,将所述文本信息解析为多个词向量。步骤S103:根据所述词向量,提取所述文本信息的语言模板。步骤S104:将所述语言模板与所述文本信息进行匹配,获得所述文本信息的关键信息。步骤S105:将所述关键信息输出给用户。其中,非结构文本是指由自然语言形成的不具备统一、清晰的数据结构的文本。其中,采用分词算法,将文本信息解析为多个词向量时,可以是将文本信息中每一个句子解析为一个词向量。例如,文本信息为:“建筑业景气度明显提升,建筑业商务活动指数为61.4%,比上月上升2.9个百分点,升到60.0%以上的高位景气区间”。解析后的词向量为:[建筑业,景气度,明显,提升,商务,活动,指数,上月,上升,百分点,高位景气区间]。通过根据文本信息的词向量,提取文本信息的语言模板,再将语言模板与文本信息进行匹配,提取文本信息的关键信息,能够从非结构化的文本信息中提取出结构化的语言模板,从而提取文本信息的关键信息,使用户能够快速获取文本中的关键信息,提高工作效率。在本专利技术提供的一个具体实施例中,所述根据所述词向量,提取所述文本信息的语言模板,包括:采用tf-idf算法,计算所述词向量中各个词汇的权重;根据各个词汇的所述权重,获得所述文本信息的权重向量;根据所述权重向量和所述词向量,获得所述文本信息的词典;根据所述词典和所述词向量,生成所述文本信息的语言模板。在计算完文本信息的词向量后,可以采用tf-idf算法,计算各个词向量中每个词汇在整个文本信息中的权重,再根据各个词汇的权重,能够获得文本信息的权重向量。由于每句话的词向量中的词汇可能重复,因此,相应的权重也会重复,在根据词汇的权重,获得权重向量时,需要将重复的权重去掉,然后将去重后的权重重组,获得一个权重向量。其中,一个文本信息对应一个权重向量。获得权重向量后,可以根据权重向量和词向量,获得词典,再根据词典和词向量,提取文本信息的语言模板。在本专利技术提供的一个具体实施例中,所述根据所述权重向量和所述词向量,获得所述文本信息的词典,包括:将所述权重向量中每个词汇的权重,按从大到小的顺序排列;从权重最大值开始,选取预设数量的权重,作为高权重;将选取的所述高权重与所述词向量中的词汇进行匹配,获得所述高权重对应的重要词汇;利用所述重要词汇组成所述文本信息的词典。在根据权重向量和词向量,获得词典时,可以将权重向量中每个词汇的权重,按从大到小的顺序排列,从权重最大值开始,选取权重最大的多个权重,作为高权重。其中,可以选取20、30、40等任意数量的权重。可以根据业务场景的需要,确定需要保留的高权重的数量。例如,可以选择权重最大的前20个词汇的权重作为高权重。本文档来自技高网...

【技术保护点】
1.一种非结构化文本的关键信息挖掘方法,其特征在于,包括:获取非结构文本的文本信息;采用分词算法,将所述文本信息解析为多个词向量;根据所述词向量,提取所述文本信息的语言模板;将所述语言模板与所述文本信息进行匹配,获得所述文本信息的关键信息;将所述关键信息输出给用户。

【技术特征摘要】
1.一种非结构化文本的关键信息挖掘方法,其特征在于,包括:获取非结构文本的文本信息;采用分词算法,将所述文本信息解析为多个词向量;根据所述词向量,提取所述文本信息的语言模板;将所述语言模板与所述文本信息进行匹配,获得所述文本信息的关键信息;将所述关键信息输出给用户。2.根据权利要求1所述的方法,其特征在于,所述根据所述词向量,提取所述文本信息的语言模板,包括:采用tf-idf算法,计算所述词向量中各个词汇的权重;根据各个词汇的所述权重,获得所述文本信息的权重向量;根据所述权重向量和所述词向量,获得所述文本信息的词典;根据所述词典和所述词向量,生成所述文本信息的语言模板。3.根据权利要求2所述的方法,其特征在于,所述根据所述权重向量和所述词向量,获得所述文本信息的词典,包括:将所述权重向量中每个词汇的权重,按从大到小的顺序排列;从权重最大值开始,选取预设数量的权重,作为高权重;将选取的所述高权重与所述词向量中的词汇进行匹配,获得所述高权重对应的重要词汇;利...

【专利技术属性】
技术研发人员:刘若初郑则典罗伟东
申请(专利权)人:深圳市和讯华谷信息技术有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1