The invention provides a key information mining method, medium and equipment for unstructured text. The method includes: obtaining text information of unstructured text, using a word segmentation algorithm to parse the text information into a plurality of word vectors, extract the language template of the text information according to the word vector, and match the language template with the text information, and obtain the key information of the text information. The key information is exported to the user. The language template of text information is extracted according to the word vector of text information, and then the language template is matched with the text information to extract the key information of text information. The structured language template can be extracted from the unstructured text information to extract the key information of the text message. Get the key information in the text and improve work efficiency.
【技术实现步骤摘要】
一种非结构化文本的关键信息挖掘方法、介质及设备
本专利技术涉及数据挖掘
,具体涉及一种非结构化文本的关键信息挖掘方法、介质及设备。
技术介绍
当今互联网世界中,信息以指数级的速度增长,其中占比最大的是文本非结构化数据。相对传统数据库存储的数据统一的结构,非结构化数据通常由人们的自然语言生成,不具备统一、清晰的数据结构,难以通过现有算法对这些数据进行统计分析或进行深入挖掘。
技术实现思路
针对现有技术中的缺陷,本专利技术提供一种非结构化文本的关键信息挖掘方法、介质及设备,能够从非结构化的文本信息中提取出结构化的语言模板,从而提取文本信息的关键信息,使用户能够快速获取文本中的关键信息,提高工作效率。第一方面,本专利技术提供了一种非结构化文本的关键信息挖掘方法,包括:获取非结构文本的文本信息;采用分词算法,将所述文本信息解析为多个词向量;根据所述词向量,提取所述文本信息的语言模板;将所述语言模板与所述文本信息进行匹配,获得所述文本信息的关键信息;将所述关键信息输出给用户。可选的,所述根据所述词向量,提取所述文本信息的语言模板,包括:采用tf-idf算法,计算所述词向量中各个词汇的权重;根据各个词汇的所述权重,获得所述文本信息的权重向量;根据所述权重向量和所述词向量,获得所述文本信息的词典;根据所述词典和所述词向量,生成所述文本信息的语言模板。可选的,所述根据所述权重向量和所述词向量,获得所述文本信息的词典,包括:将所述权重向量中每个词汇的权重,按从大到小的顺序排列;从权重最大值开始,选取预设数量的权重,作为高权重;将选取的所述高权重与所述词向量中的词汇进行匹配 ...
【技术保护点】
1.一种非结构化文本的关键信息挖掘方法,其特征在于,包括:获取非结构文本的文本信息;采用分词算法,将所述文本信息解析为多个词向量;根据所述词向量,提取所述文本信息的语言模板;将所述语言模板与所述文本信息进行匹配,获得所述文本信息的关键信息;将所述关键信息输出给用户。
【技术特征摘要】
1.一种非结构化文本的关键信息挖掘方法,其特征在于,包括:获取非结构文本的文本信息;采用分词算法,将所述文本信息解析为多个词向量;根据所述词向量,提取所述文本信息的语言模板;将所述语言模板与所述文本信息进行匹配,获得所述文本信息的关键信息;将所述关键信息输出给用户。2.根据权利要求1所述的方法,其特征在于,所述根据所述词向量,提取所述文本信息的语言模板,包括:采用tf-idf算法,计算所述词向量中各个词汇的权重;根据各个词汇的所述权重,获得所述文本信息的权重向量;根据所述权重向量和所述词向量,获得所述文本信息的词典;根据所述词典和所述词向量,生成所述文本信息的语言模板。3.根据权利要求2所述的方法,其特征在于,所述根据所述权重向量和所述词向量,获得所述文本信息的词典,包括:将所述权重向量中每个词汇的权重,按从大到小的顺序排列;从权重最大值开始,选取预设数量的权重,作为高权重;将选取的所述高权重与所述词向量中的词汇进行匹配,获得所述高权重对应的重要词汇;利...
【专利技术属性】
技术研发人员:刘若初,郑则典,罗伟东,
申请(专利权)人:深圳市和讯华谷信息技术有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。