信息挖掘方法、电子装置及可读存储介质制造方法及图纸

技术编号:16327263 阅读:22 留言:0更新日期:2017-09-29 19:06
本发明专利技术公开了一种信息挖掘方法、电子装置及可读存储介质,该方法包括:实时或者定时从预先确定的数据源获取特定类型的信息;对获取的各个信息进行分词处理,并对各个信息对应的各个分词进行词性标注;根据各个信息对应的各个分词的分词顺序和词性,将各个信息对应的各个分词构建成预设结构分词树;在一个信息对应的预设结构分词树构建完成后,根据该信息对应的预设结构分词树,解析出该信息对应的核心观点信息。本发明专利技术实现对信息的深度挖掘,准确获取到信息中的核心观点信息。

【技术实现步骤摘要】
信息挖掘方法、电子装置及可读存储介质
本专利技术涉及计算机
,尤其涉及一种信息挖掘方法、电子装置及可读存储介质。
技术介绍
目前,在信息挖掘和推送领域,业界通常是实时或者定时在预先确定的数据源(例如,各大新闻网站)对特定类型的信息(例如,新闻标题信息)进行分析筛选,以自动挖掘出目标信息。现有的分析筛选方案是:预先训练好识别信息的类别标签的分类器;再利用训练好的分类器对特定类型的信息的类别标签进行识别,以识别出属于预设类别标签的目标信息。这种现有的分析筛选方案只能识别出属于预设类别标签的目标信息,无法对目标信息指向的核心观点信息进行深度挖掘,使得目标信息的挖掘和推送的准确性无法保障,容易出错。
技术实现思路
本专利技术的主要目的在于提供一种信息挖掘方法、电子装置及可读存储介质,旨在有效挖掘出核心观点信息。为实现上述目的,本专利技术提供的一种信息挖掘方法,所述方法包括以下步骤:实时或者定时从预先确定的数据源获取特定类型的信息;对获取的各个信息进行分词处理,并对各个信息对应的各个分词进行词性标注;根据各个信息对应的各个分词的分词顺序和词性,将各个信息对应的各个分词构建成预设结构分词树;在一个信息对应的预设结构分词树构建完成后,根据该信息对应的预设结构分词树,解析出该信息对应的核心观点信息。优选地,所述对获取的各个信息进行分词处理的步骤包括:根据正向最大匹配法将每一信息中待处理的字符串与通用字词典库进行匹配,得到第一匹配结果,所述第一匹配结果中包含有第一数量的第一词组和第三数量的单字;根据逆向最大匹配法将每一信息中待处理的字符串与通用字词典库进行匹配,得到第二匹配结果,所述第二匹配结果中包含有第二数量的第二词组和第四数量的单字;若所述第一数量与所述第二数量相等,且所述第三数量小于或者等于所述第四数量,则将所述第一匹配结果作为该信息的分词结果;若所述第一数量与所述第二数量相等,且所述第三数量大于所述第四数量,则将所述第二匹配结果作为该信息的分词结果;若所述第一数量与所述第二数量不相等,且所述第一数量大于所述第二数量,则将所述第二匹配结果作为该信息的分词结果;若所述第一数量与所述第二数量不相等,且所述第一数量小于所述第二数量,则将所述第一匹配结果作为该信息的分词结果。优选地,所述对各个信息对应的各个分词进行词性标注的步骤包括:根据通用字词典库中字和词分别与词性的映射关系,及/或,预设的字和词分别与词性的映射关系,确定各个信息的各个分词对应的词性;为各个信息的各个分词标注对应的词性。优选地,所述预设结构分词树包括多级节点,第一级节点为各个信息本身,第二级节点为分词短语,第二级节点之后的每一级节点均是上一级节点对应的下一级分词或者分词短语,所述根据各个信息对应的各个分词的分词顺序和词性,将各个信息对应的各个分词构建成预设结构分词树的步骤包括:A1、在各个信息对应的各个分词中,找出各个预设词性的目标分词;A2、根据各个信息中各个目标分词的顺序,确定各个第二级节点对应的分词短语;A3、若一个分词短语不可以进一步分词,则确定该分词短语为所在节点分支的最后一级节点;A4、若一个分词短语可以进一步分词,则找出该分词短语中的各个预设词性的目标分词,并根据该分词短语对应的各个目标分词的顺序,确定该分词短语的下一级节点对应的分词或者分词短语;A5、重复执行上述步骤A3和A4,直到确定出各个节点分支的最后一级节点对应的分词。优选地,所述根据该信息对应的预设结构分词树,解析出该信息对应的核心观点信息的步骤包括:基于构建的预设结构分词树,计算各个预设第一关键词性的分词与各个预设第二关键词性的分词之间的距离;分别找出与各个预设第一关键词性的分词距离最近的预设第二关键词性的分词,并将各个预设第一关键词性的分词与距离其最近的预设第二关键词性的分词按照在该信息中的顺序组成对应的核心观点信息。此外,为实现上述目的,本专利技术还提供一种电子装置,所述电子装置包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的信息挖掘系统,所述信息挖掘系统被所述处理器执行时实现如下步骤:实时或者定时从预先确定的数据源获取特定类型的信息;对获取的各个信息进行分词处理,并对各个信息对应的各个分词进行词性标注;根据各个信息对应的各个分词的分词顺序和词性,将各个信息对应的各个分词构建成预设结构分词树;在一个信息对应的预设结构分词树构建完成后,根据该信息对应的预设结构分词树,解析出该信息对应的核心观点信息。优选地,所述对获取的各个信息进行分词处理的步骤包括:根据正向最大匹配法将每一信息中待处理的字符串与通用字词典库进行匹配,得到第一匹配结果,所述第一匹配结果中包含有第一数量的第一词组和第三数量的单字;根据逆向最大匹配法将每一信息中待处理的字符串与通用字词典库进行匹配,得到第二匹配结果,所述第二匹配结果中包含有第二数量的第二词组和第四数量的单字;若所述第一数量与所述第二数量相等,且所述第三数量小于或者等于所述第四数量,则将所述第一匹配结果作为该信息的分词结果;若所述第一数量与所述第二数量相等,且所述第三数量大于所述第四数量,则将所述第二匹配结果作为该信息的分词结果;若所述第一数量与所述第二数量不相等,且所述第一数量大于所述第二数量,则将所述第二匹配结果作为该信息的分词结果;若所述第一数量与所述第二数量不相等,且所述第一数量小于所述第二数量,则将所述第一匹配结果作为该信息的分词结果。优选地,所述对各个信息对应的各个分词进行词性标注的步骤包括:根据通用字词典库中字和词分别与词性的映射关系,及/或,预设的字和词分别与词性的映射关系,确定各个信息的各个分词对应的词性;为各个信息的各个分词标注对应的词性。优选地,所述预设结构分词树包括多级节点,第一级节点为各个信息本身,第二级节点为分词短语,第二级节点之后的每一级节点均是上一级节点对应的下一级分词或者分词短语,所述根据各个信息对应的各个分词的分词顺序和词性,将各个信息对应的各个分词构建成预设结构分词树的步骤包括:在各个信息对应的各个分词中,找出各个预设词性的目标分词;根据各个信息中各个目标分词的顺序,确定各个第二级节点对应的分词短语;若一个分词短语不可以进一步分词,则确定该分词短语为所在节点分支的最后一级节点;若一个分词短语可以进一步分词,则找出该分词短语中的各个预设词性的目标分词,并根据该分词短语对应的各个目标分词的顺序,确定该分词短语的下一级节点对应的分词或者分词短语,直到确定出各个节点分支的最后一级节点对应的分词。进一步地,为实现上述目的,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质存储有信息挖掘系统,所述信息挖掘系统可被至少一个处理器执行,以使所述至少一个处理器执行如上述的信息挖掘方法的步骤。本专利技术提出的信息挖掘方法、电子装置及可读存储介质,对从数据源获取的特定类型的信息进行分词及对各个分词进行词性标注,并根据各个分词的顺序和词性构建预设结构分词树,基于构建的预设结构分词树解析出该信息对应的核心观点信息。由于能对获取的信息进行分词,并根据各个分词的词性构建预设结构分词树,利用预设结构分词树来挖掘信息中各个分词的深度联系以得到核心观点信息,从而实现对信息的深度挖掘,准确获取到信息中的核心观点信息。附图说明图1为本文档来自技高网...
信息挖掘方法、电子装置及可读存储介质

【技术保护点】
一种信息挖掘方法,其特征在于,所述方法包括以下步骤:实时或者定时从预先确定的数据源获取特定类型的信息;对获取的各个信息进行分词处理,并对各个信息对应的各个分词进行词性标注;根据各个信息对应的各个分词的分词顺序和词性,将各个信息对应的各个分词构建成预设结构分词树;在一个信息对应的预设结构分词树构建完成后,根据该信息对应的预设结构分词树,解析出该信息对应的核心观点信息。

【技术特征摘要】
1.一种信息挖掘方法,其特征在于,所述方法包括以下步骤:实时或者定时从预先确定的数据源获取特定类型的信息;对获取的各个信息进行分词处理,并对各个信息对应的各个分词进行词性标注;根据各个信息对应的各个分词的分词顺序和词性,将各个信息对应的各个分词构建成预设结构分词树;在一个信息对应的预设结构分词树构建完成后,根据该信息对应的预设结构分词树,解析出该信息对应的核心观点信息。2.如权利要求1所述的信息挖掘方法,其特征在于,所述对获取的各个信息进行分词处理的步骤包括:根据正向最大匹配法将每一信息中待处理的字符串与通用字词典库进行匹配,得到第一匹配结果,所述第一匹配结果中包含有第一数量的第一词组和第三数量的单字;根据逆向最大匹配法将每一信息中待处理的字符串与通用字词典库进行匹配,得到第二匹配结果,所述第二匹配结果中包含有第二数量的第二词组和第四数量的单字;若所述第一数量与所述第二数量相等,且所述第三数量小于或者等于所述第四数量,则将所述第一匹配结果作为该信息的分词结果;若所述第一数量与所述第二数量相等,且所述第三数量大于所述第四数量,则将所述第二匹配结果作为该信息的分词结果;若所述第一数量与所述第二数量不相等,且所述第一数量大于所述第二数量,则将所述第二匹配结果作为该信息的分词结果;若所述第一数量与所述第二数量不相等,且所述第一数量小于所述第二数量,则将所述第一匹配结果作为该信息的分词结果。3.如权利要求1或2所述的信息挖掘方法,其特征在于,所述对各个信息对应的各个分词进行词性标注的步骤包括:根据通用字词典库中字和词分别与词性的映射关系,及/或,预设的字和词分别与词性的映射关系,确定各个信息的各个分词对应的词性;为各个信息的各个分词标注对应的词性。4.如权利要求1或2所述的信息挖掘方法,其特征在于,所述预设结构分词树包括多级节点,第一级节点为各个信息本身,第二级节点为分词短语,第二级节点之后的每一级节点均是上一级节点对应的下一级分词或者分词短语,所述根据各个信息对应的各个分词的分词顺序和词性,将各个信息对应的各个分词构建成预设结构分词树的步骤包括:A1、在各个信息对应的各个分词中,找出各个预设词性的目标分词;A2、根据各个信息中各个目标分词的顺序,确定各个第二级节点对应的分词短语;A3、若一个分词短语不可以进一步分词,则确定该分词短语为所在节点分支的最后一级节点;A4、若一个分词短语可以进一步分词,则找出该分词短语中的各个预设词性的目标分词,并根据该分词短语对应的各个目标分词的顺序,确定该分词短语的下一级节点对应的分词或者分词短语;A5、重复执行上述步骤A3和A4,直到确定出各个节点分支的最后一级节点对应的分词。5.如权利要求4所述的信息挖掘方法,其特征在于,所述根据该信息对应的预设结构分词树,解析出该信息对应的核心观点信息的步骤包括:基于构建的预设结构分词树,计算各个预设第一关键词性的分词与各个预设第二关键词性的分词之间的距离;分别找出与各个预设第一关键词性的分词距离最近的预设第二关键词性的分词,并将各个预设第一关键词...

【专利技术属性】
技术研发人员:金戈徐亮肖京
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1