本申请公开了一种文本信息挖掘方法及装置。该方法包括:获取待挖掘的文本信息;将所述待挖掘的文本信息输入第一预设模型进行语义特征的提取和分类,以得到情感分类结果和/或标签分类结果;将所述待挖掘的文本信息输入第二预设模型进行语义特征的提取和分类,以得到评价对象和评价词;根据所述第一文本挖掘结果和所述第二文本挖掘结果确定挖掘后的文本信息。本申请解决了相关技术中的文本信息挖掘方法由于挖掘维度较为简单导致挖掘的文本信息不够准确和全面的技术问题。通过本申请,达到了从情感极性、多分类标签以及评价词与评价对象的关系三个维度进行文本信息挖掘的目的,为后续的统计或信息可视化提供了有效的数据支撑。
Method and device of text information mining
【技术实现步骤摘要】
文本信息挖掘方法及装置
本申请涉及自然语言处理
,具体而言,涉及一种文本信息挖掘方法及装置、电子设备及可读存储介质。
技术介绍
随着互联网信息技术和移动智能终端的快速发展,网络上出现了用户针对各种各样的产品或者事件等的评论信息,这些评论信息包含了产品或事件的大量信息,具有一定的商业价值和社会价值。目前针对这些评论信息的挖掘利用主要是通过自然语言处理等相关技术从评论信息中进行文本挖掘,然后通过可视化的方式将分析结果反馈给商家,有利于商家及时提升产品质量与服务水准。专利技术人发现,相关技术中的文本信息挖掘方法至少存在如下问题:针对文本信息的挖掘主要考虑了情感极性的判别和单标签的分类这两个维度,挖掘的维度过于简单,并且现有的标签分类模型通常只能识别出文本中的一种类别的信息,导致文本信息的挖掘不是十分准确和全面。针对相关技术中的文本信息挖掘方法由于挖掘维度较为简单导致挖掘的文本信息不够准确和全面的问题,目前尚未提出有效的解决方案。
技术实现思路
本申请的主要目的在于提供一种文本信息挖掘方法及装置、电子设备及可读存储介质,以解决相关技术中的文本信息挖掘方法由于挖掘维度较为简单导致挖掘的文本信息不够准确和全面的问题。为了实现上述目的,根据本申请的第一方面,提供了一种文本信息挖掘方法。根据本申请的文本信息挖掘方法包括:获取待挖掘的文本信息;将所述待挖掘的文本信息输入第一预设模型进行语义特征的提取和分类,以得到第一文本挖掘结果,其中,所述第一文本挖掘结果包括情感分类结果和/或标签分类结果;将所述待挖掘的文本信息输入第二预设模型进行语义特征的提取和分类,以得到第二文本挖掘结果,其中,所述第二文本挖掘结果包括评价对象和评价词;根据所述第一文本挖掘结果和所述第二文本挖掘结果确定挖掘后的文本信息。进一步地,所述第一预设模型包括文本卷积网络模型,所述将所述待挖掘的文本信息输入第一预设模型进行语义特征的提取和分类,以得到第一文本挖掘结果包括:根据所述待挖掘的文本信息构建所述待挖掘的文本信息的词向量矩阵;将所述词向量矩阵输入所述文本卷积网络模型,以提取所述待挖掘的文本信息中的语义特征;将所述语义特征输入softmax分类器进行分类,以得到与所述待挖掘的文本信息对应的不同情感类别和/或不同标签类别的分类概率。进一步地,所述将所述待挖掘的文本信息输入第一预设模型进行语义特征的提取和分类,以得到第一文本挖掘结果包括:将所述待挖掘的文本信息输入第一预设模型进行语义特征的提取和分类,以得到与所述待挖掘的文本信息对应的多个标签类别的分类概率;将多个所述标签类别的分类概率分别与预设标签分类概率阈值进行比较;根据比较结果确定与所述待挖掘的文本信息对应的一个或多个标签类别。进一步地,所述第二预设模型包括预训练模型和序列标注模型,所述将所述待挖掘的文本信息输入第二预设模型进行语义特征的提取和分类,以得到第二文本挖掘结果包括:将所述待挖掘的文本信息输入所述预训练模型,以得到所述待挖掘的文本信息对应的字符向量;将所述字符向量输入所述序列标注模型进行所述评价对象和所述评价词的提取和分类,以得到所述评价对象和所述评价词的分类概率;根据所述评价对象和所述评价词的分类概率确定所述待挖掘的文本信息对应的所述评价对象和所述评价词。进一步地,所述将所述待挖掘的文本信息输入第二预设模型进行语义特征的提取和分类,以得到第二文本挖掘结果包括:根据所述第二预设模型提取所述待挖掘的文本信息中的所述评价对象和所述评价词;根据所述评价对象和所述评价词在所述待挖掘的文本信息的位置确定所述评价对象与所述评价词的评价关系。进一步地,所述将所述待挖掘的文本信息输入第二预设模型进行语义特征的提取和分类,以得到第二文本挖掘结果包括:将所述待挖掘的文本信息按照句子的标点符号进行拆分,以得到一个或多个子句;计算每个所述子句中的所述评价对象与每个所述评价词的相对距离;根据所述相对距离确定所述评价对象与所述评价词的评价关系。为了实现上述目的,根据本申请的第二方面,提供了一种文本信息挖掘装置。根据本申请的文本信息挖掘装置包括:获取模块,用于获取待挖掘的文本信息;第一挖掘模块,用于将所述待挖掘的文本信息输入第一预设模型进行语义特征的提取和分类,以得到第一文本挖掘结果,其中,所述第一文本挖掘结果包括情感分类结果和/或标签分类结果;第二挖掘模块,用于将所述待挖掘的文本信息输入第二预设模型进行语义特征的提取和分类,以得到第二文本挖掘结果,其中,所述第二文本挖掘结果包括评价对象和评价词;确定模块,用于根据所述第一文本挖掘结果和所述第二文本挖掘结果确定挖掘后的文本信息。进一步地,所述第一预设模型包括文本卷积网络模型,所述第一挖掘模块包括:构建单元,用于根据所述待挖掘的文本信息构建所述待挖掘的文本信息的词向量矩阵;第一提取单元,用于将所述词向量矩阵输入所述文本卷积网络模型,以提取所述待挖掘的文本信息中的语义特征;分类单元,用于将所述语义特征输入softmax分类器进行分类,以得到与所述待挖掘的文本信息对应的不同情感类别和/或不同标签类别的分类概率。为了实现上述目的,根据本申请的第三方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如前任一项所述的方法。为了实现上述目的,根据本申请的第三方面,提供了一种非暂态可读存储介质,其特征在于,其上存储有计算机指令,所述指令被处理器执行时实现如前任一项所述方法的步骤。在本申请实施例中,采用获取待挖掘的文本信息;将所述待挖掘的文本信息输入第一预设模型进行语义特征的提取和分类,以得到第一文本挖掘结果,其中,所述第一文本挖掘结果包括情感分类结果和/或标签分类结果;将所述待挖掘的文本信息输入第二预设模型进行语义特征的提取和分类,以得到第二文本挖掘结果,其中,所述第二文本挖掘结果包括评价对象和评价词的方式,通过根据所述第一文本挖掘结果和所述第二文本挖掘结果确定挖掘后的文本信息,达到了从情感极性、多分类标签以及评价词与评价对象的关系三个维度进行文本信息挖掘的目的,从而实现了提高文本信息挖掘的准确性和全面性的技术效果,进而解决了相关技术中的文本信息挖掘方法由于挖掘维度较为简单导致挖掘的文本信息不够准确和全面的技术问题。附图说明构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1是根据本申请第一实施例的文本信息挖掘方法的流程示意图;图2是根据本申请第二实施例的文本信息挖掘方法的流程示意图;图3是本申请实施例基于文本卷积模型进行文本信息挖掘的过程示意图;图4是根据本申请第三实施例的文本信息挖掘方法的流程示意图;图5是根据本申请第四实施例的文本信息挖掘方法的流程示意图;图6是本申请实施例基于b本文档来自技高网...
【技术保护点】
1.一种文本信息挖掘方法,其特征在于,包括:/n获取待挖掘的文本信息;/n将所述待挖掘的文本信息输入第一预设模型进行语义特征的提取和分类,以得到第一文本挖掘结果,其中,所述第一文本挖掘结果包括情感分类结果和/或标签分类结果;/n将所述待挖掘的文本信息输入第二预设模型进行语义特征的提取和分类,以得到第二文本挖掘结果,其中,所述第二文本挖掘结果包括评价对象和评价词;/n根据所述第一文本挖掘结果和所述第二文本挖掘结果确定挖掘后的文本信息。/n
【技术特征摘要】
1.一种文本信息挖掘方法,其特征在于,包括:
获取待挖掘的文本信息;
将所述待挖掘的文本信息输入第一预设模型进行语义特征的提取和分类,以得到第一文本挖掘结果,其中,所述第一文本挖掘结果包括情感分类结果和/或标签分类结果;
将所述待挖掘的文本信息输入第二预设模型进行语义特征的提取和分类,以得到第二文本挖掘结果,其中,所述第二文本挖掘结果包括评价对象和评价词;
根据所述第一文本挖掘结果和所述第二文本挖掘结果确定挖掘后的文本信息。
2.根据权利要求1所述的文本信息挖掘方法,其特征在于,所述第一预设模型包括文本卷积网络模型,所述将所述待挖掘的文本信息输入第一预设模型进行语义特征的提取和分类,以得到第一文本挖掘结果包括:
根据所述待挖掘的文本信息构建所述待挖掘的文本信息的词向量矩阵;
将所述词向量矩阵输入所述文本卷积网络模型,以提取所述待挖掘的文本信息中的语义特征;
将所述语义特征输入softmax分类器进行分类,以得到与所述待挖掘的文本信息对应的不同情感类别和/或不同标签类别的分类概率。
3.根据权利要求1所述的文本信息挖掘方法,其特征在于,所述将所述待挖掘的文本信息输入第一预设模型进行语义特征的提取和分类,以得到第一文本挖掘结果包括:
将所述待挖掘的文本信息输入第一预设模型进行语义特征的提取和分类,以得到与所述待挖掘的文本信息对应的多个标签类别的分类概率;
将多个所述标签类别的分类概率分别与预设标签分类概率阈值进行比较;
根据比较结果确定与所述待挖掘的文本信息对应的一个或多个标签类别。
4.根据权利要求1所述的文本信息挖掘方法,其特征在于,所述第二预设模型包括预训练模型和序列标注模型,所述将所述待挖掘的文本信息输入第二预设模型进行语义特征的提取和分类,以得到第二文本挖掘结果包括:
将所述待挖掘的文本信息输入所述预训练模型,以得到所述待挖掘的文本信息对应的字符向量;
将所述字符向量输入所述序列标注模型进行所述评价对象和所述评价词的提取和分类,以得到所述评价对象和所述评价词的分类概率;
根据所述评价对象和所述评价词的分类概率确定所述待挖掘的文本信息对应的所述评价对象和所述评价词。
5.根据权利要求1所述的文本信息挖掘方法,其特征在于,所述将所述待挖掘的文本信息输入第...
【专利技术属性】
技术研发人员:林思琦,杜振东,王清琛,
申请(专利权)人:南京云问网络技术有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。