文本数据的观点生成方法、装置及电子设备制造方法及图纸

技术编号:21952395 阅读:33 留言:0更新日期:2019-08-24 17:42
本发明专利技术的实施例提供了一种文本数据的观点生成方法、装置及电子设备。该文本数据的观点生成方法包括:获取待处理的目标文本数据;通过监督式的机器学习模型提取所述目标文本数据的第一观点,基于无监督算法挖掘所述目标文本数据的第二观点;根据所述第一观点所包含的字符和所述第二观点所包含的字符之间的关系,确定所述目标文本数据的候选评价主题和候选观点内容;根据所述候选评价主题和所述候选观点内容,生成所述目标文本数据的观点。本发明专利技术实施例的技术方案既能够充分利用有监督方法精确识别到文本数据的观点,同时又能够通过无监督算法有效缓解有监督方法召回率低、迭代处理较慢的问题,提高了文本数据观点的识别准确率及识别效率。

Viewpoint Generation Method, Device and Electronic Equipment for Text Data

【技术实现步骤摘要】
文本数据的观点生成方法、装置及电子设备
本专利技术涉及计算机及通信
,具体而言,涉及一种文本数据的观点生成方法、装置及电子设备。
技术介绍
随着内容分享平台的飞速发展和广泛应用,目前互联网上的UGC(UserGeneratedContent,用户生成内容)数据爆炸式增长,而人们想要快速从海量数据中获取有价值的信息变得很艰难。传统的方式是采用人工查询和统计的方式进行处理,但是在面对数以亿计的文本数据时,这种方式成本较大且效率较低,而相关技术中提出的自动挖掘文本数据观点的方案,往往存在精度低和效率较低的问题。
技术实现思路
本专利技术的实施例提供了一种文本数据的观点生成方法、装置、计算机可读介质及电子设备,进而至少在一定程度上可以提高文本数据中观点的识别准确率及识别效率。本专利技术的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本专利技术的实践而习得。根据本专利技术实施例的一个方面,提供了一种文本数据的观点生成方法,包括:获取待处理的目标文本数据;通过监督式的机器学习模型提取所述目标文本数据的第一观点,基于无监督算法挖掘所述目标文本数据的第二观点;根据所述第一观点所包含的字符和所述第二观点所包含的字符之间的关系,确定所述目标文本数据的候选评价主题和候选观点内容;根据所述候选评价主题和所述候选观点内容,生成所述目标文本数据的观点。根据本专利技术实施例的一个方面,提供了一种文本数据的观点生成装置,包括:第一获取单元,用于获取待处理的目标文本数据;处理单元,用于通过监督式的机器学习模型提取所述目标文本数据的第一观点,并基于无监督算法挖掘所述目标文本数据的第二观点;确定单元,用于根据所述第一观点所包含的字符和所述第二观点所包含的字符之间的关系,确定所述目标文本数据的候选评价主题和候选观点内容;第一生成单元,用于根据所述候选评价主题和所述候选观点内容,生成所述目标文本数据的观点。在本专利技术的一些实施例中,基于前述方案,所述处理单元包括:识别单元,用于通过实体识别模型识别所述目标文本数据中包含的实体词和情感词;挖掘单元,用于挖掘所述目标文本数据中包含的主题词和观点词,得到置信度高于预定值的目标主题词和目标观点词;第二生成单元,用于根据所述实体词、所述情感词、所述目标主题词和所述目标观点词进行共现计算,以生成所述第二观点。在本专利技术的一些实施例中,基于前述方案,所述的文本数据的观点生成装置还包括:第二获取单元,用于获取与所述目标文本数据具有关联关系的资料数据;提取单元,用于提取所述资料数据中所包含的实体名称,通过从所述资料数据中提取出的实体名称扩充所述实体词。在本专利技术的一些实施例中,基于前述方案,所述挖掘单元配置为:根据所述目标文本数据中所包含的各个词的词性,确定所述目标文本数据中的候选主题词和候选观点词;根据所述候选主题词和所述候选观点词之间的关系、各个所述候选主题词之间的关系和各个所述候选观点词之间的关系,构建二分图;基于所述二分图计算各个所述候选主题词和各个所述候选观点词的置信度,并根据所述置信度确定所述目标主题词和目标观点词。在本专利技术的一些实施例中,基于前述方案,所述确定单元配置为:根据所述第一观点所包含的第一评价主题的字符和所述第二观点所包含的第二评价主题的字符之间的关系,确定所述目标文本数据的候选评价主题;根据所述第一观点所包含的第一观点内容的字符和所述第二观点所包含的第二观点内容的字符之间的关系,确定所述目标文本数据的候选观点内容。在本专利技术的一些实施例中,基于前述方案,所述确定单元配置为:若所述第一评价主题的字符与所述第二评价主题的字符之间存在包含关系,则将所述第一评价主题和所述第二评价主题中字符数量最多的作为所述候选评价主题;若所述第一评价主题的字符与所述第二评价主题的字符之间存在交叉关系,则将所述第一评价主题的字符和所述第二评价主题的字符进行拼接,以得到所述候选评价主题。在本专利技术的一些实施例中,基于前述方案,所述确定单元配置为:若所述第一观点内容的字符与所述第二观点内容的字符之间存在包含关系,则将所述第一观点内容和所述第二观点内容中字符数量最多的作为所述候选观点内容;若所述第一观点内容的字符与所述第二观点内容的字符之间存在交叉关系,则将所述第一观点内容的字符和所述第二观点内容的字符进行拼接,以得到所述候选观点内容。在本专利技术的一些实施例中,基于前述方案,所述第一生成单元配置为:根据所述候选评价主题的字符及所述候选观点内容的字符在所述目标文本数据中的位置,确定距离目标候选评价主题最近的目标候选观点内容,或确定距离目标候选观点内容的字符最近的目标候选评价主题;根据所述目标候选评价主题和所述目标候选观点内容,生成所述目标文本数据的观点。在本专利技术的一些实施例中,基于前述方案,所述处理单元配置为:获取对机器学习模型进行训练得到的评价主题和观点内容的联合识别模型;将所述目标文本数据输入至所述联合识别模型中,得到所述目标文本数据的评价主题和观点内容;根据所述目标文本数据的评价主题和观点内容,生成所述第一观点。在本专利技术的一些实施例中,基于前述方案,所述处理单元配置为:获取用于对机器学习模型进行训练的第一文本数据;根据所述第一文本数据和所述第一文本数据中标记的评价主题标签和观点内容标签,生成训练样本;通过所述训练样本对所述机器学习模型进行训练,以生成所述联合识别模型。在本专利技术的一些实施例中,基于前述方案,所述的文本数据的观点生成装置还包括:构建单元,用于根据长短期记忆网络和条件随机场算法构建所述机器学习模型,并构建所述机器学习模型的损失函数。在本专利技术的一些实施例中,基于前述方案,所述构建单元配置为,通过以下公式构建所述机器学习模型对应的对数概率,并根据所述对数概率构建所述损失函数:其中,p(y|X)表示在已知文本数据X的基础上,文本数据中所包含的字符是标签y的概率;YX表示所有可能的标签组合;表示标签组合中的一个标签;表示从标签yi转移到标签yi+1的概率矩阵,n表示标签集合中的标签个数;表示所述长短期记忆网络LSTM输出的概率矩阵。在本专利技术的一些实施例中,基于前述方案,所述构建单元还用于:在所述对数概率中添加边界多样性损失项,所述边界多样性损失项包括Eleft和Eright,其中,其中,B表示的标签为位于词首的评价主题;C表示的标签为位于词首的观点内容;E表示的标签为位于词尾的评价主题;F表示的标签为位于词尾的观点内容;xi|yi=B/C表示邻接于B或C的词;xi|yi=E/F表示邻接于E或F的词;AV(w1w2…wk)=logRLav(w1w2…wk),logRLav(w1w2…wk)表示邻接于w1w2…wk的不同字符的个数。根据本专利技术实施例的一个方面,提供了一种计算机可读介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述实施例中所述的文本数据的观点生成方法。根据本专利技术实施例的一个方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述实施例中所述的文本数据的观点生成方法。在本专利技术的一些实施例所提供的技术方案中,通过基于监督式的机器学习模型提取目标文本数据的第一观点,并基于无监督算法挖掘目标文本文档来自技高网...

【技术保护点】
1.一种文本数据的观点生成方法,其特征在于,包括:获取待处理的目标文本数据;通过监督式的机器学习模型提取所述目标文本数据的第一观点,基于无监督算法挖掘所述目标文本数据的第二观点;根据所述第一观点所包含的字符和所述第二观点所包含的字符之间的关系,确定所述目标文本数据的候选评价主题和候选观点内容;根据所述候选评价主题和所述候选观点内容,生成所述目标文本数据的观点。

【技术特征摘要】
1.一种文本数据的观点生成方法,其特征在于,包括:获取待处理的目标文本数据;通过监督式的机器学习模型提取所述目标文本数据的第一观点,基于无监督算法挖掘所述目标文本数据的第二观点;根据所述第一观点所包含的字符和所述第二观点所包含的字符之间的关系,确定所述目标文本数据的候选评价主题和候选观点内容;根据所述候选评价主题和所述候选观点内容,生成所述目标文本数据的观点。2.根据权利要求1所述的文本数据的观点生成方法,其特征在于,基于无监督算法挖掘所述目标文本数据的第二观点,包括:通过实体识别模型识别所述目标文本数据中包含的实体词和情感词;挖掘所述目标文本数据中包含的主题词和观点词,得到置信度高于预定值的目标主题词和目标观点词;根据所述实体词、所述情感词、所述目标主题词和所述目标观点词进行共现计算,以生成所述第二观点。3.根据权利要求2所述的文本数据的观点生成方法,其特征在于,在根据所述实体词、所述情感词、所述目标主题词和所述目标观点词进行共现计算之前,还包括:获取与所述目标文本数据具有关联关系的资料数据;提取所述资料数据中所包含的实体名称,通过从所述资料数据中提取出的实体名称扩充所述实体词。4.根据权利要求2所述的文本数据的观点生成方法,其特征在于,挖掘所述目标文本数据中包含的主题词和观点词,得到置信度高于预定值的目标主题词和目标观点词,包括:根据所述目标文本数据中所包含的各个词的词性,确定所述目标文本数据中的候选主题词和候选观点词;根据所述候选主题词和所述候选观点词之间的关系、各个所述候选主题词之间的关系和各个所述候选观点词之间的关系,构建二分图;基于所述二分图计算各个所述候选主题词和各个所述候选观点词的置信度,并根据所述置信度确定所述目标主题词和目标观点词。5.根据权利要求1所述的文本数据的观点生成方法,其特征在于,根据所述第一观点所包含的字符和所述第二观点所包含的字符之间的关系,确定所述目标文本数据的候选评价主题和候选观点内容,包括:根据所述第一观点所包含的第一评价主题的字符和所述第二观点所包含的第二评价主题的字符之间的关系,确定所述目标文本数据的候选评价主题;根据所述第一观点所包含的第一观点内容的字符和所述第二观点所包含的第二观点内容的字符之间的关系,确定所述目标文本数据的候选观点内容。6.根据权利要求5所述的文本数据的观点生成方法,其特征在于,根据所述第一观点所包含的第一评价主题的字符和所述第二观点所包含的第二评价主题的字符之间的关系,确定所述目标文本数据的候选评价主题,包括:若所述第一评价主题的字符与所述第二评价主题的字符之间存在包含关系,则将所述第一评价主题和所述第二评价主题中字符数量最多的作为所述候选评价主题;若所述第一评价主题的字符与所述第二评价主题的字符之间存在交叉关系,则将所述第一评价主题的字符和所述第二评价主题的字符进行拼接,以得到所述候选评价主题。7.根据权利要求5所述的文本数据的观点生成方法,其特征在于,根据所述第一观点所包含的第一观点内容的字符和所述第二观点所包含的第二观点内容的字符之间的关系,确定所述目标文本数据的候选观点内容,包括:若所述第一观点内容的字符与所述第二观点内容的字符之间存在包含关系,则将所述第一观点内容和所述第二观点内容中字符数量最多的作为所述候选观点内容;若所述第一观点内容的字符与所述第二观点内容的字符之间存在交叉关系,则将所述第一观点内容的字符和所述第二观点内容的字符进行拼接,以得到所述候选观点内...

【专利技术属性】
技术研发人员:阳垚
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1