文本数据的观点生成方法、装置及电子设备制造方法及图纸

技术编号：21952395 阅读：33 留言：0更新日期：2019-08-24 17:42

本发明专利技术的实施例提供了一种文本数据的观点生成方法、装置及电子设备。该文本数据的观点生成方法包括：获取待处理的目标文本数据；通过监督式的机器学习模型提取所述目标文本数据的第一观点，基于无监督算法挖掘所述目标文本数据的第二观点；根据所述第一观点所包含的字符和所述第二观点所包含的字符之间的关系，确定所述目标文本数据的候选评价主题和候选观点内容；根据所述候选评价主题和所述候选观点内容，生成所述目标文本数据的观点。本发明专利技术实施例的技术方案既能够充分利用有监督方法精确识别到文本数据的观点，同时又能够通过无监督算法有效缓解有监督方法召回率低、迭代处理较慢的问题，提高了文本数据观点的识别准确率及识别效率。

Viewpoint Generation Method, Device and Electronic Equipment for Text Data

全部详细技术资料下载

【技术实现步骤摘要】
文本数据的观点生成方法、装置及电子设备
本专利技术涉及计算机及通信
，具体而言，涉及一种文本数据的观点生成方法、装置及电子设备。
技术介绍
随着内容分享平台的飞速发展和广泛应用，目前互联网上的UGC(UserGeneratedContent，用户生成内容)数据爆炸式增长，而人们想要快速从海量数据中获取有价值的信息变得很艰难。传统的方式是采用人工查询和统计的方式进行处理，但是在面对数以亿计的文本数据时，这种方式成本较大且效率较低，而相关技术中提出的自动挖掘文本数据观点的方案，往往存在精度低和效率较低的问题。
技术实现思路
本专利技术的实施例提供了一种文本数据的观点生成方法、装置、计算机可读介质及电子设备，进而至少在一定程度上可以提高文本数据中观点的识别准确率及识别效率。本专利技术的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本专利技术的实践而习得。根据本专利技术实施例的一个方面，提供了一种文本数据的观点生成方法，包括：获取待处理的目标文本数据；通过监督式的机器学习模型提取所述目标文本数据的第一观点，基于无监督算法挖掘所述目标文本数据的第二观点；根据所述第一观点所包含的字符和所述第二观点所包含的字符之间的关系，确定所述目标文本数据的候选评价主题和候选观点内容；根据所述候选评价主题和所述候选观点内容，生成所述目标文本数据的观点。根据本专利技术实施例的一个方面，提供了一种文本数据的观点生成装置，包括：第一获取单元，用于获取待处理的目标文本数据；处理单元，用于通过监督式的机器学习模型提取所述目标文本数据的第一观点，并基于无监督算法挖掘所述目标文本数据的...

【技术保护点】
1.一种文本数据的观点生成方法，其特征在于，包括：获取待处理的目标文本数据；通过监督式的机器学习模型提取所述目标文本数据的第一观点，基于无监督算法挖掘所述目标文本数据的第二观点；根据所述第一观点所包含的字符和所述第二观点所包含的字符之间的关系，确定所述目标文本数据的候选评价主题和候选观点内容；根据所述候选评价主题和所述候选观点内容，生成所述目标文本数据的观点。

【技术特征摘要】
1.一种文本数据的观点生成方法，其特征在于，包括：获取待处理的目标文本数据；通过监督式的机器学习模型提取所述目标文本数据的第一观点，基于无监督算法挖掘所述目标文本数据的第二观点；根据所述第一观点所包含的字符和所述第二观点所包含的字符之间的关系，确定所述目标文本数据的候选评价主题和候选观点内容；根据所述候选评价主题和所述候选观点内容，生成所述目标文本数据的观点。2.根据权利要求1所述的文本数据的观点生成方法，其特征在于，基于无监督算法挖掘所述目标文本数据的第二观点，包括：通过实体识别模型识别所述目标文本数据中包含的实体词和情感词；挖掘所述目标文本数据中包含的主题词和观点词，得到置信度高于预定值的目标主题词和目标观点词；根据所述实体词、所述情感词、所述目标主题词和所述目标观点词进行共现计算，以生成所述第二观点。3.根据权利要求2所述的文本数据的观点生成方法，其特征在于，在根据所述实体词、所述情感词、所述目标主题词和所述目标观点词进行共现计算之前，还包括：获取与所述目标文本数据具有关联关系的资料数据；提取所述资料数据中所包含的实体名称，通过从所述资料数据中提取出的实体名称扩充所述实体词。4.根据权利要求2所述的文本数据的观点生成方法，其特征在于，挖掘所述目标文本数据中包含的主题词和观点词，得到置信度高于预定值的目标主题词和目标观点词，包括：根据所述目标文本数据中所包含的各个词的词性，确定所述目标文本数据中的候选主题词和候选观点词；根据所述候选主题词和所述候选观点词之间的关系、各个所述候选主题词之间的关系和各个所述候选观点词之间的关系，构建二分图；基于所述二分图计算各个所述候选主题词和各个所述候选观点词的置信度，并根据所述置信度确定所述目标主题词和目标观点词。5.根据权利要求1所述的文本数据的观点生成方法，其特征在于，根据所述第一观点所包含的字符和所述第二观点所包含的字符之间的关系，确定所述目标文本数据的候选评价主题和候选观点内容，包括：根据所述第一观点所包含的第一评价主题的字符和所述第二观点所包含的第二评价主题的字符之间的关系，确定所述目标文本数据的候选评价主题；根据所述第一观点所包含的第一观点内容的字符和所述第二观点所包含的第二观点内容的字符之间的关系，确定所述目标文本数据的候选观点内容。6.根据权利要求5所述的文本数据的观点生成方法，其特征在于，根据所述第一观点所包含的第一评价主题的字符和所述第二观点所包含的第二评价主题的字符之间的关系，确定所述目标文本数据的候选评价主题，包括：若所述第一评价主题的字符与所述第二评价主题的字符之间存在包含关系，则将所述第一评价主题和所述第二评价主题中字符数量最多的作为所述候选评价主题；若所述第一评价主题的字符与所述第二评价主题的字符之间存在交叉关系，则将所述第一评价主题的字符和所述第二评价主题的字符进行拼接，以得到所述候选评价主题。7.根据权利要求5所述的文本数据的观点生成方法，其特征在于，根据所述第一观点所包含的第一观点内容的字符和所述第二观点所包含的第二观点内容的字符之间的关系，确定所述目标文本数据的候选观点内容，包括：若所述第一观点内容的字符与所述第二观点内容的字符之间存在包含关系，则将所述第一观点内容和所述第二观点内容中字符数量最多的作为所述候选观点内容；若所述第一观点内容的字符与所述第二观点内容的字符之间存在交叉关系，则将所述第一观点内容的字符和所述第二观点内容的字符进行拼接，以得到所述候选观点内...

【专利技术属性】
技术研发人员：阳垚，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人