一种文本数据处理方法及其装置制造方法及图纸

技术编号：24290015 阅读：42 留言：0更新日期：2020-05-26 20:12

本申请公开了一种文本数据处理方法及其装置，所述方法包括：获取与待测文本对应的结构，所述结构包括待测段落到待测分句到待测词语的结构；基于所述结构，获取与所述待测段落对应的全局语义信息；针对各个待测词语中的每个待测词语执行以下操作来获取与各个待测词语对应的词语语义信息：获取待测词语对应的上下文语义信息，其中，所述上下文语义信息包括所述待测词语的远程依赖信息；将所述待测词语输入至语义机器学习模型组件，获取与所述待测词语对应的词语语义信息，其中，所述语义机器学习模型组件根据全局语义信息与所述待测词语的上下文语义信息及其词语语义信息之间的对应关系进行训练得到。采用本申请，可准确理解待测段落的语义信息。

A text data processing method and its device

全部详细技术资料下载

【技术实现步骤摘要】
一种文本数据处理方法及其装置
本申请涉及计算机
，尤其涉及一种文本数据处理方法及其装置。
技术介绍
随着互联网的兴起，网络文学蓬勃发展。很多作家为了吸引用户点击，会在网络文学(例如，小说)中添加色情内容，而这些色情内容可能会对读者(特别是青少年读者)的身心健康造成极大影响，并可能危害社会安全。为此，需要有效鉴定出网络文学中的色情内容。目前，色情内容的识别方法主要包括以下几种：1)基于敏感词汇的识别方法。该方法预先存储敏感词构成的敏感词汇表，随后，按照敏感词汇表遍历待测文本，若待测文本中所包括的敏感词的数量超过某一阈值，则确定待测文本包括色情内容。该方法的缺点在于完全依赖敏感词汇表，若色情内容是由隐晦词语而非敏感词构成，则无法鉴定出色情内容。2)基于特征提取的识别方法。该方法利用机器学习方法(例如，支持向量机的学习方法)学习色情内容中各敏感词组合的权重，随后确定待测文本是否具有该权重组合。该方法相较于基于敏感词汇的匹配识别具有较高的准确性，但是该方法依然依赖于敏感词汇表，存在与基于敏感词汇的匹配识别相同的问题。3)基本文档来自技高网...

【技术保护点】
1.一种文本数据处理方法，其特征在于，包括：/n获取与待测文本对应的结构，所述结构包括待测段落到待测分句到待测词语的结构；/n基于所述结构，获取与所述待测段落对应的全局语义信息；/n针对各个待测词语中的每个待测词语执行以下操作来获取与各个待测词语对应的词语语义信息：/n获取待测词语对应的上下文语义信息，其中，所述上下文语义信息包括所述待测词语的远程依赖信息，其中，所述远程依赖信息包括待测词语与和待测词语不相邻的词语的依赖关系的信息；/n将所述待测词语输入至语义机器学习模型组件，获取与所述待测词语对应的词语语义信息，其中，所述语义机器学习模型组件根据全局语义信息与所述待测词语的上下文语义信息及其...

【技术特征摘要】
1.一种文本数据处理方法，其特征在于，包括：
获取与待测文本对应的结构，所述结构包括待测段落到待测分句到待测词语的结构；
基于所述结构，获取与所述待测段落对应的全局语义信息；
针对各个待测词语中的每个待测词语执行以下操作来获取与各个待测词语对应的词语语义信息：
获取待测词语对应的上下文语义信息，其中，所述上下文语义信息包括所述待测词语的远程依赖信息，其中，所述远程依赖信息包括待测词语与和待测词语不相邻的词语的依赖关系的信息；
将所述待测词语输入至语义机器学习模型组件，获取与所述待测词语对应的词语语义信息，其中，所述语义机器学习模型组件根据全局语义信息与所述待测词语的上下文语义信息及其词语语义信息之间的对应关系进行训练得到。

2.如权利要求1所述的方法，其特征在于，还包括：
利用各个待测词语对应的词语语义信息，获取与包括所述各个待测词语的待测分句对应的初步分句语义信息。

3.如权利要求2所述的方法，其特征在于，还包括：
将所述初步分句语义信息输入注意力模型，获取与所述分句语义信息对应的最终分句语义信息，其中，所述注意力模型根据分句中的每个词语的注意力分布与分句的对应关系进行训练得到。

4.如权利要求3所述的方法，其特征在于，在获取与包括所述各个待测分句的待测段落对应的第一段落语义信息后还包括：
将最终分句语义信息中的各个词语作为待测词语输入至语义机器学习模型组件，获取初步段落语义信息。

5.如权利要求4所述的方法，其特征在于，在获取初步段落语义信息后还包括：
将初步段落语义信息输入注意力模型，获取与初步段落语义信息对应的最终段落语义信息作为所述待测段落的语义信息，其中，所述注意力模型根据分句中的每个词语的注意力分布与分句的对应关系进行训练得到。

6.如权利要求1所述的方法，其特征在于，将待测文本转换为待测段落到待测分句到待测词语的结构的文本数据包括：
对所述待测段落执行分句处理，获取与所述待测段落对应的多个待测分句；
对所述多个待测分句中的每个待测分句执行分词处理，获取与所述多个待测分句中的每个待测分句对应的各个待测词语；
根据获取的多个待测分句以及与所述多个待测分句中的每个待测分句对应的各个待测词语，生成待测段落到待测分句到待测词语的结构。

7.如权利要求6所述的方法，其特征在于，利用所述结构获取与待测段落对应的全局语义信息包括：
利用所述结构获取与所述文本数据对应的张量；
将所述张量输入到全局语义机器学习模型组件，获取与所述待测段落对应的全局语义信息，其中，所述全局语义机器学习模型组件根据多个文本与文本语义信息之间的对应关系进行训练得到。

8.如权利要求7所述的方法，其特征在于，利用所述结构获取与所述文本数据对应的张量包括：
对所述结构中的各个待测词语执行词嵌入处理，生成与各个待测词语对应的各个词向量；
利用与各个词语对应的各个词向量，生成与所述待测段落对应的张量。

9.如权利要求6所述的方法，其特征在于，全局语义机器学习模型组件包括卷积神经网络组件。

10.如权利要求8所述的方法，其特征在于，获取待测词语对应的上下文语义信息包括：
在生成的与各个待测词语中的每个待测词语对应的词向量的基础上，对所述词向量执行利用正余弦位置嵌入处理，获取与各个待测词语对应的时序信息作为每个待测词语的上下文语义信息。

11.如权利要求8所述的方法，其特征在于，获取与待测词语对应的上下文语义信息包括：
在生成的与各个待测词语对应的词向量的基础上，对所述词向量执行利用正余弦位置嵌入处理，获取与各个待测词语对应的时序信息；
对各个待测词...

【专利技术属性】
技术研发人员：贺国秀，高喆，康杨杨，孙常龙，刘晓钟，司罗，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛;KY

全部详细技术资料下载我是这个专利的主人