一种文本数据处理方法及其装置制造方法及图纸

技术编号:24290015 阅读:40 留言:0更新日期:2020-05-26 20:12
本申请公开了一种文本数据处理方法及其装置,所述方法包括:获取与待测文本对应的结构,所述结构包括待测段落到待测分句到待测词语的结构;基于所述结构,获取与所述待测段落对应的全局语义信息;针对各个待测词语中的每个待测词语执行以下操作来获取与各个待测词语对应的词语语义信息:获取待测词语对应的上下文语义信息,其中,所述上下文语义信息包括所述待测词语的远程依赖信息;将所述待测词语输入至语义机器学习模型组件,获取与所述待测词语对应的词语语义信息,其中,所述语义机器学习模型组件根据全局语义信息与所述待测词语的上下文语义信息及其词语语义信息之间的对应关系进行训练得到。采用本申请,可准确理解待测段落的语义信息。

A text data processing method and its device

【技术实现步骤摘要】
一种文本数据处理方法及其装置
本申请涉及计算机
,尤其涉及一种文本数据处理方法及其装置。
技术介绍
随着互联网的兴起,网络文学蓬勃发展。很多作家为了吸引用户点击,会在网络文学(例如,小说)中添加色情内容,而这些色情内容可能会对读者(特别是青少年读者)的身心健康造成极大影响,并可能危害社会安全。为此,需要有效鉴定出网络文学中的色情内容。目前,色情内容的识别方法主要包括以下几种:1)基于敏感词汇的识别方法。该方法预先存储敏感词构成的敏感词汇表,随后,按照敏感词汇表遍历待测文本,若待测文本中所包括的敏感词的数量超过某一阈值,则确定待测文本包括色情内容。该方法的缺点在于完全依赖敏感词汇表,若色情内容是由隐晦词语而非敏感词构成,则无法鉴定出色情内容。2)基于特征提取的识别方法。该方法利用机器学习方法(例如,支持向量机的学习方法)学习色情内容中各敏感词组合的权重,随后确定待测文本是否具有该权重组合。该方法相较于基于敏感词汇的匹配识别具有较高的准确性,但是该方法依然依赖于敏感词汇表,存在与基于敏感词汇的匹配识别相同的问题。3)基于深度学习模型的识别方法。该方法基于卷积神经网络或递归神经网络,通过循环训练大量的样本,得到包括色情内容的语义特征的检测模型,并通过该检测模型对待测文本进行识别。该方法的缺点在于仅从时间/空间上对色情内容进行判断,依然无法准确鉴定出由隐晦词语构成的色情内容。因此,需要一种从文本中鉴定出色情内容(特别是由隐晦词语构成的色情内容)的技术方案。
技术实现思路
r>本申请的主要目的在于提供一种文本数据处理方法及其装置,旨在解决以上提到的从文本中鉴定出色情内容的技术问题。本申请的示例性实施例提供一种文本数据处理方法,所述方法包括:获取与待测文本对应的结构,所述结构包括待测段落到待测分句到待测词语的结构;基于所述结构,获取与所述待测段落对应的全局语义信息;针对各个待测词语中的每个待测词语执行以下操作来获取与各个待测词语对应的词语语义信息:获取待测词语对应的上下文语义信息,其中,所述上下文语义信息包括所述待测词语的远程依赖信息,其中,所述远程依赖信息是待测词语与和待测词语不相邻的词语的依赖关系的信息;将所述待测词语输入至语义机器学习模型组件,获取与所述待测词语对应的词语语义信息,其中,所述语义机器学习模型组件根据全局语义信息与所述待测词语的上下文语义信息及其词语语义信息之间的对应关系进行训练得到。本申请的另一示例性实施例提供一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述指令被执行时实现上述方法。本申请的另一示例性实施例提供一种文本数据处理装置,所述装置包括处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:基于所述结构,获取与所述待测段落对应的全局语义信息;针对各个待测词语中的每个待测词语执行以下操作来获取与各个待测词语对应的词语语义信息:获取待测词语对应的上下文语义信息,其中,所述上下文语义信息包括所述待测词语的远程依赖信息,其中,所述远程依赖信息是待测词语与和待测词语不相邻的词语的依赖关系的信息;将所述待测词语输入至语义机器学习模型组件,获取与所述待测词语对应的词语语义信息,其中,所述语义机器学习模型组件根据全局语义信息与所述待测词语的上下文语义信息及其词语语义信息之间的对应关系进行训练得到。本申请的另一示例性实施例提供一种文本数据处理方法,所述方法包括:获取与待测文本对应的结构,所述结构包括待测段落到待测分句到待测词语的结构;基于所述结构,获取与所述待测段落对应的全局语义信息;针对各个待测词语中的每个待测词语执行以下操作来获取与各个待测词语对应的词语语义信息:获取待测词语对应的上下文语义信息,其中,所述上下文语义信息包括所述待测词语的远程依赖信息;将所述待测词语输入至语义机器学习模型组件,获取与所述待测词语对应的词语语义信息,其中,所述语义机器学习模型组件根据全局语义信息与所述待测词语的上下文语义信息及其词语语义信息之间的对应关系进行训练得到。本申请的另一示例性实施例提供一种色情文学鉴定方法,其特征在于,包括:获取与待测文本对应的结构,所述结构包括待测段落到待测分句到待测词语的结构;基于所述结构,获取与所述待测段落对应的全局语义信息;针对各个待测词语中的每个待测词语执行以下操作来获取与各个待测词语对应的词语语义信息:获取待测词语对应的上下文语义信息,其中,所述上下文语义信息包括所述待测词语的远程依赖信息;将所述待测词语输入至语义机器学习模型组件,获取与所述待测词语对应的词语语义信息,其中,所述语义机器学习模型组件根据全局语义信息与所述待测词语的上下文语义信息及其词语语义信息之间的对应关系进行训练得到。本申请的另一示例性实施例提供一种文本数据处理装置,所述装置包括处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:获取与待测文本对应的结构,所述结构包括待测段落到待测分句到待测词语的结构;基于所述结构,在待测段落层面上,将待测段落输入到通读机器学习模型组件中,获取与所述待测段落对应的全局语义信息,其中,所述通读机器学习模型组件根据待测段落与待测段落语义之间的对应关系进行训练得到;基于所述结构,在待测词语层面上,将待测词语输入精读机器学习模型组件中,获取所述待测词语的词语语义信息,其中,所述精读机器学习模型组件是利用通读机器学习组件获取的全局语义信息进行训练得到。本申请示例性实施例采用的上述至少一个技术方案能够达到以下有益效果:综上所述,根据本申请的示例性实施例的文本数据处理方法可结合全局语义信息确定每个词语的词语语义信息,从而能够准确理解每个词语所表达的含义,并且在此过程中,所述方法不仅可挖掘出具有空间关系的语义信息还可挖掘出具有远程依赖并且依赖程度高的语义信息,这样可在更准确地理解文本含义的情况下准确地鉴定出色情内容。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1是根据本申请的示例性实施例的文本数据处理系统的示图;图2是根据本申请的示例性实施例的文本数据处理方法的流程图;图3是根据本申请的示例性实施例的语义机器学习模型组件的原理图;图4是根据本申请的示例性实施例的文本数据处理方法的示意图;图5是根据本申请的示例性实施例的文本数据处理装置的框图。具体实施方式为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。在介绍本申请的示例性实施例前,为了方便本领域技术人员更好的理解本申请,首本文档来自技高网...

【技术保护点】
1.一种文本数据处理方法,其特征在于,包括:/n获取与待测文本对应的结构,所述结构包括待测段落到待测分句到待测词语的结构;/n基于所述结构,获取与所述待测段落对应的全局语义信息;/n针对各个待测词语中的每个待测词语执行以下操作来获取与各个待测词语对应的词语语义信息:/n获取待测词语对应的上下文语义信息,其中,所述上下文语义信息包括所述待测词语的远程依赖信息,其中,所述远程依赖信息包括待测词语与和待测词语不相邻的词语的依赖关系的信息;/n将所述待测词语输入至语义机器学习模型组件,获取与所述待测词语对应的词语语义信息,其中,所述语义机器学习模型组件根据全局语义信息与所述待测词语的上下文语义信息及其词语语义信息之间的对应关系进行训练得到。/n

【技术特征摘要】
1.一种文本数据处理方法,其特征在于,包括:
获取与待测文本对应的结构,所述结构包括待测段落到待测分句到待测词语的结构;
基于所述结构,获取与所述待测段落对应的全局语义信息;
针对各个待测词语中的每个待测词语执行以下操作来获取与各个待测词语对应的词语语义信息:
获取待测词语对应的上下文语义信息,其中,所述上下文语义信息包括所述待测词语的远程依赖信息,其中,所述远程依赖信息包括待测词语与和待测词语不相邻的词语的依赖关系的信息;
将所述待测词语输入至语义机器学习模型组件,获取与所述待测词语对应的词语语义信息,其中,所述语义机器学习模型组件根据全局语义信息与所述待测词语的上下文语义信息及其词语语义信息之间的对应关系进行训练得到。


2.如权利要求1所述的方法,其特征在于,还包括:
利用各个待测词语对应的词语语义信息,获取与包括所述各个待测词语的待测分句对应的初步分句语义信息。


3.如权利要求2所述的方法,其特征在于,还包括:
将所述初步分句语义信息输入注意力模型,获取与所述分句语义信息对应的最终分句语义信息,其中,所述注意力模型根据分句中的每个词语的注意力分布与分句的对应关系进行训练得到。


4.如权利要求3所述的方法,其特征在于,在获取与包括所述各个待测分句的待测段落对应的第一段落语义信息后还包括:
将最终分句语义信息中的各个词语作为待测词语输入至语义机器学习模型组件,获取初步段落语义信息。


5.如权利要求4所述的方法,其特征在于,在获取初步段落语义信息后还包括:
将初步段落语义信息输入注意力模型,获取与初步段落语义信息对应的最终段落语义信息作为所述待测段落的语义信息,其中,所述注意力模型根据分句中的每个词语的注意力分布与分句的对应关系进行训练得到。


6.如权利要求1所述的方法,其特征在于,将待测文本转换为待测段落到待测分句到待测词语的结构的文本数据包括:
对所述待测段落执行分句处理,获取与所述待测段落对应的多个待测分句;
对所述多个待测分句中的每个待测分句执行分词处理,获取与所述多个待测分句中的每个待测分句对应的各个待测词语;
根据获取的多个待测分句以及与所述多个待测分句中的每个待测分句对应的各个待测词语,生成待测段落到待测分句到待测词语的结构。


7.如权利要求6所述的方法,其特征在于,利用所述结构获取与待测段落对应的全局语义信息包括:
利用所述结构获取与所述文本数据对应的张量;
将所述张量输入到全局语义机器学习模型组件,获取与所述待测段落对应的全局语义信息,其中,所述全局语义机器学习模型组件根据多个文本与文本语义信息之间的对应关系进行训练得到。


8.如权利要求7所述的方法,其特征在于,利用所述结构获取与所述文本数据对应的张量包括:
对所述结构中的各个待测词语执行词嵌入处理,生成与各个待测词语对应的各个词向量;
利用与各个词语对应的各个词向量,生成与所述待测段落对应的张量。


9.如权利要求6所述的方法,其特征在于,全局语义机器学习模型组件包括卷积神经网络组件。


10.如权利要求8所述的方法,其特征在于,获取待测词语对应的上下文语义信息包括:
在生成的与各个待测词语中的每个待测词语对应的词向量的基础上,对所述词向量执行利用正余弦位置嵌入处理,获取与各个待测词语对应的时序信息作为每个待测词语的上下文语义信息。


11.如权利要求8所述的方法,其特征在于,获取与待测词语对应的上下文语义信息包括:
在生成的与各个待测词语对应的词向量的基础上,对所述词向量执行利用正余弦位置嵌入处理,获取与各个待测词语对应的时序信息;
对各个待测词...

【专利技术属性】
技术研发人员:贺国秀高喆康杨杨孙常龙刘晓钟司罗
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1