【技术实现步骤摘要】
文本检测方法、设备和介质
[0001]本公开涉及语言处理技术,更具体地,涉及文本检测方法、设备和介质。
技术介绍
[0002]随着互联网的深入发展,在网络上可以很容易的获得各种信息。然而,这同样加大了网络中不良内容(如色情、暴力、血腥等内容)的传播。基于此,内容发布平台通常会建立自动检测机制,对已发布的内容进行自动检测以拦截不良内容。但是,现有检测机制无法检测出相对隐晦的不良文本内容(例如通过大量的比喻、反讽等语言修辞方式隐晦描述的不良内容),因此有必要提供一种新的文本检测方案。
技术实现思路
[0003]本说明书公开的实施例提供文本检测方法、设备和介质。
[0004]根据本专利技术公开的第一方面,提供了文本检测方法,包括:
[0005]获取目标文本的文本内容以及阅读所述目标文本的用户行为;
[0006]获得所述文本内容的语义表达;
[0007]获得所述用户行为的文本表达;
[0008]根据所述文本内容的语义表达和所述用户行为的文本表达,对所述目标文本进行预测,得到所述
【技术保护点】
【技术特征摘要】
1.一种文本检测方法,包括:获取目标文本的文本内容以及阅读所述目标文本的用户行为;获得所述文本内容的语义表达;获得所述用户行为的文本表达;根据所述文本内容的语义表达和所述用户行为的文本表达,对所述目标文本进行预测,得到所述目标文本的类别。2.根据权利要求1所述的方法,所述根据所述文本内容的语义表达和所述用户行为的文本表达,对所述目标文本进行预测,得到所述目标文本的类别包括:根据所述文本内容的语义表达得到第一编码矩阵;根据所述用户行为的文本表达得到所述第二编码矩阵;对所述第一编码矩阵和所述第二编码矩阵进行组合编码,得到联合编码矩阵;使用所述联合矩阵编码进行预测,得到所述目标文本的类别。3.根据权利要求2所述的方法,所述获得所述文本内容的语义表达,包括:将所述文本内容进行分页,得到每一页文本的文本向量;利用所述每一页文本的文本向量得到所述文本内容的语义矩阵;根据所述文本内容的语义矩阵得到所述文本内容的全局语义信息作为所述文本内容的语义表达。4.根据权利要求3所述的方法,将所述文本内容进行分页之后,所述方法还包括:获得每一页文本的注意力分布以确定每一页文本的重要程度;所述根据所述语义矩阵得到所述文本内容的全局语义信息作为所述文本内容的语义表达,包括:利用所述每一页文本的注意力分布对所述全局语义信息进行加权处理后作为所述文本内容的语义表达。5.根据权利要求3所述的方法,所述用户行为包括用户在每一页文本的停留时间,所述获得所述用户行为的文本表达,包括:根据所述用户在每一页文本的停留时间计算所述用户对于所述目标文本的注意力分布;利用所述用户对于所述目标文本的注意力分布对所述文本内容的语义矩阵进行加权处理,得到所述用户行为的文本表达。6.根据权利要求3
‑
5中任一项所述的方法,所述使用联合编码矩阵进行预测,得到目标文本的类别,包括:基于注意力机制,根据第一编码矩阵确定目标文本的第一注意力分布;根据文本内容的语义矩阵和第一注意力分布,得到目标文本的基于第一注意力分布的表达;基于注意力机制,根据第二编码矩阵确定目标文本的第二注意力分布;根据文本内容的语义矩阵和第二注意力分布,得到目标文本的基于第二注意力分布的表达;基于注意力机制,根据联合编码矩阵确定目标文本的第三注意力分布;根据文本内容的语义矩阵和第三注意力分布,得到目标文本的基于第三注意力分布的表达;对目标文本的基于第一注意力的表达、基于第二注意力的表达、基于第三注意力的表达进行平均,得到目标文本的第一目标表达;
对目标文本的基于第一注意力的表达、基于第二注意力的表达进行平均,得到目标文本的第二目标表达;对目标文本的第一目标表达、第二目标表达、基于第一注意力的表达、基于第二注意力的表达、基于第三注意力的表达进行拼接,得到目标文本的第三目标表达;使用目标文本的第三目标表达进行预测,得到目标文本的类别。7.根据权利要求3
‑
5中任一项所述的方法,所述使用联合编码矩阵进行预测,得到目标文本的类别,包括:基于注意力机制,根据第一编码矩阵确定目标文本的第一注意力分布;根据文本内容的语义矩阵和第一注意力分布,得到目标文本的基于第一注意力分布的表达;基于注意力机制,根据第二编码矩阵确定目标文本的第二注意力分布;根据文本内容的语义矩阵和第二注意力分布,得到目标文本的基于第二注意力分布的表达;基于注意力机制,根据联合编码矩阵确定目标文本的第三注意力分布;根据文本内容的语义矩阵和第三注意力分布,得到目标文...
【专利技术属性】
技术研发人员:贺国秀,孙常龙,蒋卓人,康杨杨,刘晓钟,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。