基于自然语言处理的业务网站监测系统技术方案

技术编号:35862345 阅读:15 留言:0更新日期:2022-12-07 10:52
本申请属于互联网及人工智能技术领域,涉及基于自然语言处理的业务网站监测系统,包括:数据在线处理子系统通过互联网接收由属于目标业务领域的受监测业务网站提供的第一业务网站数据并发送至数据采集清洗子系统,数据采集清洗子系统对第一业务网站数据进行清洗得到第二业务网站数据并发送至数据资源管理子系统,数据资源管理子系统将来自数据采集清洗子系统的第二业务网站数据传输至数据分析应用子系统,数据分析应用子系统利用经训练的基于Transformer架构的预训练语言模型对来自数据资源管理子系统的第二业务网站数据进行分析,该基于Transformer架构的预训练语言模型利用目标业务领域的文本语料训练得到;该方案能够提高对业务网站数据监测分析的准确性和效率。和效率。和效率。

【技术实现步骤摘要】
基于自然语言处理的业务网站监测系统


[0001]本申请涉及互联网及人工智能
,特别是涉及一种基于自然语言处理的业务网站监测系统。

技术介绍

[0002]近年来,随着互联网技术的快速发展,信息的传递和交流更加便捷和快速,网络成为信息传播的主要渠道和重要方式。一些特定业务领域的门户网站在业务信息公开方面起到了举足轻重的作用,需要保证该些业务领域的门户网站所发布的数据信息正确无误,避免出现错漏,由此就需要对其网站数据进行准确的监测。
[0003]在目前的相关技术中,其提供的监测系统对网页数据进行分析时主要基于规则和专家系统,即通过专家从语言学角度分析自然语言的结构规则,来达到分析网页数据的目的。但是由于语言表达的多样性使得规则库和专家系统无法涵盖所有的语言样式,导致其误判率较高,进而造成人工复核工作量也随之升高,也降低了监测分析效率。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种基于自然语言处理的业务网站监测系统。
[0005]本申请提供了一种基于自然语言处理的业务网站监测系统,所述系统包括:数据在线处理子系统、数据采集清洗子系统、数据资源管理子系统和数据分析应用子系统;其中,
[0006]所述数据在线处理子系统,用于通过互联网接收由属于目标业务领域的受监测业务网站提供的第一业务网站数据,发送至所述数据采集清洗子系统;
[0007]所述数据采集清洗子系统,用于对所述第一业务网站数据进行清洗得到第二业务网站数据,将所述第二业务网站数据发送至所述数据资源管理子系统;
[0008]所述数据资源管理子系统,用于将来自所述数据采集清洗子系统的第二业务网站数据传输至所述数据分析应用子系统;
[0009]所述数据分析应用子系统,用于获取经训练的基于Transformer架构的预训练语言模型,利用所述预训练语言模型对来自所述数据资源管理子系统的第二业务网站数据进行分析;其中,所述基于Transformer架构的预训练语言模型利用所述目标业务领域的文本语料训练得到。
[0010]在一个实施例中,所述Encoder结构对应的运算方式为:
[0011][0012]其中,X表示Encoder结构输入,Y
Encoder
表示Encoder结构输出,MHA(X)表示Transformer结构的输出,LayerNorm(.)表示对矩阵进行归一化运算,FeedForward(L1)表示全连接层的输出。
[0013]在一个实施例中,所述数据分析应用子系统,进一步用于利用所述目标业务领域的文本语料进行掩码训练,得到所述基于Transformer架构的预训练语言模型。
[0014]在一个实施例中,数据分析应用子系统,还用于利用GPU线程对掩码的文本语料进行训练,以及利用CPU对下一批文本语料进行掩码处理。
[0015]在一个实施例中,所述数据分析应用子系统,进一步用于在训练过程中,根据所述基于Transformer架构的预训练语言模型的输出序列和嵌入层的输出序列结合被掩盖字符的下标,得到输出序列的掩码表示,根据所述输出序列的掩码表示计算掩码位置对应的词表上的概率分布矩阵,根据所述概率分布矩阵计算交叉熵损失,根据所述交叉熵损失调整每一Transformer Encoder结构的网络参数。
[0016]在一个实施例中,所述数据分析应用子系统,进一步用于获取通用文本语料库和所述目标业务领域的文本语料库,利用所述通用文本语料库中的通用文本语料进行掩码训练得到初步的基于Transformer架构的预训练语言模型,在所述初步的基于Transformer架构的预训练语言模型的基础上,利用所述目标业务领域的文本语料库中的文本语料进行掩码训练,得到所述基于Transformer架构的预训练语言模型。
[0017]在一个实施例中,所述数据在线处理子系统进一步用于对输出的第一业务网站数据进行打包处理,并在打包的数据包中添加安全校验信息;
[0018]所述数据采集清洗子系统进一步用于对所述安全校验信息进行校验后解包得到第一业务网站数据;其中,所述安全校验信息包括间隔性地对第一业务网站数据进行解密所使用的密钥打上的使用时间标签;
[0019]所述数据采集清洗子系统预先接收一份密钥使用列表,并根据所述密钥使用列表中记录的对第一业务网站数据解密所使用的密钥及其前后时间关联性对第一业务网站数据的数据包进行校验。
[0020]在一个实施例中,所述数据在线处理子系统进一步用于对输出的第一业务网站数据的关键字进行识别;根据所述关键字识别所述第一业务网站数据的重要性程度并划分等级,并分别对所述第一业务网站数据打上等级标签;其中,所述等级包括高级、中级和低级;
[0021]所述数据采集清洗子系统进一步用于对所述高级等级的第一业务网站数据进行逐条清洗处理,对所述中级等级的第一业务网站数据清除异常数据后再进行清洗处理,以及对所述低级等级的第一业务网站数据清除异常数据且对同类数据融合后进行清洗处理,输出第二业务网站数据。
[0022]在一个实施例中,所述数据分析应用子系统进一步用于对所述第二业务网站数据进行分析时,向数据采集清洗子系统实时反馈数据训练状态;
[0023]所述数据采集清洗子系统进一步用于根据所述数据训练状态,并计算出所需使用的数据清洗函数表中的目标数据清洗函数;其中,数据采集清洗子系统中预存有数据清洗函数表,所述数据清洗函数表上记录有多种不同的数据清洗函数;从所述数据清洗函数表中读取所述目标数据清洗函数对第一业务网站数据进行清洗处理。
[0024]在一个实施例中,所述数据采集清洗子系统进一步用于将目标数据清洗函数以及当前的数据清洗进度信息反馈至数据在线处理子系统;
[0025]所述在线处理子系统进一步用于根据目标数据清洗函数以及数据清洗进度信息,对数据采集清洗子系统的数据处理量进行预测分析;并根据所述预测分析结果确定数据采
集清洗子系统的数据处理能力值,根据所述数据处理能力值对输出的第一业务网站数据进行优化处理;其中,所述优化处理包括:若数据处理能力值低于设定阈值,调整对低级等级的第一业务网站数据进行融合处理时的融合程度,或者根据设定规则抛弃部分低级等级的第一业务网站数据。
[0026]在一个实施例中,所述数据在线处理子系统,进一步用于:通过互联网接收由属于目标业务领域的受监测业务网站发送的加密的第一业务网站数据;根据所述加密的第一业务网站数据的发送时间,从预置的密钥库中获取所述发送时间对应的密钥;利用所述发送时间对应的密钥对所述加密的第一业务网站数据进行解密,得到所述第一业务网站数据,发送至所述数据采集清洗子系统。
[0027]在一个实施例中,所述数据分析应用子系统,进一步用于:确定所述第一业务网站数据对应的发布平台;根据所述发布平台,从模型库中获取所述发布平台对应的经训练的基于Transformer架构的预训练语言模型,利用该预训练语言模型对来自所述数据资源管理子系统的第本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自然语言处理的业务网站监测系统,其特征在于,所述系统包括:数据在线处理子系统、数据采集清洗子系统、数据资源管理子系统和数据分析应用子系统;其中,所述数据在线处理子系统,用于通过互联网接收由属于目标业务领域的受监测业务网站提供的第一业务网站数据,发送至所述数据采集清洗子系统;所述数据采集清洗子系统,用于对所述第一业务网站数据进行清洗得到第二业务网站数据,将所述第二业务网站数据发送至所述数据资源管理子系统;所述数据资源管理子系统,用于将来自所述数据采集清洗子系统的第二业务网站数据传输至所述数据分析应用子系统;所述数据分析应用子系统,用于获取经训练的基于Transformer架构的预训练语言模型,利用所述预训练语言模型对来自所述数据资源管理子系统的第二业务网站数据进行分析;其中,所述基于Transformer架构的预训练语言模型利用所述目标业务领域的文本语料训练得到。2.根据权利要求1所述的系统,其特征在于,所述基于Transformer架构的预训练语言模型依次包括:嵌入层、多层Transformer Encoder结构和输出层;所述嵌入层包括字嵌入部分、块嵌入部分和位置嵌入部分;所述Transformer Encoder结构包括Transformer结构和Encoder结构;所述Encoder结构包括归一化层和全连接层;所述数据分析应用子系统,进一步用于利用所述目标业务领域的文本语料进行掩码训练,得到所述基于Transformer架构的预训练语言模型。3.根据权利要求2所述的系统,其特征在于,所述Encoder结构对应的运算方式为:其中,X表示Encoder结构输入,Y
Encoder
表示Encoder结构输出,MHA(X)表示Transformer结构的输出,LayerNorm(.)表示对矩阵进行归一化运算,FeedForward(L1)表示全连接层的输出。4.根据权利要求2所述的系统,其特征在于,数据分析应用子系统,还用于利用GPU线程对掩码的文本语料进行训练,以及利用CPU对下一批文本语料进行掩码处理;其中,所述掩码包含字符掩码、实体掩码和片段掩码中的一种或多种;所述数据分析应用子系统,进一步用于在训练过程中,根据所述基于Transformer架构的预训练语言模型的输出序列和嵌入层的输出序列结合被掩盖字符的下标,得到输出序列的掩码表示,根据所述输出序列的掩码表示计算掩码位置对应的词表上的概率分布矩阵,根据所述概率分布矩阵计算交叉熵损失,根据所述交叉熵损失调整每一Transformer Encoder结构的网络参数。5.根据权利要求4所述的系统,其特征在于,所述数据分析应用子系统,进一步用于获取通用文本语料库和所述目标业务领域的文本语料库,利用所述通用文本语料库中的通用文本语料进行掩码训练得到初步的基于Transformer架构的预训练语言模型,在所述初步的基于Transformer架构的预训练语言模型的基础上,利用所述目标业务领域的文本语料库中的文本语料进行掩码训练,得到所述基于Transformer架构的预训练语言模型。6.根据权利要求...

【专利技术属性】
技术研发人员:钟志宏陈肇文徐永兴
申请(专利权)人:广州宝立科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1