基于自然语言处理的业务网站监测系统技术方案

技术编号：35862345 阅读：15 留言：0更新日期：2022-12-07 10:52

本申请属于互联网及人工智能技术领域，涉及基于自然语言处理的业务网站监测系统，包括：数据在线处理子系统通过互联网接收由属于目标业务领域的受监测业务网站提供的第一业务网站数据并发送至数据采集清洗子系统，数据采集清洗子系统对第一业务网站数据进行清洗得到第二业务网站数据并发送至数据资源管理子系统，数据资源管理子系统将来自数据采集清洗子系统的第二业务网站数据传输至数据分析应用子系统，数据分析应用子系统利用经训练的基于Transformer架构的预训练语言模型对来自数据资源管理子系统的第二业务网站数据进行分析，该基于Transformer架构的预训练语言模型利用目标业务领域的文本语料训练得到；该方案能够提高对业务网站数据监测分析的准确性和效率。和效率。和效率。

全部详细技术资料下载

【技术实现步骤摘要】
基于自然语言处理的业务网站监测系统

[0001]本申请涉及互联网及人工智能
，特别是涉及一种基于自然语言处理的业务网站监测系统。

技术介绍

[0002]近年来，随着互联网技术的快速发展，信息的传递和交流更加便捷和快速，网络成为信息传播的主要渠道和重要方式。一些特定业务领域的门户网站在业务信息公开方面起到了举足轻重的作用，需要保证该些业务领域的门户网站所发布的数据信息正确无误，避免出现错漏，由此就需要对其网站数据进行准确的监测。
[0003]在目前的相关技术中，其提供的监测系统对网页数据进行分析时主要基于规则和专家系统，即通过专家从语言学角度分析自然语言的结构规则，来达到分析网页数据的目的。但是由于语言表达的多样性使得规则库和专家系统无法涵盖所有的语言样式，导致其误判率较高，进而造成人工复核工作量也随之升高，也降低了监测分析效率。

技术实现思路

[0004]基于此，有必要针对上述技术问题，提供一种基于自然语言处理的业务网站监测系统。
[0005]本申请提供了一种基于自然语言处理的业务网站监测系统，所述系统包括：数据在线处理子系统、数据采集清洗子系统、数据资源管理子系统和数据分析应用子系统；其中，
[0006]所述数据在线处理子系统，用于通过互联网接收由属于目标业务领域的受监测业务网站提供的第一业务网站数据，发送至所述数据采集清洗子系统；
[0007]所述数据采集清洗子系统，用于对所述第一业务网站数据进行清洗得到第二业务网站数据，将所述第二业务网站数据发送至所述数据资...

【技术保护点】

【技术特征摘要】
1.一种基于自然语言处理的业务网站监测系统，其特征在于，所述系统包括：数据在线处理子系统、数据采集清洗子系统、数据资源管理子系统和数据分析应用子系统；其中，所述数据在线处理子系统，用于通过互联网接收由属于目标业务领域的受监测业务网站提供的第一业务网站数据，发送至所述数据采集清洗子系统；所述数据采集清洗子系统，用于对所述第一业务网站数据进行清洗得到第二业务网站数据，将所述第二业务网站数据发送至所述数据资源管理子系统；所述数据资源管理子系统，用于将来自所述数据采集清洗子系统的第二业务网站数据传输至所述数据分析应用子系统；所述数据分析应用子系统，用于获取经训练的基于Transformer架构的预训练语言模型，利用所述预训练语言模型对来自所述数据资源管理子系统的第二业务网站数据进行分析；其中，所述基于Transformer架构的预训练语言模型利用所述目标业务领域的文本语料训练得到。2.根据权利要求1所述的系统，其特征在于，所述基于Transformer架构的预训练语言模型依次包括：嵌入层、多层Transformer Encoder结构和输出层；所述嵌入层包括字嵌入部分、块嵌入部分和位置嵌入部分；所述Transformer Encoder结构包括Transformer结构和Encoder结构；所述Encoder结构包括归一化层和全连接层；所述数据分析应用子系统，进一步用于利用所述目标业务领域的文本语料进行掩码训练，得到所述基于Transformer架构的预训练语言模型。3.根据权利要求2所述的系统，其特征在于，所述Encoder结构对应的运算方式为：其中，X表示Encoder结构输入，Y
Encoder
表示Encoder结构输出，MHA(X)表示Transformer结构的输出，LayerNorm(.)表示对矩阵进行归一化运算，FeedForward(L1)表示全连接层的输出。4.根据权利要求2所述的系统，其特征在于，数据分析应用子系统，还用于利用GPU线程对掩码的文本语料进行训练，以及利用CPU对下一批文本语料进行掩码处理；其中，所述掩码包含字符掩码、实体掩码和片段掩码中的一种或多种；所述数据分析应用子系统，进一步用于在训练过程中，根据所述基于Transformer架构的预训练语言模型的输出序列和嵌入层的输出序列结合被掩盖字符的下标，得到输出序列的掩码表示，根据所述输出序列的掩码表示计算掩码位置对应的词表上的概率分布矩阵，根据所述概率分布矩阵计算交叉熵损失，根据所述交叉熵损失调整每一Transformer Encoder结构的网络参数。5.根据权利要求4所述的系统，其特征在于，所述数据分析应用子系统，进一步用于获取通用文本语料库和所述目标业务领域的文本语料库，利用所述通用文本语料库中的通用文本语料进行掩码训练得到初步的基于Transformer架构的预训练语言模型，在所述初步的基于Transformer架构的预训练语言模型的基础上，利用所述目标业务领域的文本语料库中的文本语料进行掩码训练，得到所述基于Transformer架构的预训练语言模型。6.根据权利要求...

【专利技术属性】
技术研发人员：钟志宏，陈肇文，徐永兴，
申请(专利权)人：广州宝立科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人