System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术实施例涉及计算机,尤其涉及一种网页文本校验方法、装置、设备及存储介质。
技术介绍
1、随着网络技术的快速发展,网页越来越成为金融机构发布和管理信息必不可少的渠道,用户也习惯使用浏览网页的方式去获取信息。金融机构发布的网站具有领域性,且网站中的公开信息需要能够实时、准确地传递给公众。但由于信息数据量巨大,金融机构发布的网页内容难免会存在一些错误,影响金融机构网站内容的权威性与准确性。
2、现有技术中的金融机构网站内容的校验方式一般是通过人工校验,人工校验费时费力,而且由于信息数据量巨大,人工校验也会存在失误与疏漏,导致网页文本校验效率低,且差错率低。
技术实现思路
1、本专利技术实施例提供一种网页文本校验方法、装置、设备及存储介质,能够提升网页文本校验效率和差错率。
2、根据本专利技术的一方面,提供了一种网页文本校验方法,包括:
3、获取待校验网页文本;
4、将所述待校验网页文本输入文本纠错模型,得到待校验网页文本对应的第一校对结果,其中,所述文本纠错模型通过第一样本集迭代训练第一模型得到;
5、基于专有名词词典和金融领域高频词典对所述第一校对结果进行纠错,得到第二校对结果;
6、根据知识图谱和所述第二校对结果对应的目标三元组确定目标校对结果。
7、根据本专利技术的另一方面,提供了一种网页文本校验装置,该网页文本校验装置包括:
8、待校验网页文本获取模块,用于获取待校验网页文本;
9、第一校对结果确定模块,用于将所述待校验网页文本输入文本纠错模型,得到待校验网页文本对应的第一校对结果,其中,所述文本纠错模型通过第一样本集迭代训练第一模型得到;
10、第二校对结果确定模块,用于基于专有名词词典和金融领域高频词典对所述第一校对结果进行纠错,得到第二校对结果;
11、目标校对结果确定模块,用于根据知识图谱和所述第二校对结果对应的目标三元组确定目标校对结果。
12、根据本专利技术的另一方面,提供了一种电子设备,所述电子设备包括:
13、至少一个处理器;以及
14、与所述至少一个处理器通信连接的存储器;其中,
15、所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本专利技术任一实施例所述的网页文本校验方法。
16、根据本专利技术的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本专利技术任一实施例所述的网页文本校验方法。
17、本专利技术实施例通过获取待校验网页文本;将所述待校验网页文本输入文本纠错模型,得到待校验网页文本对应的第一校对结果,其中,所述文本纠错模型通过第一样本集迭代训练第一模型得到;基于专有名词词典和金融领域高频词典对所述第一校对结果进行纠错,得到第二校对结果;根据知识图谱和所述第二校对结果对应的目标三元组确定目标校对结果,能够提升网页文本校验效率和差错率。
18、应当理解,本部分所描述的内容并非旨在标识本专利技术的实施例的关键或重要特征,也不用于限制本专利技术的范围。本专利技术的其它特征将通过以下的说明书而变得容易理解。
本文档来自技高网...【技术保护点】
1.一种网页文本校验方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,通过第一样本集迭代训练第一模型,包括:
3.根据权利要求1所述的方法,其特征在于,基于专有名词词典和金融领域高频词典对所述第一校对结果进行纠错,得到第二校对结果,包括:
4.根据权利要求3所述的方法,其特征在于,获取金融领域高频词词典,包括:
5.根据权利要求3所述的方法,其特征在于,获取专有名词词典,包括:
6.根据权利要求1所述的方法,其特征在于,获取待校验网页文本,包括:
7.根据权利要求6所述的方法,其特征在于,根据知识图谱和所述第二校对结果对应的目标三元组确定目标校对结果,包括:
8.一种网页文本校验装置,其特征在于,包括:
9.一种电子设备,其特征在于,所述电子设备包括:
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的网页文本校验方法。
【技术特征摘要】
1.一种网页文本校验方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,通过第一样本集迭代训练第一模型,包括:
3.根据权利要求1所述的方法,其特征在于,基于专有名词词典和金融领域高频词典对所述第一校对结果进行纠错,得到第二校对结果,包括:
4.根据权利要求3所述的方法,其特征在于,获取金融领域高频词词典,包括:
5.根据权利要求3所述的方法,其特征在于,获取专有名词词典,包括:
6.根据权利要求...
【专利技术属性】
技术研发人员:田莎,
申请(专利权)人:中国农业银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。