行政区划的错误检测方法、系统、电子设备及存储介质技术方案

技术编号:41807477 阅读:29 留言:0更新日期:2024-06-24 20:27
本发明专利技术涉及一种行政区划的错误检测方法、系统、电子设备及存储介质,包括采集所有的行政区划信息存储至数据库;利用双数组Trie树提取待检测文本中的行政区划信息;基于数据库信息对所述行政区划信息的合法性进行多重校验,当存在错误信息时,输出错误信息并提供相应的修改意见。本发明专利技术可有效用于检测政务类网站文本内容中省市区前后关系不对应以及省市区后缀错误的问题,大大提高了效率,同时本发明专利技术提供的方法还可以用于各类文本正文内容的检测,具有广泛的应用前景。

【技术实现步骤摘要】

本专利技术属于自然语言处理的,尤其涉及一种行政区划的错误检测方法、系统、电子设备及存储介质


技术介绍

1、对于政务类网站,内容的正确表述是非常重要的,尤其是政务相关类词汇,其中就包含行政区划的表述。为了保证网站文本内容的正确性,就需要用到文本纠错检查纠错。

2、传统的文本纠错主要包含以下几种方式:

3、1、基于规则的方法:

4、利用词典和语言学规则进行纠错。比如,建立一个错误-正确单词对照表(即字典),通过查找和替换的方式纠正常见的拼写错误。同时可以制定一些正则表达式或语法规则来识别和修正特定类型的错误。

5、2、统计机器学习方法:

6、基于n-gram模型:利用大量文本数据统计词语出现的概率,对不常见或概率较低的词汇组合进行纠错。

7、隐马尔可夫模型(hmm)和条件随机场(crf):用于序列标注任务,通过对上下文信息建模,预测每个字符或单词是否为错误及其可能的修正结果。

8、3、深度学习方法:

9、序列到序列模型(seq2seq):使用编码器-解码器框架,将本文档来自技高网...

【技术保护点】

1.一种行政区划的错误检测方法,其特征在于:包括,

2.根据权利要求1所述的行政区划的错误检测方法,其特征在于:所述行政区划信息包括区域名称、区域等级、区域名称后缀、区域行政代码和区域详细信息;

3.根据权利要求2所述的行政区划的错误检测方法,其特征在于:所述“利用双数组Trie树提取待检测文本中的行政区划信息”包括,

4.根据权利要求3所述的行政区划的错误检测方法,其特征在于:对所述待检测地址的行政区划信息进行多重校验,包括,

5.根据权利要求4所述的行政区划的错误检测方法,其特征在于:所述“判断所述待检测地址中区域名称之间的行政区域编码...

【技术特征摘要】

1.一种行政区划的错误检测方法,其特征在于:包括,

2.根据权利要求1所述的行政区划的错误检测方法,其特征在于:所述行政区划信息包括区域名称、区域等级、区域名称后缀、区域行政代码和区域详细信息;

3.根据权利要求2所述的行政区划的错误检测方法,其特征在于:所述“利用双数组trie树提取待检测文本中的行政区划信息”包括,

4.根据权利要求3所述的行政区划的错误检测方法,其特征在于:对所述待检测地址的行政区划信息进行多重校验,包括,

5.根据权利要求4所述的行政区划的错误检测方法,其特征在于:所述“判断所述待检测地址中区域名称之间的行政区域编码是否匹配”包括,

6.根据权利要求4所述的行政区划...

【专利技术属性】
技术研发人员:孟奥王宁张发雨党章冯立二杨正云杜宇张海洋徐刚
申请(专利权)人:江苏省未来网络创新研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1