【技术实现步骤摘要】
本专利技术属于自然语言处理的,尤其涉及一种行政区划的错误检测方法、系统、电子设备及存储介质。
技术介绍
1、对于政务类网站,内容的正确表述是非常重要的,尤其是政务相关类词汇,其中就包含行政区划的表述。为了保证网站文本内容的正确性,就需要用到文本纠错检查纠错。
2、传统的文本纠错主要包含以下几种方式:
3、1、基于规则的方法:
4、利用词典和语言学规则进行纠错。比如,建立一个错误-正确单词对照表(即字典),通过查找和替换的方式纠正常见的拼写错误。同时可以制定一些正则表达式或语法规则来识别和修正特定类型的错误。
5、2、统计机器学习方法:
6、基于n-gram模型:利用大量文本数据统计词语出现的概率,对不常见或概率较低的词汇组合进行纠错。
7、隐马尔可夫模型(hmm)和条件随机场(crf):用于序列标注任务,通过对上下文信息建模,预测每个字符或单词是否为错误及其可能的修正结果。
8、3、深度学习方法:
9、序列到序列模型(seq2seq):使用编
...【技术保护点】
1.一种行政区划的错误检测方法,其特征在于:包括,
2.根据权利要求1所述的行政区划的错误检测方法,其特征在于:所述行政区划信息包括区域名称、区域等级、区域名称后缀、区域行政代码和区域详细信息;
3.根据权利要求2所述的行政区划的错误检测方法,其特征在于:所述“利用双数组Trie树提取待检测文本中的行政区划信息”包括,
4.根据权利要求3所述的行政区划的错误检测方法,其特征在于:对所述待检测地址的行政区划信息进行多重校验,包括,
5.根据权利要求4所述的行政区划的错误检测方法,其特征在于:所述“判断所述待检测地址中区域名
...【技术特征摘要】
1.一种行政区划的错误检测方法,其特征在于:包括,
2.根据权利要求1所述的行政区划的错误检测方法,其特征在于:所述行政区划信息包括区域名称、区域等级、区域名称后缀、区域行政代码和区域详细信息;
3.根据权利要求2所述的行政区划的错误检测方法,其特征在于:所述“利用双数组trie树提取待检测文本中的行政区划信息”包括,
4.根据权利要求3所述的行政区划的错误检测方法,其特征在于:对所述待检测地址的行政区划信息进行多重校验,包括,
5.根据权利要求4所述的行政区划的错误检测方法,其特征在于:所述“判断所述待检测地址中区域名称之间的行政区域编码是否匹配”包括,
6.根据权利要求4所述的行政区划...
【专利技术属性】
技术研发人员:孟奥,王宁,张发雨,党章,冯立二,杨正云,杜宇,张海洋,徐刚,
申请(专利权)人:江苏省未来网络创新研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。