一种招标文件文本内容纠错方法技术

技术编号:37249849 阅读:27 留言:0更新日期:2023-04-20 23:28
本发明专利技术涉及一种招标文件文本内容纠错方法,包括如下步骤:S1:选用若干招标文档;S2:构建文本内容纠错模型,所述文本内容纠错模型包括规则纠错模块和模型纠错模块;S3:利用词典规则、编辑距离和n元语言模型对招标文档进行纠错处理,得到纠错初筛文本;S4:利用模型纠错模块对纠错初筛文本进行纠错处理,输出为带有纠错标签的招标文档。本发明专利技术可以快速定位识别到招标文本中的纠错目标的位置,实现自动纠错。错。错。

【技术实现步骤摘要】
一种招标文件文本内容纠错方法


[0001]本专利技术涉及计算机机器学习领域,特别涉及一种招标文件文本内容纠错方法。

技术介绍

[0002]随着信息网络技术的快速发展,电力行业领域的招投标实施方式由线下实施逐步转化为以线上电子招投标模式开展,无论是由招标方发布的招标采购公告、招标采购文件,还是由投标方递交上传的投标文件、投标报价清单等文件资料,均以word、excel、pdf等电子版本形式,在各类招投标平台中进行交互。然而,招采文件内容信息量大,涉及招采项目、招采数量、预算金额、工期、限价、技术要求等等,通常篇幅较长且内容繁多,通过专业工作人员人为编辑形成的各类电子版招采文件,难免会存在文字内容描述不清晰、错别字、数量单位、时间格式等错误的问题情况,影响相关方对文件内容的正确理解,造成不必要的澄清等,因此通常需工作人员对需上传发布的电子招标文件内容进行多次审核,其做法费时费力,且准确率难以确保。故,研发一套自动文本纠错系统存在一定的必要性,既能实现解放人力,同时又能提高相对于人工纠错的校正效率和校正准确率。
专利技术内
[000本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种招标文件文本内容纠错方法,其特征在于:包括如下步骤:S100:选用若干招标文档;S200:构建文本内容纠错模型,所述文本内容纠错模型包括规则纠错模块和模型纠错模块;所述规则纠错模块包括词典规则、编辑距离和n元语言模型;其中所述词典规则为行业内的专业字词、通用语法规则;所述模型纠错模块包括MacBERT4CSC模型和T5模型;S300:利用词典规则、编辑距离和n元语言模型对招标文档进行纠错处理,得到纠错初筛文本;S400:利用模型纠错模块对纠错初筛文本进行纠错处理,依次通过MacBERT4CSC模型和T5模型,然后由T5模型输出带有纠错标签的招标文档。2.如权利要求1所述的一种招标文件文本内容纠错方法,其特征在于:所述S300中利用词典规则和编辑距离对招标文档进行纠错初筛,得到纠错初筛文本的具体步骤如下:S310:基于词典规则对招标文档进行纠错,并对纠错内容进行标签,得到映射字典;S320:基于编辑距离对映射字典进行纠错处理,并对纠错内容进行标签,得到纠错文本,编辑距离的表达式如下:其中,a和b表示两个字符串,i表示a的前i个字符,j表示b的前j个字符,lev
a,b
(i,j)表示a的前i个字符与b的前j个字符之间的列文斯坦距离;S330:基于n元语言模型对纠错文本进行纠错处理,得到纠错初筛文本。3.如权利要求2所述的一种...

【专利技术属性】
技术研发人员:徐世阳陈丽娟杨德胜张丽娟向洪伟敖翔史春胜巫俊洁孟战昝云飞纪传俊王光强唐乐
申请(专利权)人:国网重庆市电力公司国网重庆招标有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1