【技术实现步骤摘要】
本专利技术涉及数据处理 ,尤其涉及一种标准文本的清洗方法和装置。
技术介绍
1、标准作为经济活动和社会发展的技术支撑,是国家基础性制度的重要方面。标准化在推进国家治理体系和治理能力现代化中发挥着基础性、引领性作用。而标准文本数据挖掘技术则是从大量的非结构化标准文本数据中提取出有用的信息和知识,实现标准文本的数据识别、智能化检索应用。然而,由于标准多维度的分类不同,数据来源的多样性和复杂性,数据往往存在大量的噪声、冗余和不一致,这严重影响了数据质量。因此,标准文本清洗成为了获取高质量数据的关键步骤。
2、相关技术中,主要针对通用文本数据进行清洗,而对于特定领域的文本数据,如国家标准文本、行业标准文本、团体标准文本等,往往缺乏有效的清洗方法。标准文本具有高度的专业性和规范性,如果直接使用通用文本数据清洗方法,会导致清洗效果不佳,甚至引入新的错误。
技术实现思路
1、本专利技术提供一种标准文本的清洗方法和装置,实现了标准文本的高效准确的清洗,使得清洗后的标准文本更加的专业和规范。
...【技术保护点】
1.一种标准文本的清洗方法,其特征在于,包括:
2.根据权利要求1所述的标准文本的清洗方法,其特征在于,所述格式规范化处理包括:
3.根据权利要求1所述的标准文本的清洗方法,其特征在于,所述语义一致性处理包括:
4.根据权利要求3所述的标准文本的清洗方法,其特征在于,所述语义一致性处理还包括:
5.根据权利要求1-4任一项所述的标准文本的清洗方法,其特征在于,所述清洗操作还包括:
6.根据权利要求5所述的标准文本的清洗方法,其特征在于,所述对所述标准文本执行清洗操作之前,还包括:
7.一种标准文本
...【技术特征摘要】
1.一种标准文本的清洗方法,其特征在于,包括:
2.根据权利要求1所述的标准文本的清洗方法,其特征在于,所述格式规范化处理包括:
3.根据权利要求1所述的标准文本的清洗方法,其特征在于,所述语义一致性处理包括:
4.根据权利要求3所述的标准文本的清洗方法,其特征在于,所述语义一致性处理还包括:
5.根据权利要求1-4任一项所述的标准文本的清洗方法,其特征在于,所述清洗操作还包括:
6.根据权利要求5所述的标准文本的清洗方法,其特征在于,所述对所述标准文本执行清洗操作之前,还包括:
...【专利技术属性】
技术研发人员:高艳炫,胡晨,邱世锐,刘小慧,吴珊珊,马文辉,祝晓勤,侯雪滢,黄万玉,孙锶潼,祝翔宇,曹麟丰,
申请(专利权)人:北京赛西科技发展有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。