拆迁全流程制式文档数据提取与结构化方法技术

技术编号:38328231 阅读:26 留言:0更新日期:2023-07-29 09:11
本发明专利技术公开了拆迁全流程制式文档数据提取与结构化方法,属于数控机床技术领域。拆迁全流程制式文档数据提取与结构化方法,包括:S1,文档收集:收集所有相关的拆迁制式文档;S2,文档预处理:对于收集到的文档进行预处理;S3,文本识别:使用OCR技术对文档进行识别,将文档中的文字内容提取出来,且如果文档中存在手写字体,可以使用手写体识别技术进行处理。本拆迁全流程制式文档数据提取与结构化方法,通过使用拆迁全流程制式文档数据提取与结构化方法,可以快速、准确地提取和整理这些信息,使其变成结构化的数据,方便后续的分析和利用。这不仅可以提高工作效率,也可以减少人工错误的发生,从而更好地保障拆迁工作的公平、公正和透明。公正和透明。公正和透明。

【技术实现步骤摘要】
拆迁全流程制式文档数据提取与结构化方法


[0001]本专利技术涉及
,更具体地说,涉及拆迁全流程制式文档数据提取与结构化方法。

技术介绍

[0002]在拆迁规划过程中,会产生大量制式文档,以及这些文档中包含的大量信息。这些制式文档涉及的内容广泛,包括政策文件、规划方案、拆迁协议、补偿方案等,其中包含了大量的重要信息,如拆迁地点、面积、补偿金额、拆迁进度等。这些信息对于政府、拆迁公司和居民等各方都非常重要,在现有技术中,一般都是通过工作人员手动提取和整理文档信息,然而,由于文档数量庞大、文档格式不统一、文档内容复杂等原因,手动提取和整理这些信息十分耗时、耗力,从而提高工作人员的劳动强度,且手动提取和整理这些信息,可能会使得工作人员由于工作强度过大导致出现错误,从而降低了工作人员的劳动强度。
[0003]基于此,本专利技术设计了拆迁全流程制式文档数据提取与结构化方法,以解决上述问题。

技术实现思路

[0004]1.要解决的技术问题
[0005]本专利技术的目的在于提供拆迁全流程制式文档数据提取与结构化方法,以解本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.拆迁全流程制式文档数据提取与结构化方法,其特征在于,包括:S1,文档收集:收集所有相关的拆迁制式文档;S2,文档预处理:对于收集到的文档进行预处理;S3,文本识别:使用OCR技术对文档进行识别,将文档中的文字内容提取出来,且如果文档中存在手写字体,可以使用手写体识别技术进行处理;S4,关键词提取:使用关键词提取技术对文档中涉及的地点、涉及的拆迁项目、拆迁政策的关键词进行提取;S5,实体识别:使用实体识别技术对文档中的人名、地名、组织机构名进行识别;S6,数据结构化:将提取出来的关键词和实体按照一定的结构进行组织,形成结构化的数据;S7,数据验证:对结构化的数据进行验证;S8,数据存储:将结构化的数据存储到数据库中。2.根据权利要求1所述的拆迁全流程制式文档数据提取与结构化方法,其特征在于:所述S2包括以下步骤:S2

1,文档格式转换:将S1收集到的相关文档转换成统一的格式;S2

2,去重:对于多份相同的文档,只保留其中的一份,减少重复的处理和存储;S2

3,去噪:去除文档中的无关内容;S2

4,文本切割:将文档中的文本按照一定的规则进行切割;S2

5,格式规范化:对文档中的格式进行规范化;S2

6,字符集转换:将文档中的字符集转换成一种统一的字符集;S2

7,文档压缩:将所有文档进行压缩处理。3.根据权利要求2所述的拆迁全流程制式文档数据提取与结构化方法,其特征在于:所述S2

2包括以下步骤:S2

21,文本清洗:对文本数据进行清洗,去除无用信息;S2

22,文本标准化:对文本进行标准化处理,以保证文本数据的一致性和可比性;S2

23,特征提取:对文本数据进行特征提取,将文本转换成向量形式,以便于后续进行比较和计算;S2

24,相似度计算:使用相似度算法,比较文本数据之间的相似度;S2

25,去重处理:根据相似度计算的结果,确定哪些文本数据是相似的,哪些是重复的,进行去重处理。4.根据权利要求1所述的拆迁全流程制式文档数据提取与结构化方法,其特征在于:所述S4包括以下步骤:S4

1,分词:将文本按照一定规则切分成词语或短语;S4

2,去除停用词:将分词后的文本中一些常用、无实际意义的词语过滤掉;S4

3,词性标注:对分词后的词语进行词性标注;S4

4,提取:从词性标注后的文本中抽取出关键词;S4

5,关键词过滤和排序:根据实际需求,对提取出来的关键词进行过滤和排序,以得到更加准确、有用的关键词列表。5...

【专利技术属性】
技术研发人员:杨丽艳
申请(专利权)人:深圳市国房云数据技术服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1