【技术实现步骤摘要】
拆迁全流程制式文档数据提取与结构化方法
[0001]本专利技术涉及
,更具体地说,涉及拆迁全流程制式文档数据提取与结构化方法。
技术介绍
[0002]在拆迁规划过程中,会产生大量制式文档,以及这些文档中包含的大量信息。这些制式文档涉及的内容广泛,包括政策文件、规划方案、拆迁协议、补偿方案等,其中包含了大量的重要信息,如拆迁地点、面积、补偿金额、拆迁进度等。这些信息对于政府、拆迁公司和居民等各方都非常重要,在现有技术中,一般都是通过工作人员手动提取和整理文档信息,然而,由于文档数量庞大、文档格式不统一、文档内容复杂等原因,手动提取和整理这些信息十分耗时、耗力,从而提高工作人员的劳动强度,且手动提取和整理这些信息,可能会使得工作人员由于工作强度过大导致出现错误,从而降低了工作人员的劳动强度。
[0003]基于此,本专利技术设计了拆迁全流程制式文档数据提取与结构化方法,以解决上述问题。
技术实现思路
[0004]1.要解决的技术问题
[0005]本专利技术的目的在于提供拆迁全流程制式文档数据提 ...
【技术保护点】
【技术特征摘要】
1.拆迁全流程制式文档数据提取与结构化方法,其特征在于,包括:S1,文档收集:收集所有相关的拆迁制式文档;S2,文档预处理:对于收集到的文档进行预处理;S3,文本识别:使用OCR技术对文档进行识别,将文档中的文字内容提取出来,且如果文档中存在手写字体,可以使用手写体识别技术进行处理;S4,关键词提取:使用关键词提取技术对文档中涉及的地点、涉及的拆迁项目、拆迁政策的关键词进行提取;S5,实体识别:使用实体识别技术对文档中的人名、地名、组织机构名进行识别;S6,数据结构化:将提取出来的关键词和实体按照一定的结构进行组织,形成结构化的数据;S7,数据验证:对结构化的数据进行验证;S8,数据存储:将结构化的数据存储到数据库中。2.根据权利要求1所述的拆迁全流程制式文档数据提取与结构化方法,其特征在于:所述S2包括以下步骤:S2
‑
1,文档格式转换:将S1收集到的相关文档转换成统一的格式;S2
‑
2,去重:对于多份相同的文档,只保留其中的一份,减少重复的处理和存储;S2
‑
3,去噪:去除文档中的无关内容;S2
‑
4,文本切割:将文档中的文本按照一定的规则进行切割;S2
‑
5,格式规范化:对文档中的格式进行规范化;S2
‑
6,字符集转换:将文档中的字符集转换成一种统一的字符集;S2
‑
7,文档压缩:将所有文档进行压缩处理。3.根据权利要求2所述的拆迁全流程制式文档数据提取与结构化方法,其特征在于:所述S2
‑
2包括以下步骤:S2
‑
21,文本清洗:对文本数据进行清洗,去除无用信息;S2
‑
22,文本标准化:对文本进行标准化处理,以保证文本数据的一致性和可比性;S2
‑
23,特征提取:对文本数据进行特征提取,将文本转换成向量形式,以便于后续进行比较和计算;S2
‑
24,相似度计算:使用相似度算法,比较文本数据之间的相似度;S2
‑
25,去重处理:根据相似度计算的结果,确定哪些文本数据是相似的,哪些是重复的,进行去重处理。4.根据权利要求1所述的拆迁全流程制式文档数据提取与结构化方法,其特征在于:所述S4包括以下步骤:S4
‑
1,分词:将文本按照一定规则切分成词语或短语;S4
‑
2,去除停用词:将分词后的文本中一些常用、无实际意义的词语过滤掉;S4
‑
3,词性标注:对分词后的词语进行词性标注;S4
‑
4,提取:从词性标注后的文本中抽取出关键词;S4
‑
5,关键词过滤和排序:根据实际需求,对提取出来的关键词进行过滤和排序,以得到更加准确、有用的关键词列表。5...
【专利技术属性】
技术研发人员:杨丽艳,
申请(专利权)人:深圳市国房云数据技术服务有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。