【技术实现步骤摘要】
指标提取方法、系统及条文指标提取系统
[0001]本专利技术涉及条文获取
,尤其是涉及一种指标提取方法、系统及条文指标提取系统。
技术介绍
[0002]标准条文是项目章程、规范等分条说明文字,包含了一个项目的各种指标数据。目前,对于标准条文中指标的提取的方法是通过人工判断标准条文段落内容中描述的指标数据,并手动提取指标数据后,按类别将指标数据保存至数据库。而人工判断的方式无法规避认为主观判断因素造成的误差,且人工工作的容量和效率有限,无法实现指标提取的批量化处理。
技术实现思路
[0003]有鉴于此,本专利技术的目的在于提供一种指标提取方法、系统及条文指标提取系统,以提高指标提取的准确性,进而提升指标提取效率。
[0004]第一方面,本专利技术实施例提供了一种指标提取方法,包括:从条文数据库中确定待处理条文对应的目标段落内容;其中,条文数据库用于存储通过标准编辑器生成的标准条文;标准条文包括分类、题录和段落内容;对目标段落内容进行语句拆分和分词处理,得到短语集合;其中,短语集合中包括至少一个短语 ...
【技术保护点】
【技术特征摘要】
1.一种指标提取方法,其特征在于,包括:从条文数据库中确定待处理条文对应的目标段落内容;其中,所述条文数据库用于存储通过标准编辑器生成的标准条文;所述标准条文包括分类、题录和段落内容;对所述目标段落内容进行语句拆分和分词处理,得到短语集合;其中,所述短语集合中包括至少一个短语;基于算法库和所述分类,对所述短语集合中的每个短语进行相似度计算;所述算法库包括具有预设标签的词语的集合构成的项集;如果所述短语的相似度在预设相似度范围内,确定所述短语的标签,并将所述短语确定为指标数据。2.根据权利要求1所述的方法,其特征在于,所述如果所述短语的相似度在预设相似度范围内,确定所述短语的标签,并将所述短语确定为指标数据的步骤之后,还包括:对所述指标数据进行校验,将通过校验的所述指标数据确定为目标指标数据;基于所述题录和所述标签,将所述目标指标数据保存至指标库;获取确定所述目标指标数据的操作日志,并将所述操作日志保存至日志库。3.根据权利要求1所述的方法,其特征在于,所述对所述目标段落内容进行语句拆分和分词处理,得到短语集合的步骤,包括:基于所述算法库中的数据挖掘和语义分析算法,对所述段落内容进行语句拆分,得到至少一个语句;基于所述算法库中的分词算法对所有所述语句进行分词处理,得到多个分词;其中,所述分词包括定性分词和定量分词;基于所述算法库汇总的相似度算法对所述定性分词和所述定量分词进行关联计算,获取短语合集;其中,所述短语合集中的短语由所述定性分词和与之相关联的所述定量分词组成。4.根据权利要求3所述的方法,其特征在于,所述基于算法库和所述分类,对每个所述短语进行相似度计算的步骤,包括:获取所述算法库中,所述分类下的预设标签的词语的集合构成的项集;基于所述算法库中的字符串相似度匹配算法,将所述短语中的定性分词与所述项集中的所述词语进行相似度计算,以确定所述短语的标签。5.根据权利要求2所述的方法,其特征在于,所述对所述指标数据进行校验,确定通过校验的所述指标数据为目标指标数据的步骤,包括:基于所述算法库中的校验算法对所...
【专利技术属性】
技术研发人员:花如中,陶时佳,
申请(专利权)人:润申标准化技术服务上海有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。