一种文本数据单位处理方法、装置及设备制造方法及图纸

技术编号:37348125 阅读:22 留言:0更新日期:2023-04-22 21:44
本申请公开了一种文本数据单位处理方法、装置及设备,通过获取预先定义的标准单位、单位转换系数和单位转换公式,从待处理文本中提取实体对,并确定实体对类别,获取与预先定义数据元的名称对应的类别的实体对,若实体对包含数据和计量单位,则提取数据和计量单位为初始数据和初始单位,基于单位转换系数和单位转换公式将初始数据和初始单位转换为标准数据和标准单位,将标准数据存储到预先定义的数据元,得到标准数据元,将标准数据元通过预先配置的表单展示。因此,标准单位发生变化时,本申请只需要获取新定义的标准单位、单位转换系数和单位转换公式就可以完成单位之间的转换,不需要程序人员对程序进行更改,单位之间转换更加灵活。加灵活。加灵活。

【技术实现步骤摘要】
一种文本数据单位处理方法、装置及设备


[0001]本申请涉及数据处理
,更具体地说,涉及一种文本数据单位处理方法、装置及设备。

技术介绍

[0002]随着科技和经济的发展,各行各业中产生的数据也越来越多,大部分数据以文本形式记载,不同人数据记录习惯会有不同,因此数据记录的形式也会有所不同。为了可以更好的对数据进行分析,在对数据进行分析前,需要对数据进行处理。如:医生在书写病历时,由于个人习惯的不同,对于病人吸烟史的记录可能是:“吸烟半年,平均半包/天”、“吸烟3月,平均2支/天”等方式,若需要对患者吸烟史的数据进行分析,就需要统一记录的单位。
[0003]现有技术中,当数据单位不一致时,根据初始的数据单位和标准单位,程序人员定制性开发程序来完成数据单位的转换,但是,当标准单位需要随着场景的变化而变化时,需要程序人员对程序进行同步更改,单位之间的转换的灵活性较差。

技术实现思路

[0004]有鉴于此,本申请提供了一种文本数据单位处理方法、装置及设备,用于解决现有技术中,当标准单位需要变化时,需要程序人员对程序进行更改,单位转换灵活性较差的问题。
[0005]为实现上述目的,先提出的方案如下:
[0006]一种文本数据单位处理方法,包括:
[0007]获取待处理文本;
[0008]获取预先定义的标准单位、单位转换系数和单位转换公式,所述单位转换系数为表达初始单位和标准单位之间的关系的数值,所述单位转换公式为所述初始单位转换为所述标准单位时的计算公式;
[0009]从所述待处理文本中提取实体对,并确定实体对的类别,所述实体对为具有实体关系的两个实体进行结合得到;
[0010]获取与预先定义的数据元的名称所对应的类别的实体对,所述数据元为预先根据待处理文本内容所定义的数据字段;
[0011]判断所述实体对是否包含数据和计量单位;
[0012]若所述实体对包含数据和计量单位,则提取所述实体对中的数据和计量单位,得到初始数据和初始单位;
[0013]基于所述单位转换系数和转换公式将所述初始数据和所述初始单位转换为标准数据和标准单位,所述标准数据是以所述标准单位作为记录单位的所记录的数据;
[0014]将标准数据存储到所述预先定义的数据元中,得到存储有标准数据的标准数据元;
[0015]将所述标准数据元通过预先配置的表单进行展示。
[0016]优选地,基于所述单位转换系数和转换公式将所述初始数据和所述初始单位转换为标准数据和标准单位之前,还包括:
[0017]判断所述初始数据是否为数值型数据;
[0018]若所述初始数据不是数值型数据,则按照预设的转换规则将所述初始数据转换为数值型数据。
[0019]优选地,基于所述单位转换系数和转换公式将所述初始数据和所述初始单位转换为标准数据和标准单位之前,还包括:
[0020]判断所述初始单位是否与所述标准单位一致;
[0021]若所述初始单位与所述标准单位不一致,则执行基于所述单位转换系数和转换公式将所述初始数据和所述初始单位转换为标准数据和标准单位的步骤。
[0022]优选地,从所述待处理文本中提取实体对,并确定实体对的类别,包括:
[0023]调用自然语言处理引擎将所述待处理文本转化为标准文本;
[0024]对所述标准文本进行分词操作,得到分词结果集合,所述分词结果集合包括至少一条分词;
[0025]从所述分词结果集合中提取关键词,得到关键词集合,所述关键词集合中包含至少一条关键词;
[0026]对所述关键词集合中的关键词进行实体标注和实体关系标注;
[0027]将存在实体关系的实体结合起来,得到实体对集合;
[0028]基于所述实体关系,确定所述实体对集合中各实体对的类别。
[0029]优选地,所述调用自然语言处理引擎将所述待处理文本转化为标准文本,包括:
[0030]调用自然语言处理引擎对所述待处理文本进行数据清洗,得到清洗后的待处理文本;
[0031]对所述清洗后的待处理文本进行数据规范,得到标准文本。
[0032]优选地,所述获取与预先定义的数据元的名称所对应的类别的实体对之前,还包括:
[0033]根据实体对所属的类别将实体对按照所属类别对应的存储路径进行存储,不同类别的实体对的存储路径不同;
[0034]配置预先定义的数据元的取值路径,所述取值路径为获取预先定义的数据元的名称所对应的类别的实体对的路径;
[0035]所述获取与预先定义的数据元的名称所对应的类别的实体对,包括:
[0036]根据所述取值路径获取与预先定义的数据元的名称所对应的类别的实体对。
[0037]优选地,将所述标准数据元通过预先配置的表单进行展示之后,还包括:
[0038]响应用户编辑的操作,对所述标准数据元中的标准数据进行编辑,得到最终数据元;
[0039]将所述最终数据元通过所述预先配置的表单进行展示。
[0040]优选地,还包括:
[0041]将所述标准单位、所述单位转换系数、所述单位转换公式、所述预先配置的表单和所述预先定义的数据元进行打包,得到配置集合,所述配置集合用于在预设情况下被调用,所述预设情况为对文本数据单位进行处理时所需要的配置与所述配置集合中的配置相同。
[0042]一种文本数据单位处理装置,包括:
[0043]文本获取单元,用于获取待处理文本;
[0044]条件获取单元,用于获取预先定义的标准单位、单位转换系数和单位转换公式,所述单位转换系数为表达初始单位和标准单位之间的关系的数值,所述单位转换公式为所述初始单位转换为所述标准单位时的计算公式;
[0045]文本处理单元,用于从所述待处理文本中提取实体对,并确定实体对的类别,所述实体对为具有实体关系的两个实体进行结合得到;
[0046]数据元取值单元,用于获取与预先定义的数据元的名称所对应的类别的实体对,所述数据元为预先根据待处理文本内容所定义的数据字段;
[0047]实体对判断单元,用于判断所述实体对是否包含数据和计量单位;
[0048]若所述实体对包含数据和计量单位,则执行结果提取单元的步骤;
[0049]结果提取单元,用于提取所述实体对中的数据和计量单位,得到初始数据和初始单位;
[0050]单位转换单元,用于基于所述单位转换系数和转换公式将所述初始数据和所述初始单位转换为标准数据和标准单位,所述标准数据是以所述标准单位作为记录单位的所记录的数据;
[0051]标准数据存储单元,用于将标准数据存储到所述预先定义的数据元中,得到存储有标准数据的标准数据元;
[0052]数据元展示单元,用于将所述标准数据元通过预先配置的表单进行展示。
[0053]一种文本数据单位处理设备,包括:存储器和处理器;
[0054]所述存储器,用于存储程序;...

【技术保护点】

【技术特征摘要】
1.一种文本数据单位处理方法,其特征在于,包括:获取待处理文本;获取预先定义的标准单位、单位转换系数和单位转换公式,所述单位转换系数为表达初始单位和标准单位之间的关系的数值,所述单位转换公式为所述初始单位转换为所述标准单位时的计算公式;从所述待处理文本中提取实体对,并确定实体对的类别,所述实体对为具有实体关系的两个实体进行结合得到;获取与预先定义的数据元的名称所对应的类别的实体对,所述数据元为预先根据待处理文本内容所定义的数据字段;判断所述实体对是否包含数据和计量单位;若所述实体对包含数据和计量单位,则提取所述实体对中的数据和计量单位,得到初始数据和初始单位;基于所述单位转换系数和单位转换公式将所述初始数据和所述初始单位转换为标准数据和标准单位,所述标准数据是以所述标准单位作为记录单位的所记录的数据;将标准数据存储到所述预先定义的数据元中,得到存储有标准数据的标准数据元;将所述标准数据元通过预先配置的表单进行展示。2.根据权利要求1所述的方法,其特征在于,基于所述单位转换系数和单位转换公式将所述初始数据和所述初始单位转换为标准数据和标准单位之前,还包括:判断所述初始数据是否为数值型数据;若所述初始数据不是数值型数据,则按照预设的转换规则将所述初始数据转换为数值型数据。3.根据权利要求1所述的方法,其特征在于,基于所述单位转换系数和单位转换公式将所述初始数据和所述初始单位转换为标准数据和标准单位之前,还包括:判断所述初始单位是否与所述标准单位一致;若所述初始单位与所述标准单位不一致,则执行基于所述单位转换系数和单位转换公式将所述初始数据和所述初始单位转换为标准数据和标准单位的步骤。4.根据权利要求1所述的方法,其特征在于,从所述待处理文本中提取实体对,并确定实体对的类别,包括:调用自然语言处理引擎将所述待处理文本转化为标准文本;对所述标准文本进行分词操作,得到分词结果集合,所述分词结果集合包括至少一条分词;从所述分词结果集合中提取关键词,得到关键词集合,所述关键词集合中包含至少一条关键词;对所述关键词集合中的关键词进行实体标注和实体关系标注;将存在实体关系的实体结合起来,得到实体对集合;基于所述实体关系,确定所述实体对集合中各实体对的类别。5.根据权利要求4所述的方法,其特征在于,所述调用自然语言处理引擎将所述待处理文本转化为标准文本,包括:调用自然语言处理引擎对所述待处理文本进行数据清洗,得到清洗后的待处理文本;
对所述清洗后的待处理文本进行数据规范,得到标准文本。6.根据权利要求1所述的方法,其特征在于,所述获取...

【专利技术属性】
技术研发人员:甘伟曲振忠陈联忠牛明芳
申请(专利权)人:北京嘉和海森健康科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1