条款的格式化处理方法和处理装置制造方法及图纸

技术编号:20916963 阅读:30 留言:0更新日期:2019-04-20 09:46
本申请公开了一种条款的格式化处理方法和处理装置。该方法包括获取可编辑格式的条款并进行分词;对所述条款进行分类;将分类和分词后的所述条款中各个句子和各个词转换成向量,输入对应类别的语言模型,得到所述条款不同属性字段分别对应的字段值。该装置包括条款获取单元、分词单元、分类单元、向量转换单元、以及字段提取单元。本申请能够快速实现条款的格式化,产量高,后期易于维护数据和扩展属性字段以及进行功能扩展。

Format Processing Method and Processing Device of Terms and Conditions

This application discloses a formatting method and a processing device for a clause. The method includes acquiring and segmenting terms in editable format, classifying the terms, transforming sentences and words in the terms after classification and segmentation into vectors, inputting language models of corresponding categories, and obtaining corresponding field values of different attribute fields of the terms. The device includes a clause acquisition unit, a word segmentation unit, a classification unit, a vector conversion unit and a field extraction unit. This application can quickly format the terms, and has high output. It is easy to maintain data, expand attribute fields and expand functions in the later period.

【技术实现步骤摘要】
条款的格式化处理方法和处理装置
本申请涉及数据处理
,具体而言,涉及一种条款的格式化处理方法和处理装置。
技术介绍
对于一个保险服务平台而言,如何在后台储存并管理十多万款在售的保险条款使得其易于在前端向用户展示是一个极大的难题。目前主要采取提取属性字段的方法来处理这个问题。如图1所示,一份条款的保险责任(比如意外身故/残疾、意外医疗等等)和生效时间等等属性字段和对应的字段值被提炼出来记录在数据库中,需要的时候再调用,在界面上向用户展示。理论上,只要能够提取足够多的属性字段,一份条款的主要信息是可以被完整地提炼出来的。目前,大多数的条款格式化处理方案为人工阅读条款然后手动提取属性字段的方法,来对条款进行格式化的管理和储存。这样做有如下几个缺点:(1)人工提取的效率太低;(2)不易于后期的维护及扩展,例如如果我们想添加一个新的属性字段,则之前已经录入库中的所有产品都必须人工复核一遍;(3)基于以上两点原因,大部分公司无法用数量足够的属性字段来向用户展示产品的完整信息。
技术实现思路
本申请的主要目的在于提供一种条款的格式化处理方法和处理装置,通过自然语言处理中的文本挖掘技术,快速而准确地将条款中的所有属性字段提取并存储下来,解决了条款作为一种非结构化的数据,格式化效率低的问题。为了实现上述目的,根据本申请的一个方面,提供了一种条款的格式化处理方法。所述条款的格式化处理方法包括如下步骤:获取可编辑格式的条款并进行分词;对所述条款进行分类;将分类和分词后的所述条款中各个句子和各个词转换成向量,输入对应类别的语言模型,得到所述条款不同属性字段分别对应的字段值。进一步地,所述获取可编辑格式的条款包括:判断所述条款是否为可编辑格式,如果不是可编辑格式则转换为可编辑格式。进一步地,所述语言模型是通过如下步骤生成:对所述条款进行分类,对于分类后的各个类别,获取第一预定数量的可编辑格式的条款;对各个所述条款进行分词,并将属于同一类别的各个条款中的句子和词转换成向量;确定要从不同类别的条款中提取的属性字段,对所述第一预定数量的条款分别标注出不同属性字段对应的字段值;利用属于同一类别的各个所述条款的各个句子和各个词转换成的所述向量训练相应类别的语言模型,获得训练后的各个类别的所述语言模型。进一步地,在指定类别的条款需要增加属性字段的情况下,所述语言模型的生成方法还包括:获取指定类别的第二预定数量的可编辑格式的条款;根据要从所述指定类别的条款中提取的原属性字段和增加的属性字段,对所述第二预定数量的条款分别标注出不同属性字段对应的字段值;对所述各个条款进行分词,并将所述指定类别的各个条款中的各个句子和各个词转换成向量;利用所述各个条款中的各个句子和各个词转换成的所述向量训练相应类别的语言模型,获得训练后的指定类别的所述语言模型。进一步地,所述对条款进行分词包括:利用参照词典和停用词表对所述可编辑格式的条款进行分词,并去除属于所述停用词表中的词,将条款中余下的词保存到数据库中。进一步地,所述语言模型为长短期记忆网络LSTM模型。为了实现上述目的,根据本申请的另一方面,提供了一种条款的格式化处理装置。所述条款的格式化处理装置包括:条款获取单元,用于获取可编辑格式的条款;分词单元,用于对所述可编辑格式的条款进行分词;分类单元,用于对条款进行分类;向量转换单元,用于将分类和分词后的所述条款中各个句子和各个词转换成向量;字段提取单元,用于将所述条款的各个句子和各个词转换成的向量输入对应类别的语言模型,得到条款不同属性字段分别对应的字段值。进一步地,所述条款的格式化处理装置还包括:语言模型训练单元,用于利用属于同一类别的预定数量的条款来训练对应类别的语言模型。进一步地,所述分词单元进一步用于利用参照词典和停用词表对所述可编辑格式的条款进行分词,并将分词结果保存为分词表。进一步地,条款获取单元包括格式转换模块,用于将不可编辑格式的条款转换为可编辑格式的条款。本申请提供的条款格式化处理方法和装置的数据处理速度快、产量高,能够批量处理条款,快速实现条款的格式化,后期易于维护数据和扩展属性字段以及进行功能扩展。本申请针对不同的险种类别,设计了不同的格式化的数据存储结构,再通过自然语言处理中的文本挖掘技术,快速而准确地将条款中的所有属性字段提取并存储下来。一举解决了条款作为一种非结构化的数据,格式化效率低的问题。在后期的扩展应用中,也只需要人工进行少量标注,再重新训练即可得到新字段的特征,使得后期的维护变得十分的方便快捷。附图说明构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1为一个示例提供的从条款提取的属性字段和对应的字段值;图2为本申请一个实施例提供的条款的格式化处理方法的流程图;图3为一个示例提供的图2所示的条款的格式化处理方法中语言模型的生成方法的流程图;图4为一个示例提供的图3所示的语言模型的生成方法在指定类别的条款需要增加属性字段的情况下的流程图;图5为本申请一个实施例提供的条款的格式化处理装置的结构示意图。具体实施方式为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。在本申请中,术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本专利技术及其实施例,并非用于限定所指示的装置、元件或组成部分必须具有特定方位,或以特定方位进行构造和操作。并且,上述部分术语除了可以用于表示方位或位置关系以外,还可能用于表示其他含义,例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言,可以根据具体情况理解这些术语在本专利技术中的具体含义。此外,术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如,可以是固定连接,可拆卸连接,或整体式构造;可以是机械连接,或电连接;可以是直接相连,或者是通过中间媒介间接相连,又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言,可以根据具体情况理解上述术语在本专利技术中的具体含义。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例本文档来自技高网
...

【技术保护点】
1.一种条款的格式化处理方法,其特征在于,包括:获取可编辑格式的条款并进行分词;对所述条款进行分类;将分类和分词后的所述条款中各个句子和各个词转换成向量,输入对应类别的语言模型,得到所述条款不同属性字段分别对应的字段值。

【技术特征摘要】
1.一种条款的格式化处理方法,其特征在于,包括:获取可编辑格式的条款并进行分词;对所述条款进行分类;将分类和分词后的所述条款中各个句子和各个词转换成向量,输入对应类别的语言模型,得到所述条款不同属性字段分别对应的字段值。2.根据权利要求1所述的条款的格式化处理方法,其特征在于,所述获取可编辑格式的条款包括:判断所述条款是否为可编辑格式,如果不是可编辑格式则转换为可编辑格式。3.根据权利要求1所述的条款的格式化处理方法,其特征在于,所述语言模型是通过如下步骤生成:对所述条款进行分类,对于分类后的各个类别,获取第一预定数量的可编辑格式的条款;对各个所述条款进行分词,并将属于同一类别的各个条款中的句子和词转换成向量;确定要从不同类别的条款中提取的属性字段,对所述第一预定数量的条款分别标注出不同属性字段对应的字段值;利用属于同一类别的各个所述条款的各个句子和各个词转换成的所述向量训练相应类别的语言模型,获得训练后的各个类别的所述语言模型。4.根据权利要求3所述的条款的格式化处理方法,其特征在于,在指定类别的条款需要增加属性字段的情况下,所述语言模型的生成方法还包括:获取指定类别的第二预定数量的可编辑格式的条款;根据要从所述指定类别的条款中提取的原属性字段和增加的属性字段,对所述第二预定数量的条款分别标注出不同属性字段对应的字段值;对所述各个条款进行分词,并将所述指定类别的各个条款中的各个句子和各个词转换成向量...

【专利技术属性】
技术研发人员:黄成苏孝强刘小伟
申请(专利权)人:爱保科技横琴有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1