条款的格式化处理方法和处理装置制造方法及图纸

技术编号：20916963 阅读：30 留言：0更新日期：2019-04-20 09:46

本申请公开了一种条款的格式化处理方法和处理装置。该方法包括获取可编辑格式的条款并进行分词；对所述条款进行分类；将分类和分词后的所述条款中各个句子和各个词转换成向量，输入对应类别的语言模型，得到所述条款不同属性字段分别对应的字段值。该装置包括条款获取单元、分词单元、分类单元、向量转换单元、以及字段提取单元。本申请能够快速实现条款的格式化，产量高，后期易于维护数据和扩展属性字段以及进行功能扩展。

Format Processing Method and Processing Device of Terms and Conditions

This application discloses a formatting method and a processing device for a clause. The method includes acquiring and segmenting terms in editable format, classifying the terms, transforming sentences and words in the terms after classification and segmentation into vectors, inputting language models of corresponding categories, and obtaining corresponding field values of different attribute fields of the terms. The device includes a clause acquisition unit, a word segmentation unit, a classification unit, a vector conversion unit and a field extraction unit. This application can quickly format the terms, and has high output. It is easy to maintain data, expand attribute fields and expand functions in the later period.

全部详细技术资料下载

【技术实现步骤摘要】
条款的格式化处理方法和处理装置
本申请涉及数据处理
，具体而言，涉及一种条款的格式化处理方法和处理装置。
技术介绍
对于一个保险服务平台而言，如何在后台储存并管理十多万款在售的保险条款使得其易于在前端向用户展示是一个极大的难题。目前主要采取提取属性字段的方法来处理这个问题。如图1所示，一份条款的保险责任(比如意外身故/残疾、意外医疗等等)和生效时间等等属性字段和对应的字段值被提炼出来记录在数据库中，需要的时候再调用，在界面上向用户展示。理论上，只要能够提取足够多的属性字段，一份条款的主要信息是可以被完整地提炼出来的。目前，大多数的条款格式化处理方案为人工阅读条款然后手动提取属性字段的方法，来对条款进行格式化的管理和储存。这样做有如下几个缺点：(1)人工提取的效率太低；(2)不易于后期的维护及扩展，例如如果我们想添加一个新的属性字段，则之前已经录入库中的所有产品都必须人工复核一遍；(3)基于以上两点原因，大部分公司无法用数量足够的属性字段来向用户展示产品的完整信息。
技术实现思路
本申请的主要目的在于提供一种条款的格式化处理方法和处理装置，通过自然语言处理中的文本挖掘技术，快速而准确地将条款中的所有属性字段提取并存储下来，解决了条款作为一种非结构化的数据，格式化效率低的问题。为了实现上述目的，根据本申请的一个方面，提供了一种条款的格式化处理方法。所述条款的格式化处理方法包括如下步骤：获取可编辑格式的条款并进行分词；对所述条款进行分类；将分类和分词后的所述条款中各个句子和各个词转换成向量，输入对应类别的语言模型，得到所述条款不同属性字段分别对应的字段值。进一...

【技术保护点】
1.一种条款的格式化处理方法，其特征在于，包括：获取可编辑格式的条款并进行分词；对所述条款进行分类；将分类和分词后的所述条款中各个句子和各个词转换成向量，输入对应类别的语言模型，得到所述条款不同属性字段分别对应的字段值。

【技术特征摘要】
1.一种条款的格式化处理方法，其特征在于，包括：获取可编辑格式的条款并进行分词；对所述条款进行分类；将分类和分词后的所述条款中各个句子和各个词转换成向量，输入对应类别的语言模型，得到所述条款不同属性字段分别对应的字段值。2.根据权利要求1所述的条款的格式化处理方法，其特征在于，所述获取可编辑格式的条款包括：判断所述条款是否为可编辑格式，如果不是可编辑格式则转换为可编辑格式。3.根据权利要求1所述的条款的格式化处理方法，其特征在于，所述语言模型是通过如下步骤生成：对所述条款进行分类，对于分类后的各个类别，获取第一预定数量的可编辑格式的条款；对各个所述条款进行分词，并将属于同一类别的各个条款中的句子和词转换成向量；确定要从不同类别的条款中提取的属性字段，对所述第一预定数量的条款分别标注出不同属性字段对应的字段值；利用属于同一类别的各个所述条款的各个句子和各个词转换成的所述向量训练相应类别的语言模型，获得训练后的各个类别的所述语言模型。4.根据权利要求3所述的条款的格式化处理方法，其特征在于，在指定类别的条款需要增加属性字段的情况下，所述语言模型的生成方法还包括：获取指定类别的第二预定数量的可编辑格式的条款；根据要从所述指定类别的条款中提取的原属性字段和增加的属性字段，对所述第二预定数量的条款分别标注出不同属性字段对应的字段值；对所述各个条款进行分词，并将所述指定类别的各个条款中的各个句子和各个词转换成向量...

【专利技术属性】
技术研发人员：黄成，苏孝强，刘小伟，
申请(专利权)人：爱保科技横琴有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人