一种文本报告打分方法及系统技术方案

技术编号:27536996 阅读:61 留言:0更新日期:2021-03-03 11:25
本发明专利技术公开了一种文本报告打分方法及系统,对文本报告进行不同粒度识别,并在开头位置进行标记;对文本报告每个词以及添加的标记,基于每个词适用的打分规则进行嵌入式编码得到编码数据;将编码数据作为输入,以标记文本各个词对应评价点得分作为目标值输出,对神经网络模型进行训练得到文本报告打分模型;将待打分报告进行识别标记后输入到打分模型中,输出评价点对应的分数,将所有评价点分数之和作为报告的分数。本发明专利技术基于文本粒度等级与指标点分类的组合机制,将规则以编码方式作为输入数据对打分模型进行训练得到打分模型对文本进行打分,有效表征大多数的规则方案,评价时将不同评价点进行分发打分与收集,能极大的提高文本评价时的效率。提高文本评价时的效率。提高文本评价时的效率。

【技术实现步骤摘要】
一种文本报告打分方法及系统


[0001]本专利技术涉及动态评价
,具体涉及一种文本报告打分方法及系统。

技术介绍

[0002]目前对于文本报告的打分有两种方式,一种是基于规则的,另一种是基于机器学习或是深度学习模型,基于机器学习模型的打分系统需要依赖于大量的标注数据,而标注数据的有效性不能保证,另外需要耗费大量的人力。而基于规则的打分系统不管是哪种方式,目前对于长文本内多模块的情形,缺乏一套系统的方案,不能对其进行准确有效的打分。

技术实现思路

[0003]因此,本专利技术要解决的技术问题在于克服现有技术中长文本多模块无法有效训练的缺陷,由此提供一种文本报告打分方法及系统,将打分规则以一种特殊的编码方式转化为训练数据的标注样本,大大提高的训练的准确率。
[0004]为达到上述目的,本专利技术提供如下技术方案:
[0005]第一方面,本专利技术实施例提供一种文本报告打分方法,包括如下步骤:
[0006]对文本报告进行全文,模块,段落,句子识别,并在各自对应的开头位置进行标记;
[0007]对文本报告进行每个词以及添加的标记,基于每个词适用的预设打分规则进行嵌入式编码,得到编码数据;
[0008]将编码数据作为输入,以标记文本各个词对应预设评价点的得分作为目标值进行输出,对神经网络模型进行训练,将训练好的神经模型作为文本报告打分模型;
[0009]将待打分的文本报告进行识别标记,输入到所述文本报告打分模型中,输出评价点对应的分数,所有评价点对应的分数之和作为文本报告的分数。
[0010]在一实施例中,编码数据包括:词向量、联合词词向量、命名实体编码、词性编码、规则类型编码,规则属性编码和粒度编码,其中:
[0011]词向量为预训练好的多维词向量;
[0012]联合词词向量为联合词与当前词的距离与联合词的预训练词向量的拼接;
[0013]命名实体编码为包括多种命名实体的one-hot编码;
[0014]词性编码为包括多种词性的onehot编码;
[0015]规则类型编码的长度为第一预设长度,每个长度位置上对应可选的预设规则类型编码;
[0016]规则属性编码的长度为第二预设长度,每个长度位置上对应预设规则属性编码;
[0017]粒度编码的长度为5,每个位置上对应全文,模块,段落,句子和词位置编码。
[0018]在一实施例中,所述预设规则类型包括:
[0019]基础关键词规则:联合词向量为0,编码数据的其他位置按照相应内容编码;
[0020]上下文规则:联合词词向量不为空,距离大于0,编码数据的其他位置按照相应内
容编码;
[0021]组合短语规则:联合词词向量不为空,与当前词距离等于0,编码数据的其他位置按照相应内容编码;
[0022]粒度频率规则:词向量、联合词向量词性编码和命名实体编码都为0,规则类型编码、规则属性编码和粒度编码不为0,按照相应内容编码;
[0023]自定义规则:联合词向量、规则类型编码和规则属性编码为0,其他模块按照相应内容编码。
[0024]在一实施例中,所述预设规则属性包括:
[0025]等级,表征不同规则类型的优先级;
[0026]分值,表征不同规则类型下的最高得分;
[0027]首次得分,表征不同规则类型首次激活后的得分;
[0028]速率,表征规则类型规则激活一次后,每多激活一次获得的得分。
[0029]在一实施例中,将待打分的文本报告进行识别标记之前,还包括:
[0030]将待打分的文本报告进行数据清洗。
[0031]在一实施例中,每个预设评价点下对应至少一个预设规则类型。
[0032]第二方面,本专利技术实施例提供一种文本报告打分系统,包括:标记模块,用于对文本报告进行全文,模块,段落,句子识别,并在各自对应的开头位置进行标记;
[0033]编码模块,用于对文本报告进行每个词以及添加的标记,基于每个词适用的预设打分规则进行嵌入式编码,得到编码数据;
[0034]打分模型训练模块,用于将编码数据作为输入,以标记文本各个词对应预设评价点的得分作为目标值进行输出,对神经网络模型进行训练,将训练好的神经模型作为文本报告打分模型;
[0035]打分模块,用于将待打分的文本报告进行识别标记,输入到所述文本报告打分模型中,输出评价点对应的分数,所有评价点对应的分数之和作为文本报告的分数。
[0036]第三方面,本专利技术实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行本专利技术实施例第一方面的文本报告打分方法。
[0037]第四方面,本专利技术实施例提供一种计算机设备,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行本专利技术实施例第一方面的文本报告打分方法。
[0038]本专利技术技术方案,具有如下优点:
[0039]本专利技术提供的文本报告打分方法及系统,对文本报告进行不同粒度识别,并在开头位置进行标记;对文本报告每个词以及添加的标记,基于每个词适用的打分规则进行嵌入式编码得到编码数据;将编码数据作为输入,以标记文本各个词对应评价点得分作为目标值输出,对神经网络模型进行训练得到文本报告打分模型;将待打分报告进行识别标记后输入到打分模型中,输出评价点对应的分数,将所有评价点分数之和作为文本报告的分数。基于文本粒度等级与指标点分类的组合机制,将规则以编码方式作为输入数据对打分模型进行训练得到打分模型对文本进行打分,有效表征大多数的规则方案,评价时将不同评价点进行分发打分与收集,能极大的提高文本评价时的效率。
附图说明
[0040]为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0041]图1本专利技术实施例中提供的文本报告打分方法的一个具体示例的工作流程图;
[0042]图2为本专利技术实施例中提供的文本报告切分为不同粒度的示意图;
[0043]图3本专利技术实施例中提供的编码数据的结构组成示意图;
[0044]图4本专利技术实施例中提供的在
[0045]评价时将不同评价点进行分发打分与收集的过程示意图;
[0046]图5本专利技术实施例中提供的文本报告打分系统的一个具体示例的模块组成图;
[0047]图6为本专利技术实施例提供的计算机设备一个具体示例的组成图。
具体实施方式
[0048]下面将结合附图对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本报告打分方法,其特征在于,包括如下步骤:对文本报告进行全文,模块,段落,句子识别,并在各自对应的开头位置进行标记;对文本报告进行每个词以及添加的标记,基于每个词适用的预设打分规则进行嵌入式编码,得到编码数据;将编码数据作为输入,以标记文本各个词对应预设评价点的得分作为目标值进行输出,对神经网络模型进行训练,将训练好的神经模型作为文本报告打分模型;将待打分的文本报告进行识别标记,输入到所述文本报告打分模型中,输出评价点对应的分数,所有评价点对应的分数之和作为文本报告的分数。2.根据权利要求1所述的文本报告打分方法,其特征在于,编码数据包括:词向量、联合词词向量、命名实体编码、词性编码、规则类型编码,规则属性编码和粒度编码,其中:词向量为预训练好的多维词向量;联合词词向量为联合词与当前词的距离与联合词的预训练词向量的拼接;命名实体编码为包括多种命名实体的one-hot编码;词性编码为包括多种词性的onehot编码;规则类型编码的长度为第一预设长度,每个长度位置上对应可选的预设规则类型编码;规则属性编码的长度为第二预设长度,每个长度位置上对应预设规则属性编码;粒度编码的长度为5,每个位置上对应全文,模块,段落,句子和词位置编码。3.根据权利要求2所述的文本报告打分方法,其特征在于,所述预设规则类型包括:基础关键词规则:联合词向量为0,编码数据的其他位置按照相应内容编码;上下文规则:联合词词向量不为空,距离大于0,编码数据的其他位置按照相应内容编码;组合短语规则:联合词词向量不为空,与当前词距离等于0,编码数据的其他位置按照相应内容编码;粒度频率规则:词向量、联合词向量词性编码和命名实体编码都为0,规则类型编码、规则属性编码和粒度编码不为0,按照相应内容编码;自定义规则:联合词向量、规则类型编码和规则属性编码为0,...

【专利技术属性】
技术研发人员:郑勤华陈丽赵宏徐鹏飞杜君磊
申请(专利权)人:北京师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1