语料样本集合的构建方法、计算设备及计算机存储介质技术

技术编号:26763931 阅读:46 留言:0更新日期:2020-12-18 23:31
本发明专利技术公开了一种语料样本集合的构建方法、计算设备及计算机存储介质。其中方法包括:步骤S1,对语料库的语料进行识别,得到初始的语料样本集合以及利用初始的语料样本集合训练得到的语料识别模型;步骤S2,利用语料识别模型对书籍语料进行识别,得到书籍语料样本;步骤S3,将书籍语料样本添加入语料样本集合;步骤S4,利用更新后的语料样本集合对语料识别模型进行训练;重复执行上述步骤S2至步骤S4,直至更新后的语料样本集合满足第一预设条件。本方案最初的数据来源的语料库,实现了零样本的语料构建与学习,构建出的语料样本集合适用于电子书领域,并且语料样本兼具多样性和准确性的特点。

【技术实现步骤摘要】
语料样本集合的构建方法、计算设备及计算机存储介质
本专利技术涉及电子书处理
,具体涉及一种语料样本集合的构建方法、计算设备及计算机存储介质。
技术介绍
命名实体识别(NamedEntityRecognition,简称:NER)是指识别文本中具有特定意义的实体,主要包含人名、地名、机构名、专有名词等等。NER技术是信息提取、问答系统、句法分析、机器翻译等应用领域的重要基础工具。命名实体的识别需要对大量的语料进行样本标注,以作为模型训练的样本集。在电子书处理领域,书籍搜索是一项常规功能,用户常常会将书籍人物、书籍中的地名等作为搜索词进行搜索,那么从书籍中准确地提取出书籍人物的姓名、书籍中的地名是提供搜索服务的基础和前提。然而,现有的命名实体识别技术所利用语料样本没有覆盖到电子书领域,导致基于电子书领域的命名实体识别缺乏语料样本的支持。若采用人工标注的方式,工作量极大,需要耗费大量的人力成本和时间。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的语料样本集合的构建方法本文档来自技高网...

【技术保护点】
1.一种语料样本集合的构建方法,包括:/n步骤S1,对语料库的语料进行识别,得到初始的语料样本集合以及利用初始的语料样本集合训练得到的语料识别模型;/n步骤S2,利用语料识别模型对书籍语料进行识别,得到书籍语料样本;/n步骤S3,将书籍语料样本添加入语料样本集合,得到更新后的语料样本集合;/n步骤S4,利用更新后的语料样本集合对语料识别模型进行训练,以更新所述语料识别模型;/n重复执行上述步骤S2至步骤S4,直至更新后的语料样本集合满足第一预设条件。/n

【技术特征摘要】
1.一种语料样本集合的构建方法,包括:
步骤S1,对语料库的语料进行识别,得到初始的语料样本集合以及利用初始的语料样本集合训练得到的语料识别模型;
步骤S2,利用语料识别模型对书籍语料进行识别,得到书籍语料样本;
步骤S3,将书籍语料样本添加入语料样本集合,得到更新后的语料样本集合;
步骤S4,利用更新后的语料样本集合对语料识别模型进行训练,以更新所述语料识别模型;
重复执行上述步骤S2至步骤S4,直至更新后的语料样本集合满足第一预设条件。


2.根据权利要求1所述的方法,所述语料为语句,对语料进行识别具体为:对语句中的命名实体进行识别,得到命名实体名称、命名实体类型和命名实体位置。


3.根据权利要求2所述的方法,所述方法还包括:对语料库中所有的命名实体的出现频次进行统计,筛选出出现频次大于预设值的高频命名实体,得到高频命名实体字典;
在所述对语料库的语料进行识别,得到初始的语料样本集合之后,所述方法还包括:对初始的语料样本集合进行过滤,滤除其中不包含高频命名实体的语料样本;
在所述步骤S2和步骤S3之间,所述方法还包括:判断所述书籍语料样本是否包含高频命名实体,若是,则执行步骤S3;若否,则丢弃该书籍语料样本。


4.根据权利要求2或3所述的方法,所述对语料库的语料进行识别,得到初始的语料样本集合具体为:利用命名实体识别工具对语料库的语料进行识别,得到初始的语料样本集合;
所述步骤S1还包括:
步骤S11,从语料库中提取语料;
步骤S12,利用语料识别模型对语料进行识别;
步骤S13,将语料识别模型对语料的识别结果与命名实体识别工具对语料的识别结果进行校验,若校验一致,则在初始的语料样本集合中保留该语料对应的语料样本;若校验不一致,则在初始的语料样本集合中去除该语料对应的语料样本;
重复执行上述步骤S11至步骤S13,直至初始的语料样本集合满足第二预设条件。


5.根据权利要求2或3所述的方法,在所述步骤S2和步骤S3之间,所述方法还包括:
利用命名实体识别工具对书籍语料进行识别;
将语料识别模型对书籍语料的识别结果与命名实体识别工具对书籍语料的识别结果进行校验,若校验一致,则执行步骤S3;若校验不一致,丢弃该书籍语料对应的书籍语料样本。


6.一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行...

【专利技术属性】
技术研发人员:柳燕煌
申请(专利权)人:掌阅科技股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1