素材语料的生成方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:23470672 阅读:73 留言:0更新日期:2020-03-06 12:44
本申请涉及一种素材语料的生成方法、装置、计算机设备和存储介质。所述方法包括:获取目标类型的文章数据;将所述文章数据按句筛选、切分和清洗后得到多个素材语句;通过分类模型识别所述素材语句,输出与所述素材语句对应的类别标签。采用本方法能够解决现有技术中不能自动产出素材语句的类别标签的技术问题,可以通过训练分类模型给语料自动标记类别标签,形成一条完整语料自动存数据库中。可以自动产出带类别标签的素材语句,自动收集用于直接撰写伪原创文章的素材语句,减少了人工成本,提高了产出效率。

Method, device, computer equipment and storage medium of material corpus

【技术实现步骤摘要】
素材语料的生成方法、装置、计算机设备和存储介质
本申请涉及人工智能
,特别是涉及一种素材语料的生成方法、装置、计算机设备和存储介质。
技术介绍
编写原创文章的过程非常繁琐,并且经常要求作者查询大量信息以进行文章内容的检索和验证。在完成一篇原创文章时,至少会需要长达几个小时或者几天的时间才能完成。对于汽车领域文章编辑的要求,更需要有专业的汽车背景,普通编辑写出一篇汽车内容需要更多的时间。所以提出了一种伪原创的撰写方式,通过搜罗和组合现有文章的语料,进而撰写组合成一个新的文章。文章的伪原创工具需要海量的素材语料支持,用以撰写文章。相关技术在获取语料时,首先需要对素材语料进行分类,才能基于海量的语料撰写成合乎逻辑,通顺的文章,由于原始文章的复杂性,通常一篇原始文章对应多个类别标签,文章有的段落甚至会同时对应多个类别标签,导致现有技术中素材语料都是人工打标签,非常费时费力,自动化程度低。针对相关技术中存在的上述问题,目前尚未发现有效的解决方案。
技术实现思路
基于此,有必要针对上述技术问题,提供一种能够解决现有本文档来自技高网...

【技术保护点】
1.一种素材语料的生成方法,其特征在于,所述方法包括:/n获取目标类型的文章数据;/n将所述文章数据按句筛选、切分和清洗后得到多个素材语句;/n通过分类模型识别所述素材语句,输出与所述素材语句对应的类别标签。/n

【技术特征摘要】
1.一种素材语料的生成方法,其特征在于,所述方法包括:
获取目标类型的文章数据;
将所述文章数据按句筛选、切分和清洗后得到多个素材语句;
通过分类模型识别所述素材语句,输出与所述素材语句对应的类别标签。


2.根据权利要求1所述的方法,其特征在于,将所述文章数据按句筛选、切分和清洗后得到多个素材语句包括:
按照预设条件过滤所述文章数据;
将过滤后的文章数据以句子为最小单位进行切分,得到若干个文章语句;
对所述若干个文章语句按照关键字和/或字符数进行清洗,得到符合条件的素材语句。


3.根据权利要求2所述的方法,其特征在于,将过滤后的文章数据以句子为最小单位进行切分包括以下至少之一:
采用切分规则切分过滤后的文章数据,其中,所述切分规则包括以下之一:通过句字符组合的正则表达式、分号符;
采用句符号切分过滤后的文章数据。


4.根据权利要求1至3任一项所述的方法,其特征在于,在输出与所述素材语句对应的类别标签之后,所述方法还包括:
将所述素材语句对应的文章标识,所述类别标签,以及所述素材语句组合成语料字段后存储在语料数据库,其中,所述语料数据库用于响应基于所述类别标签的查询请求并输出所述素材语句。


5.根据权利要求1至3任一项所述的方法,其特征在于,在输出与所述素材语句对应的类别标签之后,所述方法还包括:
判断当前素材语句与相邻素材语句的类别标签是否一致;
在一致时,将所述当前素材语句和所述相邻素材语句合并为一条素材语句。


6.根据权利要求1至3任一项所述的方法,其特征在于,在通过分类模型识别所述素材语句之前,所述方法还包括:
采集原始数据;
根据所述原始数据生成多个训练语料,其中,所述训练语料包括:文本语料、分类标签;
基于所述多个训练语料构建所述分...

【专利技术属性】
技术研发人员:王旭东沈强王小统
申请(专利权)人:浙江大搜车软件技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1