【技术实现步骤摘要】
一种专有领域语料模型构建方法、计算机设备及存储介质
本专利技术涉及自然语言处理
,尤其涉及一种专有领域语料模型构建方法、计算机设备及存储介质。
技术介绍
企业日常运营中存在着大量文本处理工作,文档类型十分多样,每类文档都有着相对固定的格式、规范、固定搭配等。企业日常的文本文档处理工作中存在着大量的文本自然语言处理的应用场景,例如文本分词、文档格式类型分类、文本情感分析、关键信息提取、合同文档审核、文档相似度计算等等。当下在学术界及工业界,多数NLP任务都会通过预训练语言模型的方式,诸如n-gram,Bert,GPT及其变种等。预训练的思想本质是让深度神经网络中的参数不是随机初始化,而是通过语言模型的任务完成预训练,从而通过迁移学习的思想完成下游的NLP任务。然而在实际特定领域文档处理时,时常面临的问题是,通用语料与训练模型在预训练所使用的语料中并未包含足够的该行业特有名词、特定文档的固定语法搭配等等语言范式,导致在下游例如关键信息提取任务中,无法准确命中完整的关键信息。在例如金融专有领域的文本分类或关键 ...
【技术保护点】
1.一种专有领域语料模型构建方法,其特征在于,包括以下步骤:/n步骤一、语料收集及预处理:通过数据清洗获取充足的纯净无监督语料;/n步骤二、词频及逆文本频率指数分析:通过TF-IDF统计方法识别出所述纯净无监督语料中的重要程度较高的词语,利用所述TF-IDF统计方法中的逆向频率指数剔除掉常用词,所剩词中词频较为高的词作为当前文本的高频词,或作为专有领域语料中的高频词;/n步骤三、数据增强:对步骤二中提取出的所述高频词所在的句子进行增强,增强方法包括:对所述高频词所在段落进行复制,并将复制出的段落随机插入所述纯净无监督语料的任意位置;/n步骤四、语言模型训练:通过XLNet模 ...
【技术特征摘要】
1.一种专有领域语料模型构建方法,其特征在于,包括以下步骤:
步骤一、语料收集及预处理:通过数据清洗获取充足的纯净无监督语料;
步骤二、词频及逆文本频率指数分析:通过TF-IDF统计方法识别出所述纯净无监督语料中的重要程度较高的词语,利用所述TF-IDF统计方法中的逆向频率指数剔除掉常用词,所剩词中词频较为高的词作为当前文本的高频词,或作为专有领域语料中的高频词;
步骤三、数据增强:对步骤二中提取出的所述高频词所在的句子进行增强,增强方法包括:对所述高频词所在段落进行复制,并将复制出的段落随机插入所述纯净无监督语料的任意位置;
步骤四、语言模型训练:通过XLNet模型对步骤三中增强后的所述纯净无监督语料进行建模以生成专有领域语料模型;当所述专有领域语料模型训练完成,根据所述专有领域语料模型生成的分词模型对语料进行分词,再次迭代训练以提升语言模型。
2.根据权利要求1所述的一种专有领域语料模型构建方法,其特征在于,步骤一中,所述数据清洗包括对海量PDF文件中的文字进行解析并提取,解析方式包括:
保持文本内容的连续性,通过段落来进行划分,保证段落中的上下文是连贯的;
文档标题作为单独段落,正文中的段落标题作为单独段落以保证上下句的连贯性。
3.根据权利要求2所述的一种专有领域语料模型构建方法,其特征在于,对于双栏或多栏内容,如果直接读取的内容是连贯语义,则当作纯净语料使用,反之则弃用。
4.根据权利要求2所述的一种专有领域语料模型构...
【专利技术属性】
技术研发人员:顾嘉晟,岳小龙,高翔,纪达麒,陈运文,
申请(专利权)人:达而观数据成都有限公司,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。