一种最大逆向匹配分词算法与GPT结合的文本生成方法技术

技术编号：36695571 阅读：19 留言：0更新日期：2023-02-27 20:07

本发明专利技术属于自然语言处理技术领域。具体涉及一种最大逆向匹配分词算法与GPT结合的文本生成方法，逆向最大匹配分词算法能够融入用户的常用词汇、句子信息，而GPT网络模型却可以在海量数据中学习字、词汇、句子之间的统计规律和内在联系。通过两者的有效结合，可以使得GPT模型在海量数据中通过模型训练学习字粒度、词汇粒度、句子粒度之间的信息，从而改善生成文本的连贯性。本的连贯性。

全部详细技术资料下载

【技术实现步骤摘要】
一种最大逆向匹配分词算法与GPT结合的文本生成方法

[0001]本专利技术属于自然语言处理
具体涉及一种最大逆向匹配分词算法与GPT结合的文本生成方法。

技术介绍

[0002]文本生成任务是自然语言处理任务中最具有挑战性的任务之一，当前的文本生成任务正在朝着大模型、大数据集的思路前进，通常需要耗费大量的计算资源，在当计算资源有限，不能有效支撑大模型、大数据的思路进行后续尝试时，使用现有的模型和数据如何能够提高文本生成任务的效果成为了当下所要解决的问题。

技术实现思路

[0003]本专利技术实现了一种最大逆向匹配分词算法与GPT结合的文本生成方法，其中，逆向最大匹配分词算法能够融入用户的常用词汇、句子信息，而GPT网络模型却可以在海量数据中学习字、词汇、句子之间的统计规律和内在联系。通过两者的有效结合，可以使得GPT模型在海量数据中通过模型训练学习字粒度、词汇粒度、句子粒度之间的信息，从而改善生成文本的连贯性。
[0004]一种基于逆向最大匹配分词算法和GPT模型结合的文本生成方法，所述中文文本生成方法主要包括如下步骤：S1.构造字符库：针对开源BERT模型公开的词表进行整理，保留特殊字符四个，分别为：文本起始符[CLS]，补全字符 [PAD]，句子间分隔符[SEP]，未在词表中出现字符[UNK]，将BERT词表中所有长度超过1的词表全部删除，然后将这些字符放到vocab.txt，针对项目project中提供的数据统计所有字符，然后将这些字符添加到vocab.txt，得到最终的字符库；S...

【技术保护点】

【技术特征摘要】
1.一种最大逆向匹配分词算法与GPT结合的文本生成方法，其特征在于包括如下步骤：S1.构造字符库：针对开源BERT模型公开的词表进行整理，保留特殊字符四个，分别为：文本起始符[CLS]，补全字符 [PAD]，句子间分隔符[SEP]，未在词表中出现字符[UNK]，将BERT词表中所有长度超过1的词表全部删除，然后将这些字符放到vocab.txt，针对项目project中提供的数据统计所有字符，然后将这些字符添加到vocab.txt，得到最终的字符库；S2.构造高频词库：针对project的文本语料，通过jieba工具进行分词后，统计高频词，其具体操作为：建立词频统计字典Word_freq = {key1: value1, key2: value2,
ꢀ…
}，其中，key为字典键，取值为词，value为key所对应的键值，取值为词所对应的词频，针对每一条文本数据通过jieba工具进行分词，如果该词不在Word_freq中，则将该词放到Word_freq中作为key；如果该词出现，则对应key的词频value加一；默认高频词是项目中出现频次大于20次的词汇，如果出现频次大于20次的超过5000，则只保留前5000个，将5000个高频词放到words_f.txt中，得到最终的高频词库；S3.构造关键词词库：针对项目project的文本语料，建立词频统计字典Word_key = {key1: value1, key2: value2,
ꢀ…
}，其中，key为字典键，取值为词，value为key所对应的键值，取值为词所对应的词频，通过jieba工具中基于tf
‑
idf关键词抽取模块抽取每条文本的前三个关键词；如果当前文本的关键词不在Word_key中，则将该词放到Word_key中作为key；如果该词出现，则对应key的词频value加一；默认关键词频率是项目中出现频次大于10次的词汇，如果出现频次大于10次的超过5000，则只保留前5000个，将5000个关键词放到words_k.txt中，最终得到关键词词库；S4.构造高频句库：针对项目project的文本语料，通过标点符号对文本进行分句，建立句频统计字典Sent_freq = {key1: value1, key2: value2,
ꢀ…
}，其中，key为字典键，取值为句子，value为key所对应的键值，取值为句子所对应的句频，统计高频句，如果当前文本的句子不在Sent_freq中，则将该句子放到Sent_freq中作为key；如果该句子出现，则key对应的句频value加一；默认句子频率是项目中出现句频大于10次的句子，如果出现频次大于10次的超过5000，则只保留前5000个句子，将5000个高频句放到sents_f.txt中，最终得到高频句库；S5.建立映射词典：根据步骤S1、S2、S3所得到的字符库、高频词库、关键词词库、高频句库，建立映射词典，其具体为：将字符库，关键词库，高频词库，高频句库汇总到一个txt文件中并去重，文件记为keys_sum.txt，通过该txt文件建立映射词典Dict，Dict的前项key为字符索引编号，Dict的后项value为具体的领域字、关键词、高频词、高频句，即Dict={0:
‘
[CLS]
’
,1:”[PAD]”,2:”[SEP]“，.......}，其中[CLS]为文本起始符，[PAD]代表当文本长度不够最大长度max_len时，采用“[PAD]”字符填充到max_len长度，...

【专利技术属性】
技术研发人员：曹肖攀，舒彬，
申请(专利权)人：中电万维信息技术有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人