当前位置: 首页 > 专利查询>菏泽学院专利>正文

一种提取文本语素数据的方法、存储介质和系统技术方案

技术编号:26971298 阅读:43 留言:0更新日期:2021-01-06 00:02
本发明专利技术公开一种提取文本语素数据的方法、存储介质和系统,方法包括:从预设的训练样本集中提取出多个候选文本语素组合,以一个基因序列表示一个文本语素数据组合,生成包括多个基因序列的初始文本语素集合;适应度计算步骤:对本代文本语素集合中的每个所述基因序列,计算每个所述基因序列所表示的文本语素数据组合对于预设的测试集的测试结果作为基因序列的适应度,如果本代文本语素集合满足预设的输出条件,则根据预设的输出规则,输出本代文本语素集合所包括的基因序列所表示的文本语素数据组合作为用于文本分析的输出文本语素数据组合。本发明专利技术实现了基于遗传算法实现文本语素的提取,可以获取比传统算法更加高效和准确的文本语素数据组合。

【技术实现步骤摘要】
一种提取文本语素数据的方法、存储介质和系统
本专利技术涉及自然语言分析相关
,具体涉及一种提取文本语素数据的方法、存储介质和系统。
技术介绍
一直以来,表示学习都是自然语言处理的最根本任务,从最初的u-gram和bi-gram到BOW(Bagofwords,简称BOW)的稀疏表示,再到word2vect的稠密表示。深度学习的风靡推动了表示学习的发展,也取得了丰硕的成果。Sequence-to-sequencemodels也因此成为自然语言处理的主流,被广泛应用于机器翻译、文本摘要、语音识别、图像识别以及人机对话等领域。Sequence-to-Sequencemodels中,一般包含一个由两个RNNS(Recurrentneuralnetworks,简称RNNs)模型和一个注意力机制组成的encoder-decoder结构[]。随着RNN趋于主流,其缺陷也日益彰显出来:文本语料越大时,词向量的规模也呈指数增长的趋势。这是因为,RNN中的每个词首先被映射为一个one-hot向量,这个向量规模型等于语料库中单词的个数,再将这个one-hot向量本文档来自技高网...

【技术保护点】
1.一种提取文本语素数据的方法,其特征在于,包括如下步骤:/n初始文本语素集合获取步骤,包括:从预设的训练样本集中提取出多个候选文本语素,从所有候选文本语素中选出多种文本语素数据组合,每个文本语素数据组合包括一个或多个候选文本语素,以一个基因序列表示一个文本语素数据组合,生成包括多个基因序列的初始文本语素集合,初始化迭代次数,将初始文本语素集合作为本代文本语素集合,执行适应度计算步骤;/n适应度计算步骤,包括:对本代文本语素集合中的每个所述基因序列,计算每个所述基因序列所表示的文本语素数据组合对于预设的测试集的测试结果作为基因序列的适应度,如果本代文本语素集合满足预设的输出条件,则根据预设的输...

【技术特征摘要】
1.一种提取文本语素数据的方法,其特征在于,包括如下步骤:
初始文本语素集合获取步骤,包括:从预设的训练样本集中提取出多个候选文本语素,从所有候选文本语素中选出多种文本语素数据组合,每个文本语素数据组合包括一个或多个候选文本语素,以一个基因序列表示一个文本语素数据组合,生成包括多个基因序列的初始文本语素集合,初始化迭代次数,将初始文本语素集合作为本代文本语素集合,执行适应度计算步骤;
适应度计算步骤,包括:对本代文本语素集合中的每个所述基因序列,计算每个所述基因序列所表示的文本语素数据组合对于预设的测试集的测试结果作为基因序列的适应度,如果本代文本语素集合满足预设的输出条件,则根据预设的输出规则,输出本代文本语素集合所包括的基因序列所表示的文本语素数据组合作为用于文本分析的输出文本语素数据组合,否则,执行选择步骤;
选择步骤,包括:根据基因序列的适应度选择一个或多个基因序列根据交叉概率执行交叉操作和根据变异概率执行变异操作后得到下一代文本语素集合,执行适应度计算步骤。


2.根据权利要求1所述的提取文本语素数据的方法,其特征在于,基因序列采用如下方式表示文本语素数据组合:
将所有的候选文本语素进行排序,每个候选文本语素对应一个编号代码;
所述基因序列中每个基因为一个候选文本语素所对应的编号代码。


3.根据权利要求1所述的提取文本语素数据的方法,其特征在于,所述选择步骤,具体包括:
对本代文本语素集合中的基因序列的适应度进行排序,将排在前面的若干个基因序列加入下一代文本语素集合,对本代文本语素集合的其他基因序列根据交叉概率执行交叉操作和根据变异概率执行变异操作后加入下一代文本语素集合。


4.根据权利要求1所述的提取文本语素数据的方法,其特征在于:
所述交叉概率为:其中Pc为当前基因序列交叉概率,a为一个固定的值,用来设定初始交叉概率,i为迭代次数,fmax为本代文本语素集合最大适应度,fmin为本代文本语素集合最小适应度,f'为执行交叉操作的两个基因序列的较大适应度;
所述变异概率为:其中Pm为变异概率,Pmax为预设的最大变异概率,f”为执行变异操作的基因序...

【专利技术属性】
技术研发人员:杨玉珍赵春桥
申请(专利权)人:菏泽学院
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1