一种人工智能辅助写作系统技术方案

技术编号:32850365 阅读:57 留言:0更新日期:2022-03-30 19:04
本发明专利技术公开了一种人工智能辅助写作系统,包括写作系统,写作系统包含有信息处理模块、词向量语义模块、句向量语义模块和句向量矩阵模块,词向量语义模块包含有CBOW模型神经网络训练模块,信息处理模块包含有信息收集模块、文本框输入模块和文本框输出模块,句向量语义模块包含有句向量组合算法,句向量矩阵模块包含有语义矩阵联想算法。本发明专利技术通过创造新的句义算法,能够将一段文本或句子转化为计算机可以储存和计算的数据,相较于过去的词义计算更具有思维性,并能够根据句义之间的相似运算针对用户的输入文本,进行相似文本的输出,实现辅助文本写作的有益效果,增加用户对文本写作的自查和对比。的自查和对比。的自查和对比。

【技术实现步骤摘要】
一种人工智能辅助写作系统


[0001]本专利技术涉及机器学习领域,特别涉及一种人工智能辅助写作系统。

技术介绍

[0002]对于复杂的自然语言任务进行建模,最开始使用概率模型技术,但在学习语言模型的联合概率函数时,存在致命的维数灾难问题。假如语言模型的词典大小为100000,用独热编码表示10个连续词的联合分布,那么深度模型的参数总量可能就要有10
50
个。相应的,模型要具备足够的置信度,需要的样本量指数级增加。为了解决这个问题,最早是1986年Hinton等人提出分布式表示技术(Distributed Representation),基本思想是将词表示成n维连续的实数向量。分布式表示具备强大的特征表示能力,n维向量,每维有k个值,便能表示k
n
个特征。常见的开源的已经训练好的词向量模型的n通常在数百甚至数千维。常见的词向量训练方式是CBOW(Continuous Bag-of-Word Model连续词袋模型)。
[0003]词向量是NLP深度学习研究的基础,由于语义相似的词趋向于出现在相似的上下文。因此在学习过程中,这些向量会努力捕捉词的邻近特征,从而学习到词汇之间的相似性。与文字相比,词向量的优势是可计算,便能够通过计算余弦距离、欧式距离等方式来度量词与词之间的相似度。但是在句子语义相似度和文章相似度方面,却无能为力。
[0004]此外,现有自然语言理解技术(NLP),在自然语言理解方面,不仅没有理解并记忆文学作品与各种文本,也无法实现根据用户输入的文本进行联想计算,没有返回语义接近的优质文本、无法达到辅助用户联想、引据经典、写作的目的。例如2020年百度公司最新的自然语言理解ERNIE 2.0技术,虽然在情感分析、文本匹配、自然语言推理、词法分析、阅读理解、智能问答等16个公开数据集上全面显著超越世界领先技术,但是同样没有实现根据用户输入的文本进行联想计算,无法返回语义接近的优质文本,而且训练成本高昂。

技术实现思路

[0005]本专利技术要解决的技术问题是克服现有技术的缺陷,提供一种人工智能辅助写作系统。
[0006]为了解决上述技术问题,本专利技术提供了如下的技术方案:
[0007]本专利技术一种人工智能辅助写作系统,包括写作系统,所述写作系统包含有信息处理模块、词向量语义模块、句向量语义模块和句向量矩阵模块,所述词向量语义模块包含有CBOW模型神经网络训练模块,所述信息处理模块包含有信息收集模块、文本框输入模块和文本框输出模块,所述句向量语义模块包含有句向量组合算法,所述句向量矩阵模块包含有语义矩阵联想算法,具体包括如下步骤:
[0008]A.经由信息处理模块采集大量文学作品,经过分段后,将文字转换为字符串,形成文字段落库;
[0009]B.将步骤A所采集的文字段落通过词向量语义模块处理,首先将文字段落分词,随后依次将单词经过CBOW模型神经网络训练模块处理得到各个单词的词向量,再把各个词向
量进行组合,形成词组向量;
[0010]C.使步骤B中的词组向量库整体置入句向量语义模块中,并通过句向量组合算法将词向量输出为句向量,使文字段落的句子主要经由句向量表达;
[0011]D.将步骤A所生成文字段落库中的每个段落,都经过步骤B、C后,得到每个文字段落的句子特征向量,句子的特征句向量采用浮点数类型表达,再将所有句子特征向量合并,形成文学作品矩阵库;
[0012]E.使用者通过信息处理模块的文本框输入模块输入目标文本,在文本转换为字符串后,经由步骤B和步骤C形成目标句向量;
[0013]F.将目标句向量和步骤D的文学作品矩阵库经由句向量矩阵模块的语义矩阵联想算法进行处理,得出相似句向量集合,并输出至信息处理模块的文本框输出模块中,且按相似率升序排列。
[0014]作为本专利技术的一种优选技术方案,信息处理模块包含有网络爬虫技术或网络API平台外接端口,主要用于提取文学作品信息。
[0015]作为本专利技术的一种优选技术方案,所述CBOW模型神经网络训练模块主要基于word2vec词袋算法模型下使用,CBOW模型神经网络训练模块的训练过程是通过在大量文学句子中抽取一些文学句子作为训练数据,对每一条句子抽出词组W(t),经由上下文单词w(t-2),w(t-1),w(t+1),w(t+2)预测W(t),训练后的CBOW模型神经网络训练模块可以使单词字符串词量化,包含如下步骤:
[0016](1)将当前词的上下文词语的独热编码输入到输入层,其独热编码维度为1*V,并设立矩阵W1,且W1的维度为V*N,V为词典中包含的词组总数,N为自定义维度;
[0017](2)使上下文词语和同一矩阵W1相乘,得到上下文词语的各自向量1*N,并将1*N向量整体取平均为一个向量1*N,最后将平均向量1*N和矩阵W2相乘,变为1*V,其中W2的维度为N*V;
[0018](3)将1*V向量归一化后取出每个词的概率向量,将概率值最大的数对应的词作为预测词W(t),随后使预测词W(t)和真实预期词W(t)计算误差,做反向传播梯度下降调整W1和W2的矩阵值,最终得到的W1矩阵值即是文学句子的词向量库。
[0019]作为本专利技术的一种优选技术方案,所述句向量组合算法基于CBOW模型神经网络训练模块下计算,通过CBOW模型神经网络训练模块所得到的词向量形成句向量,具体做法是:根据所得出的词向量设目标句子A中包含n个词,每个词都用词向量库中的m维词向量表示,则句子A包含的词向量集合为X(X1,X2……
X
n
),其中每个词向量可以表示为:
[0020]X1=[X
11
,X
12
……
X
1m
][0021]X2=[X
21
,X
22
……
X
2m
][0022]……
[0023]X
n
=[X
n1
,X
n2
……
X
nm
][0024]设句子A的语义特征向量为Avec,则Avec的算法为:
[0025]Avec=[(X
11
+X
21
+
……
+X
n1
)/n,(X
12
+X
22
+
……
+X
n2
)/n,
……
,(X
1m
+X
2m
+
……
+X
nm
)/n],为简化表示设:
[0026]Y1=(X
11
+X
21
+
……
+X
n1
)/n
[0027]Y2=(X
12
+X
22
+
……
+X
n2
...

【技术保护点】

【技术特征摘要】
1.一种人工智能辅助写作系统,包括写作系统,其特征在于,所述写作系统包含有信息处理模块、词向量语义模块、句向量语义模块和句向量矩阵模块,所述词向量语义模块包含有CBOW模型神经网络训练模块,所述信息处理模块包含有信息收集模块、文本框输入模块和文本框输出模块,所述句向量语义模块包含有句向量组合算法,所述句向量矩阵模块包含有语义矩阵联想算法,具体包括如下步骤:A.经由信息处理模块采集大量文学作品,经过分段后,将文字转换为字符串,形成文字段落库;B.将步骤A所采集的文字段落通过词向量语义模块处理,首先将文字段落分词,随后依次将单词经过CBOW模型神经网络训练模块处理得到各个单词的词向量,再把各个词向量进行组合,形成词组向量;C.使步骤B中的词组向量库整体置入句向量语义模块中,并通过句向量组合算法将词向量输出为句向量,使文字段落的句子主要经由句向量表达;D.将步骤A所生成文字段落库中的每个段落,都经过步骤B、C后,得到每个文字段落的句子特征向量,句子的特征句向量采用浮点数类型表达,再将所有句子特征向量合并,形成文学作品矩阵库;E.使用者通过信息处理模块的文本框输入模块输入目标文本,在文本转换为字符串后,经由步骤B和步骤C形成目标句向量;F.将目标句向量和步骤D的文学作品矩阵库经由句向量矩阵模块的语义矩阵联想算法进行处理,得出相似句向量集合,并输出至信息处理模块的文本框输出模块中,且按相似率升序排列。2.根据权利要求1所述的一种人工智能辅助写作系统,其特征在于,所述信息处理模块包含有网络爬虫技术或网络API平台外接端口,主要用于提取文学作品信息。3.根据权利要求1所述的一种人工智能辅助写作系统,其特征在于,所述CBOW模型神经网络训练模块主要基于word2vec词袋算法模型下使用,CBOW模型神经网络训练模块的训练过程是通过在大量文学句子中抽取一些文学句子作为训练数据,对每一条句子抽出词组W(t),经由上下文单词w(t-2),w(t-1),w(t+1),w(t+2)预测W(t),训练后的CBOW模型神经网络训练模块可以使单词字符串词量化,包含如下步骤:(1)将当前词的上下文词语的独热编码输入到输入层,其独热编码维度为1*V,并设立矩阵W1,且W1的维度为V*N,V为词典中包含的词组总数,N为自定义维度;(2)使上下文词语和同一矩阵W1相乘,得到上下文词语的各自向量1*N,并将1*N向量整体取平均为一个向量1*N,最后将平均向量1*N和矩阵W2相乘,变为1*V,其中W2的维度为N*V;(3)将1*V向量归一化后取出每个词的概率向量,将概率值最大的数对应的词作为预测词W(t),随后使预测词W(t)和真实预期词W(t)计算误差,做反向传播梯度下降调整W1和W2的矩阵值,最终得到的W1矩阵值即是文学句子的词向量库。4.根据权利要求2所述的一种人工智能辅助写作系统,其特征在于,所述句向量组合算法基于CBOW模型神经网络训练模块下计算,通过CBOW模型神经网络训练模块所得到的词向量形成句向量,具体做法是:根据所得出的词向量设目标句子A中包含n个词,每个词都用词向量库中的m维词向量表示,则句子A包含的词向量集合为X(X1,X2……
X
n
),其中每个词向量
可以表示为:X1=[X
11
,X
12
……
X
1m
]X2=[X
21
,X
22
……
X
2m
]
……
X
n
=[X
n1
,X
n2
……
X
nm
]设句子A的语义特征向量为Avec,则Avec的算法为:Avec=[(X
11
+X
21
+
……
+X
...

【专利技术属性】
技术研发人员:艾浒张楠
申请(专利权)人:北京百灵互联科技有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1