The invention belongs to the field of computer application, and discloses a method for judging the creation age of literary works based on word vectors, which determines the creation age of literary works by utilizing the differences in the time style of the works created in different ages. The process is as follows: defining the age of the text to be determined to several candidate ages, collecting corpus corresponding to the text to be determined and each candidate age interval; training word vectors based on the neural network language model using the collected corpus; calculating the writing of the corpus which can represent the age of the corpus. Style of the times style vector; by comparing the differences of style vectors of different ages to find out the most similar writing style of the text to determine the age to complete the judgment. The invention utilizes the excellent characteristics of word vectors, realizes the style representation and judgment based on a large number of text corpus, and obtains the judgment result with high credibility; moreover, the implementation process of the invention is simple and has good applicability.
【技术实现步骤摘要】
一种基于词向量的文学作品创作年代判定方法
本专利技术属于计算机应用领域,特别涉及一种基于词向量的文学作品创作年代判定方法,具体可以应用在文学和史学等领域未知年代作品的年代识别中。
技术介绍
在自然语言处理领域,文本中单词的表示是一个基础而又重要的技术。近年来,基于神经网络来训练词向量的技术得到了长足的发展,它能把文本中的每一个单词都表示成连续空间中的一个向量。这样一来,词之间的相似性就能够通过向量之间的相似性来衡量。不同于传统的独热表示方法将每一个词表示成不包含语义信息的原子单元,通过词向量技术获得的词语表示包含了丰富的语法和语义信息,因此词向量也被广泛地用来提升许多现有的自然语言处理任务的表现。但是,现有利用词向量的方式,大多是通过为已有的任务生成更好的特征来提升任务表现,并不能够充分利用词向量中所蕴含的丰富的语义和语法信息。在众多训练词向量的技术中,谷歌Mikolov等人开发的word2vec工具凭借着高效性和易用性脱颖而出。具体地,word2vec实现了两个分布式模型:ContinuousBagofWords(CBOW)模型和Skip-gram模型。这两个模型通过利用上下文预测中心词或者利用中心词预测上下文来构建优化目标,最终能获得包含丰富的语义信息的高质量的词向量。Word2vec的输入是训练语料,输出是词表中的每一个单词所对应的向量表示,向量的维度一般在50-1000维。附图1给出了word2vec所实现的CBOW模型和Skip-gram模型的示意图。文本风格分析是应用语言学的一个分支,专门研究文学体裁的各种特征。在十八世纪,法国博物学家布冯最早 ...
【技术保护点】
1.一种基于词向量的文学作品创作年代判定方法,其特征在于,包括以下步骤:第一步,划分候选年代区间给定一个创作年代未知的文学作品,根据经验大致推测其可能的创作年代范围,将该范围划分为若干互不相交的时间连续的子区间;第二步,构建训练语料针对每一个子区间,收集创作于此时间区间的同体裁的文学作品,将作品集合预处理后得到训练语料;采用同样方法,将待判定作品预处理后也得到对应的训练语料;最终,每一个子区间对应一个训练语料,同时待判定文本对应一个训练语料;第三步,计算时代风格向量对于每一个训练语料,使用word2vec工具训练词向量,并基于训练好的词向量计算对应的时代风格向量;最终得到对应于每一个子区间的时代风格向量和对应于待判定文本的时代风格向量;时代风格向量的计算方式为:采用预处理好的文本分别训练词向量,得到若干个词向量集合和词表;从上述若干个词表中取出共有的前m个词;对于每一个词向量集合,计算m个词所对应的词向量之间的距离后组成一个新的向量,该向量即为该语料所对应的时间子区间的时代风格向量;第四步,对比时代风格向量差异,得出判定结果计算待判定作品的时代风格向量和每一个时代区间对应的时代风格向量 ...
【技术特征摘要】
1.一种基于词向量的文学作品创作年代判定方法,其特征在于,包括以下步骤:第一步,划分候选年代区间给定一个创作年代未知的文学作品,根据经验大致推测其可能的创作年代范围,将该范围划分为若干互不相交的时间连续的子区间;第二步,构建训练语料针对每一个子区间,收集创作于此时间区间的同体裁的文学作品,将作品集合预处理后得到训练语料;采用同样方法,将待判定作品预处理后也得到对应的训练语料;最终,每一个子区间对应一个训练语料,同时待判定文本对应一个训练语料;第三步,计算时代风格向量对于每一个训练语料,使用word2vec工具训练词向量,并基于训练好的词向量计算对应的时代风格向量;最终得到对应于每一个子区间的时代风格向量和对应于待判定文本的时代风格向量;时代风格向量的计算方式为:采用预处理好的文本分别训练词向量,得到若干个词向量集合和词表;从上述若干个词表中取出共有的前m个词;对于每一个词向量集合,计算m个词所对应的词向量之间的距离后组成一个新的向量,该向量即为该语料所对应的时间子区间的时代风格向量;第四步,对比时代风格向量差异,得出判定结果计算待判定作品的时代风格向量和每一个时代区间对应的时代风格向量的相似度,与待判定作品的时代风格向量最相似的风格向量所对应的时代区间即为最终判定结果;最终判定结果可以是与待判定文本时代风格最相似的一...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。