一种基于词向量的文学作品创作年代判定方法技术

技术编号：18913462 阅读：35 留言：0更新日期：2018-09-12 02:56

本发明专利技术属于计算机应用领域，公开了一种基于词向量的文学作品创作年代判定方法，利用创作于不同年代的作品在时代风格上的差异来判定作品的创作年代。过程如下：将待判定文本的年代限定到若干候选年代区间，收集对应于待判定文本和每一个候选年代区间的语料；使用收集到的语料基于神经网络语言模型训练词向量；利用收集到的若干语料计算可以表征语料所属年代的写作风格的时代风格向量；通过对比各个年代风格向量的差异来找出和待判定文本写作风格最相似的年代以完成判定。本发明专利技术利用词向量的优良特性，基于大量文本语料来实现风格的表征和判定，得到的判定结果具有较高的可信度；另外，本发明专利技术的实施流程简便，具有良好的适用性。

A method of dating literary works based on word vector

The invention belongs to the field of computer application, and discloses a method for judging the creation age of literary works based on word vectors, which determines the creation age of literary works by utilizing the differences in the time style of the works created in different ages. The process is as follows: defining the age of the text to be determined to several candidate ages, collecting corpus corresponding to the text to be determined and each candidate age interval; training word vectors based on the neural network language model using the collected corpus; calculating the writing of the corpus which can represent the age of the corpus. Style of the times style vector; by comparing the differences of style vectors of different ages to find out the most similar writing style of the text to determine the age to complete the judgment. The invention utilizes the excellent characteristics of word vectors, realizes the style representation and judgment based on a large number of text corpus, and obtains the judgment result with high credibility; moreover, the implementation process of the invention is simple and has good applicability.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于词向量的文学作品创作年代判定方法
本专利技术属于计算机应用领域，特别涉及一种基于词向量的文学作品创作年代判定方法，具体可以应用在文学和史学等领域未知年代作品的年代识别中。
技术介绍
在自然语言处理领域，文本中单词的表示是一个基础而又重要的技术。近年来，基于神经网络来训练词向量的技术得到了长足的发展，它能把文本中的每一个单词都表示成连续空间中的一个向量。这样一来，词之间的相似性就能够通过向量之间的相似性来衡量。不同于传统的独热表示方法将每一个词表示成不包含语义信息的原子单元，通过词向量技术获得的词语表示包含了丰富的语法和语义信息，因此词向量也被广泛地用来提升许多现有的自然语言处理任务的表现。但是，现有利用词向量的方式，大多是通过为已有的任务生成更好的特征来提升任务表现，并不能够充分利用词向量中所蕴含的丰富的语义和语法信息。在众多训练词向量的技术中，谷歌Mikolov等人开发的word2vec工具凭借着高效性和易用性脱颖而出。具体地，word2vec实现了两个分布式模型：ContinuousBagofWords(CBOW)模型和Skip-gram模型。这两个模型通过利用上下文预测中心词或者利用中心词预测上下文来构建优化目标，最终能获得包含丰富的语义信息的高质量的词向量。Word2vec的输入是训练语料，输出是词表中的每一个单词所对应的向量表示，向量的维度一般在50-1000维。附图1给出了word2vec所实现的CBOW模型和Skip-gram模型的示意图。文本风格分析是应用语言学的一个分支，专门研究文学体裁的各种特征。在十八世纪，法国博物学家布冯最早...

【技术保护点】
1.一种基于词向量的文学作品创作年代判定方法，其特征在于，包括以下步骤：第一步，划分候选年代区间给定一个创作年代未知的文学作品，根据经验大致推测其可能的创作年代范围，将该范围划分为若干互不相交的时间连续的子区间；第二步，构建训练语料针对每一个子区间，收集创作于此时间区间的同体裁的文学作品，将作品集合预处理后得到训练语料；采用同样方法，将待判定作品预处理后也得到对应的训练语料；最终，每一个子区间对应一个训练语料，同时待判定文本对应一个训练语料；第三步，计算时代风格向量对于每一个训练语料，使用word2vec工具训练词向量，并基于训练好的词向量计算对应的时代风格向量；最终得到对应于每一个子区间的时代风格向量和对应于待判定文本的时代风格向量；时代风格向量的计算方式为：采用预处理好的文本分别训练词向量，得到若干个词向量集合和词表；从上述若干个词表中取出共有的前m个词；对于每一个词向量集合，计算m个词所对应的词向量之间的距离后组成一个新的向量，该向量即为该语料所对应的时间子区间的时代风格向量；第四步，对比时代风格向量差异，得出判定结果计算待判定作品的时代风格向量和每一个时代区间对应的时代风格向量...

【技术特征摘要】
1.一种基于词向量的文学作品创作年代判定方法，其特征在于，包括以下步骤：第一步，划分候选年代区间给定一个创作年代未知的文学作品，根据经验大致推测其可能的创作年代范围，将该范围划分为若干互不相交的时间连续的子区间；第二步，构建训练语料针对每一个子区间，收集创作于此时间区间的同体裁的文学作品，将作品集合预处理后得到训练语料；采用同样方法，将待判定作品预处理后也得到对应的训练语料；最终，每一个子区间对应一个训练语料，同时待判定文本对应一个训练语料；第三步，计算时代风格向量对于每一个训练语料，使用word2vec工具训练词向量，并基于训练好的词向量计算对应的时代风格向量；最终得到对应于每一个子区间的时代风格向量和对应于待判定文本的时代风格向量；时代风格向量的计算方式为：采用预处理好的文本分别训练词向量，得到若干个词向量集合和词表；从上述若干个词表中取出共有的前m个词；对于每一个词向量集合，计算m个词所对应的词向量之间的距离后组成一个新的向量，该向量即为该语料所对应的时间子区间的时代风格向量；第四步，对比时代风格向量差异，得出判定结果计算待判定作品的时代风格向量和每一个时代区间对应的时代风格向量的相似度，与待判定作品的时代风格向量最相似的风格向量所对应的时代区间即为最终判定结果；最终判定结果可以是与待判定文本时代风格最相似的一...

【专利技术属性】
技术研发人员：姚念民，王贺，
申请(专利权)人：大连理工大学，
类型：发明
国别省市：辽宁,21

全部详细技术资料下载我是这个专利的主人