一种基于词向量的文学作品创作年代判定方法技术

技术编号:18913462 阅读:35 留言:0更新日期:2018-09-12 02:56
本发明专利技术属于计算机应用领域,公开了一种基于词向量的文学作品创作年代判定方法,利用创作于不同年代的作品在时代风格上的差异来判定作品的创作年代。过程如下:将待判定文本的年代限定到若干候选年代区间,收集对应于待判定文本和每一个候选年代区间的语料;使用收集到的语料基于神经网络语言模型训练词向量;利用收集到的若干语料计算可以表征语料所属年代的写作风格的时代风格向量;通过对比各个年代风格向量的差异来找出和待判定文本写作风格最相似的年代以完成判定。本发明专利技术利用词向量的优良特性,基于大量文本语料来实现风格的表征和判定,得到的判定结果具有较高的可信度;另外,本发明专利技术的实施流程简便,具有良好的适用性。

A method of dating literary works based on word vector

The invention belongs to the field of computer application, and discloses a method for judging the creation age of literary works based on word vectors, which determines the creation age of literary works by utilizing the differences in the time style of the works created in different ages. The process is as follows: defining the age of the text to be determined to several candidate ages, collecting corpus corresponding to the text to be determined and each candidate age interval; training word vectors based on the neural network language model using the collected corpus; calculating the writing of the corpus which can represent the age of the corpus. Style of the times style vector; by comparing the differences of style vectors of different ages to find out the most similar writing style of the text to determine the age to complete the judgment. The invention utilizes the excellent characteristics of word vectors, realizes the style representation and judgment based on a large number of text corpus, and obtains the judgment result with high credibility; moreover, the implementation process of the invention is simple and has good applicability.

【技术实现步骤摘要】
一种基于词向量的文学作品创作年代判定方法
本专利技术属于计算机应用领域,特别涉及一种基于词向量的文学作品创作年代判定方法,具体可以应用在文学和史学等领域未知年代作品的年代识别中。
技术介绍
在自然语言处理领域,文本中单词的表示是一个基础而又重要的技术。近年来,基于神经网络来训练词向量的技术得到了长足的发展,它能把文本中的每一个单词都表示成连续空间中的一个向量。这样一来,词之间的相似性就能够通过向量之间的相似性来衡量。不同于传统的独热表示方法将每一个词表示成不包含语义信息的原子单元,通过词向量技术获得的词语表示包含了丰富的语法和语义信息,因此词向量也被广泛地用来提升许多现有的自然语言处理任务的表现。但是,现有利用词向量的方式,大多是通过为已有的任务生成更好的特征来提升任务表现,并不能够充分利用词向量中所蕴含的丰富的语义和语法信息。在众多训练词向量的技术中,谷歌Mikolov等人开发的word2vec工具凭借着高效性和易用性脱颖而出。具体地,word2vec实现了两个分布式模型:ContinuousBagofWords(CBOW)模型和Skip-gram模型。这两个模型通过利用上下文预测中心词或者利用中心词预测上下文来构建优化目标,最终能获得包含丰富的语义信息的高质量的词向量。Word2vec的输入是训练语料,输出是词表中的每一个单词所对应的向量表示,向量的维度一般在50-1000维。附图1给出了word2vec所实现的CBOW模型和Skip-gram模型的示意图。文本风格分析是应用语言学的一个分支,专门研究文学体裁的各种特征。在十八世纪,法国博物学家布冯最早提出了“风格即人”的观点,也就是说一个作品的风格取决于作者是一个什么样的人。但是,一个多产的作家也可能会写出风格迥异的作品。在分析文本风格的时候,我们不仅需要关注文本的内部特征,还要关注文本的宏观结构和创作背景。随着计算语言学的发展,基于统计学的方法开始被广泛地应用于文本风格分析,这主要体现在很多文本统计特征比如词频、词长和句长等被用来分析文本风格。此外,一些高级的自然语言处理技术比如词性标注(POStagging)、风格标记(stylemarkers)和一些先进的分类算法也开始被用来分析文本风格。但是,现有的一些方法大多存在着流程复杂、通用性差的缺点。文本风格分析的具体应用场景一般包括文本体裁判定、作品作者识别和作品年代判定等。在早期,一些学者主要根据自己的主观经验来判定一个待判定文本的创作年代,通过查证文献资料并加上主观分析得出结论,这样得出的判定结果经常具有较强的主观性,而且不可量化。基于词向量技术来进行作品创作年代判定,可以利用大量的训练语料所包含的语言的语义和语法信息,并且充分利用词向量所具备的优良特性,最终以简单有效的方式获得判定结果。
技术实现思路
为了解决现有的文学作品年代判定方法存在的问题,本专利技术提供了一种高效简单的基于词向量的判定文学作品创作年代的方法,首先利用词向量技术来表征创作于不同年代的作品的时代风格,然后通过对比时代风格的差异来判定作品的创作年代。为了达到上述目的,本专利技术的技术方案为:一种基于词向量的文学作品创作年代判定方法,包括以下步骤:第一步,划分候选年代区间给定一个创作年代未知的文学作品,先大致推测其可能的创作年代范围,然后将这个范围划分为若干互不相交的时间连续的子区间。所述的待判定作品可以是文学、史学、医学等各个领域的文献。第二步,构建训练语料针对每一个子区间,收集创作于此时间区间的同体裁的文学作品,将作品集合预处理后得到训练语料;采用同样方法,将待判定作品预处理后也得到对应的训练语料。最终,每一个年代区间对应一个训练语料,同时待判定文本对应一个训练语料。在对原始语料进行预处理时,对于现代汉语的语料,采取正常分词策略;对于古汉语语料采取单字词分词策略第三步,计算时代风格向量对于每一个训练语料,使用word2vec工具训练词向量,并基于训练好的词向量计算对应的“时代风格向量”。最终得到对应于每一个年代子区间的时代风格向量和对应于待判定文本的时代风格向量。时代风格向量的计算方式为:先使用预处理好的文本分别训练词向量,得到若干个词向量集合和词表;然后从这若干个词表中取出共有的前m个词;对于每一个词向量集合,计算m个词所对应的词向量之间的距离后组成一个新的向量,这个向量就是该语料所对应的时间子区间的时代风格向量。其中,距离的度量可以采取欧氏距离、余弦距离等多种方式。第四步,对比时代风格向量差异,得出判定结果计算待判定作品的时代风格向量和每一个时代区间对应的时代风格向量的相似度,最终和待判定作品的时代风格向量最相似的风格向量所对应的时代区间即为最终判定结果。附图2给出了本专利技术的技术方案图。最终判定结果可以是与待判定文本时代风格最相似的一个时间子区间,也可以是若干个子区间;多个子区间的输出顺序根据子区间的时代风格向量和待判定文本的时代风格向量的相似度由高到低或由低到高排序。其中,相似性的度量采用余弦相似度。本专利技术的有益效果为:充分利用了词向量的优良特性,通过捕获大量语料中所包含的语言的语义和语法信息来判定文学作品的创作年代。由于最终的结果是利用了大量的文本数据,所以可信度更高。此外,本专利技术的实施流程较为简便,具有良好的适用性。附图说明图1word2vec的CBOW模型和Skip-gram模型示意图。图2基于词向量判定文学作品创作年代技术方案图。图3计算时代风格向量算法流程图。图4基于时代风格向量判定文本年代流程图。具体实施方式所述的具体实施例仅用于说明本专利技术的实现方式,而不限制本专利技术的范围。下面结合附图对本专利技术的实施方式进行详细说明。如附图2所示,总体的实施流程包括四个步骤,以下是针对每一步骤的详细说明:第一步,划分候选年代区间给定一个创作年代未知的文学作品,记为L;将L的创作年代限定到某一个时间范围内,这个时间范围记为P;将P分成若干个在时间上互不重叠的子区间,记为P={p1,p2,…,pi,…,pn}。最终,任务的目标就变为从P中选出一个子区间作为L的创作年代。在划分子区间的时候尽量利用现有经验,划分出较为合理的候选区间。第二步,构建训练语料针对P中的每一个子区间,构建对应的训练语料集合T={T1,T2,…,Ti,…,Tn}。具体的,针对P中任一子区间pi,它对应的训练语料构建过程如下:(1)搜集和L体裁相同并且同样创作于pi的作品作为构建训练语料的原始文本。(2)对原始文本预处理,主要包括:文本清洗和分词处理。文本清洗主要是去除与内容无关的字符,并且去除标点符号。分词处理主要是针对中文文本,把句子切割成用空格分隔的词语。对于现代汉语文本,可以利用现有的标注好的现代汉语语料和分词工具(如结巴分词)对其进行分词处理。由于没有标注好的古汉语语料库,并且使用基于现代汉语语料进行训练得到的分词模型对古汉语进行分词的效果并不理想。同时考虑到古汉语单字词出现的频次较高,因此对于古汉语文本,一般采用基于单字词的分词方案,即把一个汉字作为一个词。最终训练语料的形式是一个仅由空格分隔的词语组成的文本。通过对作品L进行预处理,可以得到L对应的训练语料,记为TL。一般地,TL的规模越大,T包含的语料的规模越大,后续训练出的词向量所包含的信本文档来自技高网
...

【技术保护点】
1.一种基于词向量的文学作品创作年代判定方法,其特征在于,包括以下步骤:第一步,划分候选年代区间给定一个创作年代未知的文学作品,根据经验大致推测其可能的创作年代范围,将该范围划分为若干互不相交的时间连续的子区间;第二步,构建训练语料针对每一个子区间,收集创作于此时间区间的同体裁的文学作品,将作品集合预处理后得到训练语料;采用同样方法,将待判定作品预处理后也得到对应的训练语料;最终,每一个子区间对应一个训练语料,同时待判定文本对应一个训练语料;第三步,计算时代风格向量对于每一个训练语料,使用word2vec工具训练词向量,并基于训练好的词向量计算对应的时代风格向量;最终得到对应于每一个子区间的时代风格向量和对应于待判定文本的时代风格向量;时代风格向量的计算方式为:采用预处理好的文本分别训练词向量,得到若干个词向量集合和词表;从上述若干个词表中取出共有的前m个词;对于每一个词向量集合,计算m个词所对应的词向量之间的距离后组成一个新的向量,该向量即为该语料所对应的时间子区间的时代风格向量;第四步,对比时代风格向量差异,得出判定结果计算待判定作品的时代风格向量和每一个时代区间对应的时代风格向量的相似度,与待判定作品的时代风格向量最相似的风格向量所对应的时代区间即为最终判定结果;最终判定结果可以是与待判定文本时代风格最相似的一个时间子区间,也可以是若干个子区间;多个子区间的输出顺序根据子区间的时代风格向量和待判定文本的时代风格向量的相似度由高到低或由低到高排序。...

【技术特征摘要】
1.一种基于词向量的文学作品创作年代判定方法,其特征在于,包括以下步骤:第一步,划分候选年代区间给定一个创作年代未知的文学作品,根据经验大致推测其可能的创作年代范围,将该范围划分为若干互不相交的时间连续的子区间;第二步,构建训练语料针对每一个子区间,收集创作于此时间区间的同体裁的文学作品,将作品集合预处理后得到训练语料;采用同样方法,将待判定作品预处理后也得到对应的训练语料;最终,每一个子区间对应一个训练语料,同时待判定文本对应一个训练语料;第三步,计算时代风格向量对于每一个训练语料,使用word2vec工具训练词向量,并基于训练好的词向量计算对应的时代风格向量;最终得到对应于每一个子区间的时代风格向量和对应于待判定文本的时代风格向量;时代风格向量的计算方式为:采用预处理好的文本分别训练词向量,得到若干个词向量集合和词表;从上述若干个词表中取出共有的前m个词;对于每一个词向量集合,计算m个词所对应的词向量之间的距离后组成一个新的向量,该向量即为该语料所对应的时间子区间的时代风格向量;第四步,对比时代风格向量差异,得出判定结果计算待判定作品的时代风格向量和每一个时代区间对应的时代风格向量的相似度,与待判定作品的时代风格向量最相似的风格向量所对应的时代区间即为最终判定结果;最终判定结果可以是与待判定文本时代风格最相似的一...

【专利技术属性】
技术研发人员:姚念民王贺
申请(专利权)人:大连理工大学
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1