一种语句自动排序方法及装置制造方法及图纸

技术编号:19691985 阅读:33 留言:0更新日期:2018-12-08 11:13
本发明专利技术提供了一种语句自动排序方法及装置,其中,该方法包括:对文档集进行断句预处理,获得语句合集;对语句合集进行训练获得词向量词典,结合预设的同义词词林对所述词向量进行聚类;基于条件熵算法,结合词向量聚类结果,得到语句合集中语句间的邻近度;采用马尔科夫随机游走模型来实现对语句合集中语句的排序。本发明专利技术语义分析方法可实现对文本语句逻辑性的自动评判,提高评判效率、减少评判误差,并且可降低数据稀疏的影响,提高语句排序结果生成的效率。

【技术实现步骤摘要】
一种语句自动排序方法及装置
本专利技术涉及计算机
,具体的,涉及一种语句自动排序方法及装置。
技术介绍
随着互联网技术的迅速发展,中文作文的自动评分研究逐渐兴起,对于提高作文的评分效率,从根本上消除作文评价的不一致,控制评分误差具有十分重要的意义。由于中文语言逻辑的复杂程度大,现有的研究对作文评测大多从词汇使用、语法、表达、作文长度、关联词使用、修辞手法的运用、文章主题一致性等角度而进行评测,并未涉及作文内部逻辑合理性评测。但是,在作文评测中,逻辑合理性同样是评价语言运用能力的一项重要指标。文本中句间的逻辑合理表现在句子组织顺序合理,这样的文本具有很好的可读性。现有技术中,关于句子排序的研究主要出现在文本自动摘要领域中,文本自动摘要领域内的句子排序任务,主要是将人工已写好的且打乱顺序的文档摘要句集或机器选择的摘要候选句集组织为合理并且可读的文摘。现有的研究大致可划分成以下几类:一、利用句中时间信息确定句子顺序:以句子在语料中出现的时间为依据进行排序,例如新闻语料中,抽取句子内部的时间信息,再辅助排序算法对句子进行排序;二、从文档集合中句间的蕴含关系确定句子顺序:该方法从句子内部实体在句间的转移、事件标签的延续状态、主题转移等方面挖掘句间所蕴含的逻辑关系;三、从依托大型的语料,挖掘内部句子的自然顺序:该方法在词汇的基础上,计算相邻句子间的邻近度,估计句子构成前后句对的条件概率,得到排序结果。但以上研究还存在诸多问题,对于第一、第二类研究,其问题主要是:利用时间信息、句间的继承关系、句子主题等方法,具有较大的局限性,无法对不包含这些特定信息的文本进行句子排序;另外由于机器对自然语言理解的不足,依托主题词、时间词及隐含的时间识别、隐形的关联词挖掘也是一大困难。对于第三类研究,其不足主要是:依托大型的语料计算句对之间的词语搭配,参数空间大,容易出现数据稀疏的问题,不利于后续的邻近度计算。
技术实现思路
针对现有技术中存在的问题,本专利技术提供一种语句自动排序方法,包括:(1)对文档集进行断句预处理,获得语句合集;(2)对所述语句合集进行训练获得词向量词典,结合预设的同义词词林对所述词向量进行聚类;(3)基于条件熵算法,结合所述词向量聚类结果,计算所述语句合集中句对间词语的逻辑性搭配信息,从而得到所述语句合集中语句间的邻近度。进一步的,所述条件熵算法的计算公式如下:其中,H(Sm|Sm-1)为所述语句合集中相邻两语句间条件熵的值,Sm与Sm-1为相邻的两个语句,m为所述语句合集中语句的顺序编号且m为正整数并大于等于2小于等于n,n为所述语句合集中语句的总数;wi为Sm-1中出现的词,wj为Sm中出现的词,其中,i、j取正整数;p(wiwj)是wi,wj共同出现的概率,p(wj|wi)是条件概率。进一步的,采用基于神经网络的可从整体递归得到全局信息并决定其中任一节点重要性的算法来实现对所述语句合集中的语句的排序。进一步的,所述神经网络算法基于马尔科夫随机游走模型。进一步的,将所述词向量聚类为500-1500类。进一步的,所述预设的同义词词林中同义词的个数在7000类以上。进一步的,所述语句自动排序方法还包括对所述语句的排序结果的评测步骤,所述评测步骤基于ROUGE-L对所述语句的排序结果进行评分。进一步的,所述ROUGE-L评分的阈值设为0.6,即将所述文档的真实语句排序结果与所述语句自动排序方法的语句排序结果比较,若所述ROUGE-L评分大于或等于阈值,则两者排序结果是相似的。进一步的,对所述语句合集进行划分,划分为若干包含2-3个语句的语句块合集;首先,基于条件熵算法,结合所述词向量聚类结果,计算所述语句块合集中相邻的语句块之间词语的逻辑性搭配信息,从而得到所述语句块合集中语句块间的邻近度;然后,基于条件熵算法,结合所述词向量聚类结果,计算每一所述语句块中的句对间词语的逻辑性搭配信息,从而得到每一所述语句块中的语句间的邻近度。本专利技术还提供一种语句自动排序的生成装置,包括:文档预处理模块,用于对文档集进行语句切分,得到所述文档集对应的语句合集;词向量聚类模块,用于对所述语句合集进行训练,获得词向量词典,并结合预设的同义词词林对所述词向量进行聚类;邻近度计算模块,基于条件熵算法,结合所述词向量的聚类结果,计算所述语句合集中句对间词语的逻辑性搭配信息,从而得到所述语句合集中语句间的邻近度;排序结果生成模块,用于根据所述语句的邻近度计算结果,利用马尔科夫随机游走模型对所述语句进行排序,获得排序结果。本专利技术的有益之处在于:(1)本专利技术的语义分析方法可实现对文本语句逻辑性的自动评判,提高评判效率、减少评判误差。(2)本专利技术采用非监督的方法,对较大数量的语料和较小数量的语料均具有较优的通用性。(3)本专利技术利用马尔科夫随机游走模型对句子进行排序,算法效率高、排序结果更可靠。(4)本专利技术利用词向量在语义上对词语进行划分与聚类,可降低数据稀疏的影响,提高计算效率。(5)本专利技术结合同义词词林可降低自动聚类的不准确性、优化句子排序结果。(6)本专利技术的语句自动排序中利用将段落拆分为句子块的方法,可取得更为合理的语句自动排序效果。附图说明为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术语句自动排序方法的流程图;图2为本专利技术语句自动排序装置的结构示意图;具体实施方式下面将结合附图对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。在本专利技术的描述中,需要说明的是,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件;句对指的是语句合集中相邻的两个语句。参见图1为根据本专利技术一个实施例的语句自动排序方法的流程图,该语句自动排序方法包括以下步骤:(1)从网络上各个作文网站获取中小学人物类作文语料16329篇,另外获取了其他类别作文109404篇,获取共计125733篇文档的文档集,对所述文档集进行断句的预处理,获得语句合集;(2)对所述语句合集通过进行训练,获得词向量词典,结合预设的同义词词林对所述词向量进行聚类。其中,所述词向量优选地通过word2vec进行训练,获得共计79770个词的词向量词典;所述预设的同义词词林中同义词的个数在7000类以上,更优选为《哈工大信息检索研究室同义词词林扩展版》,其共涉及11769类同义词;优选地将所述词向量聚类为500-1500类,更优选地将所述词向量聚类为1500类。(3)基于条件熵算法,结合所述词向量的聚类结果,计算所述语句合集中句对间词语的逻辑性搭配信息,从而得到所述语句合集中语句间的邻近度,条件熵算法的计算公式如下:其中,H(Sm|Sm-1)为所述语句合集中相邻两语句间条件熵的值,Sm与Sm-1为相邻的两个语句,m为所述语句合集中语句的顺序编号且m为正整数并大于等于2小于等于n,n为本文档来自技高网
...

【技术保护点】
1.一种语句自动排序方法,其特征在于,包括:(1)对文档集进行断句预处理,获得语句合集;(2)对所述语句合集进行训练获得词向量词典,结合预设的同义词词林对所述词向量进行聚类;(3)基于条件熵算法,结合所述词向量聚类结果,计算所述语句合集中句对间词语的逻辑性搭配信息,从而得到所述语句合集中语句间的邻近度。

【技术特征摘要】
1.一种语句自动排序方法,其特征在于,包括:(1)对文档集进行断句预处理,获得语句合集;(2)对所述语句合集进行训练获得词向量词典,结合预设的同义词词林对所述词向量进行聚类;(3)基于条件熵算法,结合所述词向量聚类结果,计算所述语句合集中句对间词语的逻辑性搭配信息,从而得到所述语句合集中语句间的邻近度。2.根据权利要求1中所述的语句自动排序方法,其特征在于,所述条件熵算法的计算公式如下:其中,H(Sm|Sm-1)为所述语句合集中相邻两语句间条件熵的值,Sm与Sm-1为相邻的两个语句,m为所述语句合集中语句的顺序编号且m为正整数并大于等于2小于等于n,n为所述语句合集中语句的总数;wi为Sm-1中出现的词,wj为Sm中出现的词,其中,i、j取正整数;p(wiwj)是wi,wj共同出现的概率,p(wj|wi)是条件概率。3.根据权利要求1所述的语句自动排序方法,其特征在于,采用基于神经网络的可从整体递归得到全局信息并决定其中任一节点重要性的算法来实现对所述语句合集中的语句的排序。4.根据权利要求3所述的语句自动排序方法,其特征在于,所述神经网络算法基于马尔科夫随机游走模型。5.根据权利要求1所述的语句自动排序方法,其特征在于,将所述词向量聚类为500-1500类。6.根据权利要求1所述的语句自动排序方法,其特征在于,所述预设的同义词词林中同义词的个数在7000类以上。7.根据权利要求3中所述的语句自动排序方法,其特征在于,所...

【专利技术属性】
技术研发人员:刘杰骆力明周建设史金生袁克柔
申请(专利权)人:首都师范大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1