当前位置: 首页 > 专利查询>上海大学专利>正文

文本可理解性的度量方法技术

技术编号:3812188 阅读:228 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种文本可理解性的度量方法,它是通过定义单篇文本为一个若干关键词和句子组成的矩阵;再对矩阵中句子之间的关联关系进行计算来度量该文本的可理解性。本发明专利技术其核心是把文本的理解过程看作是对该文本中句子之间关联关系的提取和计算过程,从而来度量文本的可理解性。该方法可以计算文本中句子之间的逻辑关系,从而便于计算机进行处理。本发明专利技术可以为实现基于机器的文本理解提供技术解决方案。

【技术实现步骤摘要】

本专利技术涉及一种文本的可理解性的度量方法,更具体地说,涉及一种计算文本中句子之间的关联关系来度量文本的可理解性的方法。
技术介绍
文本的理解过程离不开对文本句子之间关联关系的提取和计算,句子之间的关联关系越多,文本越容易被理解。本专利技术涉及一种文本的可理解性的度量方法,其核心是依据句子之间逻辑结构来计算文本中句子之间的关联关系权重,从而度量文本的可理解性。 传统的文本分析仅仅停留在语法分析和简单的语义分析的基础之上,很少有基于文本句子之间的逻辑结构来计算句子之间的关联关系,从而度量文本的可理解性。本专利技术从认知科学的关联原理出发对文本的可理解性进行度量,从而为基于机器的文本理解提供技术支持。 本专利技术可以为网络上的搜索引擎、广告推送、电子商务和知识问答系统提供技术解决方案。
技术实现思路
本专利技术的目的在于针对目前机器分析文本的局限性,提供了一种。为实现上述目的,本专利技术的构思是把一篇文本中的关键词,即具有重要意义的名词和动词,提取出来;统计每一个句子中出现和不出现的关键词,计算每两个句子之间的关联关系权重;在判断了多个相连句子之间的逻辑结构之后,计算多个相连句子之间的关联关系权重;最后,累加不同数目的相连句子之间的所有关联关系权重作为该文本的可理解性度量。根据上述的专利技术构思,本专利技术采用下述技术方案 一种,其特征在于如下操作步骤 统计一篇文本中的关键词和句子,所述关键词就是该文本中具有重要含义的名词和动词;根据所述关键词是否在相应的句子上出现计算每两个句子之间的关联关系权重,即用两个句子共同出现的关键词数目除以这两个句子所有关键词的数目,这两个句子可能不相连。 根据多个相连句子之间的逻辑结构,定义了相连句子之间的三种逻辑结构先总后分、先分后总、和一个连一个,来计算多个相连句子之间的关联关系权重,从而度量该文本的可理解性,其特征在于操作如下步骤 1.分别计算三种逻辑结构上的关联关系权重。此时,用最小的两个句子(可能不相连)的关联关系权重作为该结构上多个相连句子之间的关联关系权重; 2.取有最大权值的逻辑结构作为最可能的逻辑结构,它的权重就是该多个相连句子之间的关联关系权重; 3.依据原有的句子排列,把从最小的2个相连句子到所有数目的相连句子之间的所有关联关系权重相加得到该文本的可理解性度量。 具体实施例方式 本专利技术的一个优选实施例如下。本的具体步骤如下 (1)统计一篇文本中的关键词和句子,所述关键词就是该文本中具有重要含义的名词和动词; (2)根据所述关键词是否在相应的句子上出现来计算每两个句子之间的关联关系权重; (3)根据多个相连句子之间的逻辑结构来计算多个相连句子之间的关联关系权重,从而度量该文本的可理解性。 一个实例,一篇文本包括两个关键词Tom(用C1表示)和cup(用C2表示),以及如下三句话,分别用S1、S2和S3表示,则三种逻辑结构的举例如下 1.先总后分 (S1)Tom breaks a cup.(S2)The cup is new.(S3)Tom is careless. 2.先分后总 (S1)Tom is careless.(S2)The cup is new.(S3)Tom breaks a cup. 3.一个连一个 (S1)The cup is new.(S2)Tom breaks a cup.(S3)Tom is careless. 现在一篇文本有如下的三个链接的句子(S1)Tombreaks a cup.(S2)The cup is new.(S3)Tom is careless.我们将通过本专利技术的计算步骤先判断它的逻辑结构,再计算它的关联关系权重,从而度量该文本的可理解性。 1.提取关键词Tom(用C1表示)和cup(用C2表示)。 2.计算每两个句子(可能不相连)之间的关联关系权重,即s1→s2=0.5,s2→s3=0,s1→s3=0.5。 3.计算三个句子之间的关联关系权重,并计算该文本的可理解性,具体三个如下步骤 分别计算三种逻辑结构上的三个相连句子之间的关联关系权重, 即, a)若取逻辑结构为先分后总,则三个句子之间的关联关系权重为 b)若取逻辑结构为先总后分,则三个句子之间的关联关系权重为 此时,为了计算多个相连句子之间的关联关系 权重需要用到两个不相连句子之间的关联关系s1→s3; c)若取逻辑结构为一个连一个,则三个句子之间的关联关系权重为此时,为了计算多个相连句子之间的关联关系权重需要用到两个不相连句子之间的关联关系s1→s3; 取最大权重的逻辑结构作为三个相连句子之间的逻辑结构,其权重就是该三个相连句子之间的关联关系权重,即取先总后分的关联关系s1→s2s3=0.5,这与实际的情况相符合。 累加所有相连句子数目上的关联关系权重,作为该文本的可理解性度量,记为(s1→s2)+(s2→s3)+(s1→s2s3)=0.5+0+0.5=1。此时关联关系s1→s3不在累加和之中,是由于句子1和句子3之间并不直接相连。三个句子之间的不同顺序会影响逻辑结构的判断,以至于影响最后的文本可理解性的度量,这与实际的情况吻合。权利要求1.一种,其特征在于操作步骤如下(1)统计一篇文本中的关键词和句子,所述关键词就是该文本中具有重要含义的名词和动词;(2)根据所述关键词是否在相应的句子上出现来计算每两个句子之间的关联关系权重;(3)根据多个相连句子之间的逻辑结构来计算多个相连句子之间的关联关系权重,从而度量该文本的可理解性。2.根据权利要求1所述的,其特征在于所述步骤(2)中的两个句子之间的关联关系权重是用两个句子共同出现的所述关键词数目除以这两个句子所有关键词的数目。3.根据权利要求1所述的,其特征在于所述步骤(3)中的多个相连句子之间的逻辑结构定义为多个相连句子之间的三种逻辑结构先总后分、先分后总、和一个连一个。4.根据权利要求3所述的,其特征在于所述步骤(3)中的计算多个相连句子之间的关联关系权重的步骤为(1)计算多个相连句子中的每两个句子之间的关联关系权重,这两个句子可能不相连;(2)分别计算所述三种逻辑结构上的关联关系权重,此时用最小的两个句子的关联关系权重作为该结构上多个相连句子之间的关联关系权重;(3)取有最大权值的逻辑结构作为最可能的逻辑结构,它的权重就是该多个相连句子之间的关联关系权重。5.根据权利要求4所述的,其特征在于由所述步骤(3)中所得的多个相连句子之间的关联关系权重,把不同数目的相连句子之间的所有关联关系权重相加就得到该文本的可理解性度量。6.根据权利要求5所述的,其特征在于所述不同数目的相连句子依据原有的句子排列,不同数目的句子是指前后连接的句子。7.根据权利要求5所述的,其特征在于依据原有的句子排列,所述不同数目的句子是指相前后连接的句子。全文摘要本专利技术涉及一种,它是通过定义单篇文本为一个若干关键词和句子组成的矩阵;再对矩阵中句子之间的关联关系进行计算来度量该文本的可理解性。本专利技术其核心是把文本的理解过程看作是对该文本中句子之间关联关系的提取和计算过程,从而来度量文本的可理解性。该方法可以计算文本中句子之间的逻辑关系,从而便于本文档来自技高网...

【技术保护点】
一种文本可理解性的度量方法,其特征在于操作步骤如下: (1)统计一篇文本中的关键词和句子,所述关键词就是该文本中具有重要含义的名词和动词; (2)根据所述关键词是否在相应的句子上出现来计算每两个句子之间的关联关系权重; ( 3)根据多个相连句子之间的逻辑结构来计算多个相连句子之间的关联关系权重,从而度量该文本的可理解性。

【技术特征摘要】

【专利技术属性】
技术研发人员:骆祥峰方宁徐炜民刘方方
申请(专利权)人:上海大学
类型:发明
国别省市:31[中国|上海]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1