文景转换中基于词典的名词可视性标注方法、介质及系统技术方案

技术编号:23099307 阅读:45 留言:0更新日期:2020-01-14 20:38
本发明专利技术请求保护文景转换中基于词典的名词可视性标注方法、介质及系统、介质及系统。该方法包括:步骤一,构建名词的可视化结构;步骤二,从可视化角度和实体角度分别对名词进行分类;步骤三,分析名词一般分类和可视性分类的关系,形成名词的可视性判别规则;步骤四,根据可视性判别规则,构建名词可视性词典;步骤五,依据名词可视性词典判别名词的可视性,并对名词进行可视性标注。本发明专利技术解决了当前文景转换研究中名词可视性分析以及名词可视性标注的问题。

【技术实现步骤摘要】
文景转换中基于词典的名词可视性标注方法、介质及系统
本专利技术属于计算机信息处理
,具体属于文景转换中的可视化领域。
技术介绍
文景转换是让计算机理解文本,并将文本转换成图片、三维静态场景及动画等。文景转换包括三个部分,一是理解文本,对文本进行自然语言处理,并进行信息的提取,提取出我们需要可视化的信息;二是将提取出的信息映射到模型或者图片;三是将这些模型进行组合和场景的渲染,让生成的场景更符合文本的描述。文景转换也可称为可视化自然语言描述,自然语言是描述视觉观念和心理意象的一种简单而有效的媒介,对它进行可视化是一项艰巨而复杂的任务。在处理由自然语言描述生成图像的过程中,首先要考虑真实世界,并从虚拟和真实环境中代表最基本概念的句子中找出关键的视觉信息。文本中关键视觉信息包括:实体,事件,动作,地点,时间等要素,这些要素在文本中体现为名词,动词,形容词等,其中名词是所有词中数量最多,担任句子成分最多的词,且是可视化要素中最基本的,所以对名词可视性的研究是必要的。本文针对名词的可视性进行研究,构建名词可视性结构体系,基于结构体系提出可视化名词识别与抽取的方法,减少文本中的干扰数据,同时,也希望名词可视性结构体系的提出,为之后对文本的可视化提供理论和技术方案基础,以及对文本要素的抽取提供理论参考。现有的文景转换方式对文本名词的处理采用模型库匹配法或人工筛选法,不能将所有可视化的名词直接提取出,本专利技术通过计算机的可视性词典判别出名词的可视性类别,减少人工耗时,也更加准确,使得文本的主题更加的突出和明朗;同时,可视性类别的判别也给名词的可视化带来不一样的可视化方式,减小传统模型库的规模。
技术实现思路
本专利技术旨在解决以上现有技术的问题。提出了一种减少人工耗时,也更加准确的文景转换中基于词典的名词可视性标注方法、介质及系统。本专利技术的技术方案如下:文景转换中基于词典的名词可视性标注方法,用于计算机自然语言的文景转换场景,其包括以下步骤:步骤1、计算机构建名词的可视化结构,所述可视化结构包括名词可视化的转换结构以及转换规则的约束;步骤2、计算机从实体角度和可视性角度分别对名词进行分类;步骤3、计算机分析名词实体分类和可视性分类的关系,形成名词的可视性判别规则;步骤4、计算机根据可视性判别规则,构建名词可视性词典,利用大量语料训练对词典进行扩充;步骤5、计算机利用步骤4中的可视性词典,自动对文本中的名词进行可视性的判别,并进行可视性标注。进一步的,所述步骤1中构建名词的一般可视化结构包括:名词的可视化是名词形成的逆过程,是名词到世界可见实体的转换,名词的可视化结构为:Vn=f(E1,E2,...,En)Vn表示可视化名词,E表示最终呈现的可视化实体,一个名词可由一个至多个实体进行可视化展示,f是人类认知的逆过程,是名词转换到实体的一般规则,此规则可随着名词类别和名词所处文本环境进行变化。进一步的,所述步骤2中,从实体角度和可视化角度分别对名词进行分类,包括:(1)从实体角度对名词的分类:从名词与实体的联系进行名词的分类,将名词分为实体名词和非实体名词,设N表示所有名词集合,N1表示实体名词集合,N2表示非实体名词集合,则有:N1∪N2=N,N1∩N2=φ,(n1,....,ni)∈N1,(n1,...,ni)∈N2;(2)从可视化的角度对名词进行分析,将名词划分为可视化名词和非可视化名词,可视化名词从可视化的步骤和复杂度又可分为直接可视化名词和间接可视化名词,设N表示所有名词集合,Vn表示可视化名词集合,NVn表示非可视化名词集合,Vnd表示直接可视化名词集合,Vnid表示间接可视化名词集合,则有:Vn∪NVn=N,Vn∩NVn=φ,Vnd∪Vnid=Vn,Vnd∩Vnid=φ。进一步的,所述步骤3)计算机依据名词的可视化结构,分析实体名词分类和名词可视化分类的关系,形成名词的可视性判别规则,包括:结合名词的可视化结构和实体的传统三元组结构分析得到如下判别规则:设N是一个名词,f是名词到实体的转换规则:N=f(E1(c,a(str,tet,col,si),v(strv,tetv,colv,siv)),...)其中:(1):f为简单规则,strv>0,tetv>0,400nm<colv<770nm,siv>0.02mm时,名词N是直接可视化名词;(2):f为简单规则,str,tet,col,si中任一值未知或不存在,或si<0.02mm,colv<400nm,colv>760nm时,名词N是间接可视化名词(3):f是复杂多次规则时,名词N是间接可视化名词;(4):不存在f规则时,名词N是非可视化名词;c代表实体的基本概念域;a表示实体的可视化属性;v表示相对于可视化属性而言的属性值;tet表示实体的纹理属性,col表示实体的颜色属性,si表示实体的尺寸,strv表示实体的结构属性值,tetv表示实体的纹理属性值,colv表示实体的颜色属性值,siv表示实体的尺寸属性值。(1)进一步的,所述步骤4)中,计算机依据名词可视性的判别规则,构建名词可视性判别词典,包括:(1)可视性词典采用下述格式:词典由三个txt文本构成,这三个文本分别存储直接可视化名词,间接可视化名词,非可视化名词,每个文件的每行存储一个名词,名词以字典序进行排列;(2)以现代汉语词典为语料,使用中科院的语义分析系统对词典内的词进行词性标注,筛选出所有名词,形成初步名词集,以步骤3的名词可视性判别规则为基础,对名词集内的名词进行可视性分类,可视性词典初步构建完成;(3)利用现有知识库进行相似度的计算对词典进行扩充,再利用大量语料和词典内的词进行训练,对词典进行二次扩充进一步的,所述步骤5中,利用步骤4中的名词可视性词典对文本中的名词进行可视性标注,将文本通过分词,提取名词后,进入词典查询,词典内存在该名词则直接标注可视性,词典内不存在该名词,则与词典内的名词进行词语相似度比较,对文本中的名词进行可视性的标注,直接可视化名词标注为:din,间接可视化名词标注为:idin,不可可视化名词标注为:novn。一种介质,该介质内部存储计算机程序,其所述计算机程序被处理器读取时,执行上述权利要求任一项的方法。一种文景转换中基于词典的名词可视性标注系统,用于计算机自然语言的文景转换场景,其包括:可视化结构构建模块:用于构建名词的可视化结构,所述可视化结构包括名词可视化的转换结构以及转换规则的约束分类模块:用于计算机从实体角度和可视性角度分别对名词进行分类;规则构建模块:用于计算机分析名词实体分类和可视性分类的关系,形成名词的可视性判别规则;可视性词典构建模块:用于计算机根据可视性判别规则,构建名词可视性词典;可视性标注模块:用于利用可视性词典对名词进行可视性标注。本专利技术的优点及有益效果如下:本专利技术的具本文档来自技高网
...

【技术保护点】
1.文景转换中基于词典的名词可视性标注方法,用于计算机自然语言的文景转换场景,其特征在于,包括以下步骤:/n步骤1、计算机构建名词的可视化结构,所述可视化结构包括名词可视化的转换结构以及转换规则的约束;/n步骤2、计算机从实体角度和可视性角度分别对名词进行分类;/n步骤3、计算机分析名词实体分类和可视性分类的关系,形成名词的可视性判别规则;/n步骤4、计算机根据可视性判别规则,构建名词可视性词典,利用大量语料训练对词典进行扩充;/n步骤5、计算机利用步骤4中的可视性词典,自动对文本中的名词进行可视性的判别,并进行可视性标注。/n

【技术特征摘要】
1.文景转换中基于词典的名词可视性标注方法,用于计算机自然语言的文景转换场景,其特征在于,包括以下步骤:
步骤1、计算机构建名词的可视化结构,所述可视化结构包括名词可视化的转换结构以及转换规则的约束;
步骤2、计算机从实体角度和可视性角度分别对名词进行分类;
步骤3、计算机分析名词实体分类和可视性分类的关系,形成名词的可视性判别规则;
步骤4、计算机根据可视性判别规则,构建名词可视性词典,利用大量语料训练对词典进行扩充;
步骤5、计算机利用步骤4中的可视性词典,自动对文本中的名词进行可视性的判别,并进行可视性标注。


2.根据权利要求1所述的文景转换中基于词典的名词可视性标注方法,其特征在于,所述步骤1中构建名词的可视化结构包括:名词的可视化是名词形成的逆过程,是名词到世界可见实体的转换,名词的可视化结构为:
Vn=f(E1,E2,...,En)
Vn表示可视化名词,E表示最终呈现的可视化实体,一个名词可由一个至多个实体进行可视化展示,f是人类认知的逆过程,是名词转换到实体的一般规则,此规则可随着名词类别,句子成分,搭配词及名词所处文本语境进行变化。
f<cg,ps,wc,ct>
cg表示名词的类别,ps表示名词所处的句子成分,wc表示名词的搭配词,ct表示语境。


3.根据权利要求1所述的文景转换中基于词典的名词可视性标注方法,其特征在于,所述步骤2中,从实体角度和可视化角度分别对名词进行分类,包括:
(1)从实体角度对名词的分类:从名词与实体的联系进行名词的分类,将名词分为实体名词和非实体名词,设N表示所有名词集合,N1表示实体名词集合,N2表示非实体名词集合,则有:N1∪N2=N,N1∩N2=φ,(n1,....,ni)∈N1,(n1,...,ni)∈N2;
(2)从可视化的角度对名词进行分析,将名词划分为可视化名词和非可视化名词,可视化名词从可视化的步骤和复杂度又可分为直接可视化名词和间接可视化名词,设N表示所有名词集合,Vn表示可视化名词集合,NVn表示非可视化名词集合,Vnd表示直接可视化名词集合,Vnid表示间接可视化名词集合,则有:Vn∪NVn=N,Vn∩NVn=φ,Vnd∪Vnid=Vn,Vnd∩Vnid=φ。


4.根据权利要求3所述的文景转换中基于词典的名词可视性标注方法,其特征在于,所述步骤3)计算机依据名词的可视化结构,分析实体名词分类和名词可视化分类的关系,形成名词的可视性判别规则,包括:结合名词的可视化结构和实体的传统三元组结构分析得到如下判别规则:
设N是一个名词,f是名词到实体的转换规则:
N=f(E1(c,a(str,tet,col,si),v(strv,tetv,colv,siv)),...)
其中:
(1):f为简单规则,strv>...

【专利技术属性】
技术研发人员:杨富平程茜
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1