语义表达生成方法、语义表达生成装置、以及记录介质制造方法及图纸

技术编号:39308559 阅读:11 留言:0更新日期:2023-11-12 15:55
本发明专利技术提供一种生成能够比以往更适当且充分地表达自然语言数据中的词语的语义和句子的语义的语义表达数据的语义表达生成方法、语义表达生成装置、以及记录介质。在语义表达生成方法中,通过对由自然语言记述的文本数据进行表层的解析而生成语法数据。参照针对词类而记录有层次性且多义性地表达词素的语义的概念信息的CT体系表格,并基于语法数据,对每个词素赋予概念标签。基于语法数据,对相当于述语的第一句节/连句节和相对于该述语具有修饰关系的第二句节/连句节所成的第一对,赋予示出表示二者之间的语义关系的语义信息的第一语义标签。基于对每个词素赋予的概念标签和对第一对赋予的第一语义标签,来生成语义表达数据。数据。数据。

【技术实现步骤摘要】
语义表达生成方法、语义表达生成装置、以及记录介质


[0001]本专利技术涉及用于从由自然语言记述的文档等的文本数据生成获取知识所需的语义表达数据的方法以及装置。

技术介绍

[0002]近年来,正在研究/开发一种用于通过计算机从由自然语言记述的文档等各种文本数据(以下称为“自然语言数据”)获取知识的方法。另外,还研究/开发了一种方法:将这样获取的知识结构化并蓄积而制作知识库,计算机受理基于自然语言的询问并基于该知识库进行回答。
[0003]为了适当地进行使用了这样的自然语言的知识获取或问答,在利用计算机的自然语言数据的语义解析中,需要层次性且多义性地捕捉句子中所包含的词语的语义。与此相对,以往,进行层次性地定义自然语言数据所包含的固有表达的概念(例如参照非专利文献1)。另外,为了在针对自然语言数据的语义解释中捕捉句子的语义,进行将动词、形容词等述语作为语义的中心,从作为述语(日语:述語)形成语义所需的补语(日语:補語)的项与述语的关系来看的句子的构造(被称为“述语项结构”)的解析(例如参照非专利文献2)。
[0004]专利文献1:日本特开2021

111303号公报
[0005]专利文献2:日本特开平6

195383号公报
[0006]非专利文献1:Koichi Takeuchi,Alastair Butler,Iku Nagasaki,Takuya Okamura,Prashant Pardeshi,"Constructing Web

Accessible Semantic Role Labels and Frames for Japanese as Additions to the NPCMJ Parsed Corpus",Proceedings of the 12th Conference on Language Resources and Evaluation(LREC 2020),pp.3153

3161,Marseille,11

16May 2020
[0007]非专利文献2:Koichi Takeuchi,Masayuki Ueno,and Nao Takeuchi,"Annotating Semantic Role Information to Japanese Balanced Corpus",Proceedings of MAPLEX 2015,2015

技术实现思路

[0008]在这样通过基于计算机的现有的语义解析而得到的语义表达数据中,未必能够适当地表达自然语言数据中的词语的语义或句子的语义。其结果是,来自自然语言数据的知识获取的精度不充分,获取到的知识的再利用性也不充分高。
[0009]因此,期望提供一种生成能够比以往更适当且充分地表达自然语言数据中的词语的语义和句子的语义的语义表达数据的方法等。
[0010]本专利技术的第一方面是一种语义表达生成方法,该语义表达生成方法从包含内容词以及功能词的自然语言生成语义表达数据,其中,包括:准备步骤,准备CT体系表格,在该CT体系表格中,针对所述内容词的词类以及所述功能词的词类,记录有层次性且多义性地表示每个所述词类中的词素(日语:形態素)的语义的概念信息;文本解析步骤,接收由所述自
然语言记述的文本数据,通过对该文本数据进行包含语法解析的表层的解析,从而生成表示该文本数据所包含的句子的构造的语法数据;以及语义解析步骤,基于所述语法数据,生成与所述文本数据对应的所述语义表达数据,所述文本解析步骤包括:概念标签赋予步骤,通过参照所述CT体系表格,从而基于所述语法数据,对所述文本数据所包含的每个所述词素,赋予示出所述概念信息的概念标签,所述语义解析步骤包括:语义标签赋予步骤,基于所述语法数据,在所述文本数据中相当于述语的第一句节/连句节和相对于该述语具有修饰关系的第二句节/连句节所构成的第一对,赋予示出语义信息的第一语义标签,该语义信息表示所述第一句节/连句节与所述第二句节/连句节之间的语义关系;以及数据生成步骤,基于对所述文本数据所包含的每个所述词素赋予的所述概念标签和对所述第一对赋予的所述第一语义标签,生成所述语义表达数据。
[0011]本专利技术的第二方面在本专利技术的第一方面的基础上,在所述准备步骤中,还准备了ST体系表格,在所述ST体系表格中,针对分别示出表示构成第二对的句节/连句节彼此之间的语义关系的多个语义信息的多个第二语义标签的每一个,关联有用于决定应该赋予该第二语义标签的所述第二对的规则,在所述语义标签赋予步骤中,通过参照所述ST体系表格,从而基于所述语法数据,对所述第二对赋予所述第二语义标签。
[0012]本专利技术的第三方面是一种语义表达生成装置,该语义表达生成装置从包含内容词以及功能词的自然语言生成语义表达数据,其中,具有:CT体系存储部,保存有CT体系表格,在该CT体系表格中,针对所述内容词的词类以及所述功能词的词类,记录有层次性且多义性地表示每个所述词类中的词素的语义的概念信息;文本解析部,接收由所述自然语言记述的文本数据,通过对该文本数据进行包含语法解析的表层的解析,从而生成表示该文本数据所包含的句子的构造的语法数据;语义解析部,基于所述语法数据,生成与所述文本数据对应的所述语义表达数据,所述文本解析部通过参照所述CT体系表格,从而基于所述语法数据,对所述文本数据所包含的每个所述词素,赋予示出所述概念信息的概念标签,所述语义解析部基于所述语法数据,对在所述文本数据中相当于述语的第一句节/连句节和相对于该述语具有修饰关系的第二句节/连句节构成的第一对,赋予示出语义信息的第一语义标签,该语义信息表示所述第一句节/连句节与所述第二句节/连句节的语义关系,所述语义解析部基于对所述文本数据所包含的每个所述词素赋予的所述概念标签和对所述第一对赋予的所述第一语义标签,生成所述语义表达数据。
[0013]本专利技术的第四方面是一种记录介质,其记录有从包含内容词以及功能词的自然语言生成语义表达数据的语义表达生成程序的流程,并且计算机能够读取,其中,所述程序使计算机执行以下步骤:文本解析步骤,接收由所述自然语言记述的文本数据,通过对该文本数据进行包含语法解析的表层的解析,从而生成表示该文本数据所包含的句子的构造的语法数据;和语义解析步骤,基于所述语法数据,生成与所述文本数据对应的所述语义表达数据,所述计算机包括CT体系存储部,所述CT体系存储部保存有CT体系表格,在该CT体系表格中,针对所述内容词的词类以及所述功能词的词类,记录有层次性且多义性地表示每个所述词类中的词素的语义的概念信息,所述文本解析步骤包括:概念标签赋予步骤,通过参照所述CT体系表格,从而基于所述语法数据,对所述文本数据所包含的每个所述词素,赋予示出所述概念信息的概念标签,所述语义解析步骤包括:语义标签赋予步骤,基于所述语法数据,对在所述文本数据中相当于述语的第一句节/连句节和相对于该述语具有修饰关系的
第二句节/连句节构成的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语义表达生成方法,从包含内容词以及功能词的自然语言生成语义表达数据,其中,包括:准备步骤,准备CT体系表格,在该CT体系表格中,针对所述内容词的词类以及所述功能词的词类,记录有层次性且多义性地表示每个所述词类中的词素的语义的概念信息;文本解析步骤,接收由所述自然语言记述的文本数据,通过对该文本数据进行包含语法解析的表层的解析,从而生成表示该文本数据所包含的句子的构造的语法数据;以及语义解析步骤,基于所述语法数据,生成与所述文本数据对应的所述语义表达数据,所述文本解析步骤包括:概念标签赋予步骤,通过参照所述CT体系表格,从而基于所述语法数据,对所述文本数据所包含的每个所述词素,赋予示出所述概念信息的概念标签,所述语义解析步骤包括:语义标签赋予步骤,基于所述语法数据,在所述文本数据中相当于述语的第一句节/连句节和相对于该述语具有修饰关系的第二句节/连句节所构成的第一对,赋予示出语义信息的第一语义标签,该语义信息表示所述第一句节/连句节与所述第二句节/连句节之间的语义关系;以及数据生成步骤,基于对所述文本数据所包含的每个所述词素赋予的所述概念标签和对所述第一对赋予的所述第一语义标签,生成所述语义表达数据。2.如权利要求1所述的语义表达生成方法,其中,在所述准备步骤中,还准备了ST体系表格,在所述ST体系表格中,针对分别示出表示构成第二对的句节/连句节彼此之间的语义关系的多个语义信息的多个第二语义标签的每一个,关联有用于决定应该赋予该第二语义标签的所述第二对的规则,在所述语义标签赋予步骤中,通过参照所述ST体系表格,从而基于所述语法数据,对所述第二对赋予所述第二语义标签。3.如权利要求2所述的语义表达生成方法,其中,在所述ST体系表格中,对于分别示出表示所述自然语言中的句子与句子之间的语义关系的多个语义信息的多个第三语义标签的每一个,关联有用于决定应该赋予该第三语义标签的句子的对的规则,所述文本解析步骤还包括:上下文解析步骤,基于所述语法数据进行针对所述文本数据的上下文解析,生成表示所述文本数据中的照应关系以及会话关系的上下文数据,在所述语义标签赋予步骤中,通过参照所述ST体系表格,基于所述上下文数据,对所述文本数据中具有照应关系或会话关系的句子的对赋予所述第三语义标签。4.如权利要求2所述的语义表达生成方法,其中,在所述语义标签赋予步骤中,在所述ST体系表格中应该对所述语法数据中的由句节/连句节和其他句节/连句节构成的一个对赋予的所述第二语义标签符合多个的情况下,对该一个对赋予该多个所述第二语义标签。5.如权利要求2所述的语义表达生成方法,其中,在所述ST体系表格中,针对所述多个第二语义标签中的至少一部分的所述第二语义标签,用于决定应该赋予所述第二语义标签的句节/连句节与其他句节/连句节的对的规则使
用构成该对的句节/连句节所包含的词素的概念标签来定义。6.一种语义表达生成装置,从包含内容词以及功能词的自然语言生成语义表达数据,其中,具有:CT体系存储部,保存有CT体系表格,在该CT体系表格中,针对所述内容词的词类以及所述功能词的词类,记录有层次性且多义性地表示每个所述词类中的词素的语...

【专利技术属性】
技术研发人员:粕渊清孝吉田明子梅原光规角谷祐辉
申请(专利权)人:株式会社斯库林集团
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1