基于半监督学习的语义分析方法及系统技术方案

技术编号:18444847 阅读:70 留言:0更新日期:2018-07-14 10:21
本发明专利技术提供一种基于半监督学习的语义分析方法及系统。所述方法包括:利用实体对共现构建原始词汇;对所述原始词汇进行打分,得到种子词汇;计算种子词汇中的词语与实验语料中的词语之间的语义相似度;根据所述种子词汇及词语之间的语义相似度构建新的词典;根据所述新的词典进行语义分析。本发明专利技术能够学习扩展出覆盖度更高的词典,提高语义分析的准确度。

Semantic analysis method and system based on semi supervised learning

The invention provides a semantic analysis method and system based on semi supervised learning. The methods described include: using the entity to construct the original vocabulary, scoring the original vocabulary, obtaining the seed vocabulary, calculating the semantic similarity between the words in the seed vocabulary and the words in the experimental corpus, and constructing a new dictionary according to the semantic similarity between the words and the words. A dictionary is used for semantic analysis. The invention can learn to expand the dictionary with higher coverage and improve the accuracy of semantic analysis.

【技术实现步骤摘要】
基于半监督学习的语义分析方法及系统
本专利技术涉及自然语言处理
,尤其涉及一种基于半监督学习的语义分析方法及系统。
技术介绍
近年来,构建智能信息服务成为工业界和学术界共同的热点,如聊天机器人,问答机器人,高考机器人,助理机器人等等。而实现上述目标,终归需要机器人能够理解人类的语言,包括人类提出的问题,人类做出的命令等等,这就是自然语言理解。而语义分析正是完成自然语言理解的核心技术。语义分析把自然语言句子解析成机器可执行的形式化表示(如逻辑表达式)。语义分析的能力往往决定于它的词汇的覆盖度和质量,词汇包括词语和谓词,由于自然语言表达的多样性,一个意思通常可以有多种表达,通常会有多个词语都可以同时表达这个谓词所代表的意思,尤其在不同领域,很容易形成词语到本体中的谓词之间不匹配的情况。这就使得一般的语义分析器的词汇往往覆盖度不够,没有足够的词汇量,无法保证语义分析的准确度。
技术实现思路
本专利技术提供的基于半监督学习的语义分析方法及系统,能够学习扩展出覆盖度更高的词典,提高语义分析的准确度。第一方面,本专利技术提供一种基于半监督学习的语义分析方法,所述方法包括:利用实体对共现构建原始词汇;对所述原始词汇进行打分,得到种子词汇;计算种子词汇中的词语与实验语料中的词语之间的语义相似度;根据所述种子词汇及词语之间的语义相似度构建新的词典;根据所述新的词典进行语义分析。可选地,所述对所述原始词汇进行打分,得到种子词汇包括:对所述原始词汇进行语料训练;根据训练结果对所述原始词汇进行加分或减分;选取分数高的原始词汇作为种子词汇。可选地,所述计算种子词汇中的词语与实验语料中的词语之间的语义相似度包括:根据释义语料库中的复述语料计算词语间语义相似度的分数;根据复述表中的复述对语料计算词语间对齐的分数;根据词语的向量使用余弦相似度计算词语间的向量语义相似度的分数;使用加权打分得到词语间最终的语义相似度。可选地,所述根据所述种子词汇及词语之间的语义相似度构建新的词典包括:以种子词汇为标记节点,按照词语之间的语义相似度进行标签传播,得到新的词典。第二方面,本专利技术提供一种基于半监督学习的语义分析系统,所述系统包括:第一构建单元,用于利用实体对共现构建原始词汇;获取单元,用于对所述原始词汇进行打分,得到种子词汇;计算单元,用于计算种子词汇中的词语与实验语料中的词语之间的语义相似度;第二构建单元,用于根据所述种子词汇及词语之间的语义相似度构建新的词典;分析单元,用于根据所述新的词典进行语义分析。可选地,所述获取单元包括:训练模块,用于对所述原始词汇进行语料训练;打分模块,用于根据训练结果对所述原始词汇进行加分或减分;选取模块,用于选取分数高的原始词汇作为种子词汇。可选地,所述计算单元包括:第一计算模块,用于根据释义语料库中的复述语料计算词语间语义相似度的分数;第二计算模块,根据复述表中的复述对语料计算词语间对齐的分数;第三计算模块,根据词语的向量使用余弦相似度计算词语间的向量语义相似度的分数;第四计算模块,使用加权打分得到种子词汇中的词语与实验语料中的词语之间最终的语义相似度。可选地,所述第二构建单元,用于以种子词汇为标记节点,按照词语之间的语义相似度进行标签传播,得到新的词典。本专利技术实施例提供的基于半监督学习的语义分析方法及系统,利用实体对共现构建原始词汇,通过对原始词汇打分得到准确度高的种子词汇,计算种子词汇中的词语与实验语料中的词语之间的语义相似度,根据种子词汇及词语之间的语义相似度构建新的词典,将新的词典融合到语义分析器中进行语义分析。与现有技术相比,本专利技术通过学习种子词汇,能够扩展出覆盖度更高的词典,使得新的语义分析器准确度更高,性能更强。附图说明图1为本专利技术一实施例基于半监督学习的语义分析方法的流程图;图2为本专利技术一实施例对原始词汇不进行打分和进行打分的对比图;图3为本专利技术一实施例标签传播的图模型构造图;图4为本专利技术一实施例基于半监督学习的新词典与语义分析器结合的系统框架图;图5为本专利技术一实施例基于半监督学习的语义分析系统的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术提供一种基于半监督学习的语义分析方法,如图1所示,所述方法包括:S11、利用实体对共现构建原始词汇;可选地,利用知识库(如Freebase、Clueweb、wiki等)与文本之间的映射,从大量语料及语料中实体对的共现学习出原始词汇。词汇包括词语和谓词,一个谓词不仅仅只有一个词语可以表达,通常会有多个词语都可以同时表达这个谓词所代表的意思,形成多个词汇。例如利用实体对共现可以得到currency到currency_used这个词汇。具体地,谓词“currency_used”在知识库中的若干实体对样例如下:从文本知识库中选择包含任意上述实体对的句子,如来自文本的句子为:TheRMBistheofficialcurrencyofChina.TheyenistheofficialcurrencyofJapan.通过实体对的共现,形成原始词汇:把句子中两个实体之间的词语与谓词进行匹配对齐,如RMB和China,分别可以对齐“currency_used”与“officialcurrency”,这个对齐就是所需要的原始词汇。S12、对所述原始词汇进行打分,得到种子词汇;由于词语到本体中的谓词之间容易形成不匹配的情况,通过对原始词汇进行训练,能够得到准确度高的词汇。可选地,所述对所述原始词汇进行打分,得到种子词汇包括:对所述原始词汇进行语料训练;根据训练结果对所述原始词汇进行加分或减分;选取分数高的原始词汇作为种子词汇。具体地,将原始词汇导入已有语义分析器,利用语义分析器在训练语料上面进行训练,训练完之后,语义分析器对每一个原始词汇都有一个打分,打分的过程包括:初始时每一个词汇的分数是零,在训练一个样本的时候,如果使用到了某一个词汇,并且结果是好的,那么语义分析器会对这个词汇加上一点分,如果使用到了某一个词汇,但是结果是不好的,语义分析器就会对这个词汇减一点分。最终得到的词汇,分数越高的,代表该词汇越准确;分数越低的,代表该词汇越错误。最终选择分数高的作为种子词汇。对原始词汇不进行打分和进行打分的对比如图2所示,上部分是没有进行打分的结果,下部分是进行了打分的结果,可以看到,进行初始化打分使越错误的词汇分数越低,从而减少传播错误。S13、计算种子词汇中的词语与实验语料中的词语之间的语义相似度;词语之间的语义相似度在词语获取上发挥重要的作用,本专利技术利用PPDB(TheParaphraseDatabase,释义语料库)中的词汇复述语料、paraphrasetable(复述表)中的复述对语料以及wiki所训练得到的词汇向量(wordvector)等语义数据资源学习词语之间的语义相似度,综合计算出实验语料中的词语与出现在种子词汇中的词语之间的语义相似度。可选地,所述计算词语之间的语义相似本文档来自技高网...

【技术保护点】
1.一种基于半监督学习的语义分析方法,其特征在于,所述方法包括:利用实体对共现构建原始词汇;对所述原始词汇进行打分,得到种子词汇;计算种子词汇中的词语与实验语料中的词语之间的语义相似度;根据所述种子词汇及词语之间的语义相似度构建新的词典;根据所述新的词典进行语义分析。

【技术特征摘要】
1.一种基于半监督学习的语义分析方法,其特征在于,所述方法包括:利用实体对共现构建原始词汇;对所述原始词汇进行打分,得到种子词汇;计算种子词汇中的词语与实验语料中的词语之间的语义相似度;根据所述种子词汇及词语之间的语义相似度构建新的词典;根据所述新的词典进行语义分析。2.根据权利要求1所述的方法,其特征在于,所述对所述原始词汇进行打分,得到种子词汇包括:对所述原始词汇进行语料训练;根据训练结果对所述原始词汇进行加分或减分;选取分数高的原始词汇作为种子词汇。3.根据权利要求1所述的方法,其特征在于,所述计算种子词汇中的词语与实验语料中的词语之间的语义相似度包括:根据释义语料库中的复述语料计算词语间语义相似度的分数;根据复述表中的复述对语料计算词语间对齐的分数;根据词语的向量使用余弦相似度计算词语间的向量语义相似度的分数;使用加权打分得到种子词汇中的词语与实验语料中的词语之间最终的语义相似度。4.根据权利要求1所述的方法,其特征在于,所述根据所述种子词汇及词语之间的语义相似度构建新的词典包括:以种子词汇为标记节点,按照词语之间的语义相似度进行标签传播,得到新的词典。5.一种基于半监督学习的语义分析系...

【专利技术属性】
技术研发人员:陈波孙乐韩先培
申请(专利权)人:中国科学院软件研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1