基于半监督学习的语义分析方法及系统技术方案

技术编号：18444847 阅读：70 留言：0更新日期：2018-07-14 10:21

本发明专利技术提供一种基于半监督学习的语义分析方法及系统。所述方法包括：利用实体对共现构建原始词汇；对所述原始词汇进行打分，得到种子词汇；计算种子词汇中的词语与实验语料中的词语之间的语义相似度；根据所述种子词汇及词语之间的语义相似度构建新的词典；根据所述新的词典进行语义分析。本发明专利技术能够学习扩展出覆盖度更高的词典，提高语义分析的准确度。

Semantic analysis method and system based on semi supervised learning

The invention provides a semantic analysis method and system based on semi supervised learning. The methods described include: using the entity to construct the original vocabulary, scoring the original vocabulary, obtaining the seed vocabulary, calculating the semantic similarity between the words in the seed vocabulary and the words in the experimental corpus, and constructing a new dictionary according to the semantic similarity between the words and the words. A dictionary is used for semantic analysis. The invention can learn to expand the dictionary with higher coverage and improve the accuracy of semantic analysis.

全部详细技术资料下载

【技术实现步骤摘要】
基于半监督学习的语义分析方法及系统
本专利技术涉及自然语言处理
，尤其涉及一种基于半监督学习的语义分析方法及系统。
技术介绍
近年来，构建智能信息服务成为工业界和学术界共同的热点，如聊天机器人，问答机器人，高考机器人，助理机器人等等。而实现上述目标，终归需要机器人能够理解人类的语言，包括人类提出的问题，人类做出的命令等等，这就是自然语言理解。而语义分析正是完成自然语言理解的核心技术。语义分析把自然语言句子解析成机器可执行的形式化表示(如逻辑表达式)。语义分析的能力往往决定于它的词汇的覆盖度和质量，词汇包括词语和谓词，由于自然语言表达的多样性，一个意思通常可以有多种表达，通常会有多个词语都可以同时表达这个谓词所代表的意思，尤其在不同领域，很容易形成词语到本体中的谓词之间不匹配的情况。这就使得一般的语义分析器的词汇往往覆盖度不够，没有足够的词汇量，无法保证语义分析的准确度。
技术实现思路
本专利技术提供的基于半监督学习的语义分析方法及系统，能够学习扩展出覆盖度更高的词典，提高语义分析的准确度。第一方面，本专利技术提供一种基于半监督学习的语义分析方法，所述方法包括：利用实体对共现构建原始词汇；对所述原始词汇进行打分，得到种子词汇；计算种子词汇中的词语与实验语料中的词语之间的语义相似度；根据所述种子词汇及词语之间的语义相似度构建新的词典；根据所述新的词典进行语义分析。可选地，所述对所述原始词汇进行打分，得到种子词汇包括：对所述原始词汇进行语料训练；根据训练结果对所述原始词汇进行加分或减分；选取分数高的原始词汇作为种子词汇。可选地，所述计算种子词汇中的词语与实验语...

【技术保护点】
1.一种基于半监督学习的语义分析方法，其特征在于，所述方法包括：利用实体对共现构建原始词汇；对所述原始词汇进行打分，得到种子词汇；计算种子词汇中的词语与实验语料中的词语之间的语义相似度；根据所述种子词汇及词语之间的语义相似度构建新的词典；根据所述新的词典进行语义分析。

【技术特征摘要】
1.一种基于半监督学习的语义分析方法，其特征在于，所述方法包括：利用实体对共现构建原始词汇；对所述原始词汇进行打分，得到种子词汇；计算种子词汇中的词语与实验语料中的词语之间的语义相似度；根据所述种子词汇及词语之间的语义相似度构建新的词典；根据所述新的词典进行语义分析。2.根据权利要求1所述的方法，其特征在于，所述对所述原始词汇进行打分，得到种子词汇包括：对所述原始词汇进行语料训练；根据训练结果对所述原始词汇进行加分或减分；选取分数高的原始词汇作为种子词汇。3.根据权利要求1所述的方法，其特征在于，所述计算种子词汇中的词语与实验语料中的词语之间的语义相似度包括：根据释义语料库中的复述语料计算词语间语义相似度的分数；根据复述表中的复述对语料计算词语间对齐的分数；根据词语的向量使用余弦相似度计算词语间的向量语义相似度的分数；使用加权打分得到种子词汇中的词语与实验语料中的词语之间最终的语义相似度。4.根据权利要求1所述的方法，其特征在于，所述根据所述种子词汇及词语之间的语义相似度构建新的词典包括：以种子词汇为标记节点，按照词语之间的语义相似度进行标签传播，得到新的词典。5.一种基于半监督学习的语义分析系...

【专利技术属性】
技术研发人员：陈波，孙乐，韩先培，
申请(专利权)人：中国科学院软件研究所，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人