面向大规模媒体文本数据的在线语义理解搜索系统及方法技术方案

技术编号:14517282 阅读:129 留言:0更新日期:2017-02-01 19:44
本发明专利技术涉及一种面向大规模媒体文本数据的在线语义理解搜索系统及方法,所述系统包括中文分词单元、中文词嵌入单元、LSTM语义理解单元、实体定位单元、知识推理单元;中文分词单元用于将用户输入的词句进行中文分词,得到中文词序列;中文词嵌入单元用于通过词嵌入算法对分词后的中文词序列进行处理,生成数字向量;LSTM语义理解单元用于按中文词序列顺序接收数字向量,并通过LSTM对数字向量进行预测;实体定位单元用于接收LSTM语义理解单元的预测结果以及客户上下文描述向量,通过图搜索算法定位实体;知识推理单元采用知识图谱技术,通过已定位的实体,抽取实体及实体间关系,以抽取的实体及实体关系生成搜索序列,搜索序列进入搜索单元进行搜索。

【技术实现步骤摘要】

本专利技术涉及计算情报学领域,更具体的说,是涉及一种面向大规模媒体文本数据的在线语义理解搜索系统及方法
技术介绍
随着互联网的快速发展,网络媒体作为一种新的信息传播形式,已深入人们的日常生活。网友言论活跃已达到前所未有的程度,不论是国内还是国际重大事件,都能马上形成网上舆论,通过这种网络来表达观点、传播思想,进而产生巨大的舆论压力,达到任何部门、机构都无法忽视的地步。可以说,互联网已成为思想文化信息的集散地和社会舆论的放大器。网络情报服务系统是利用搜索引擎技术和网络信息挖掘技术,通过网页内容的自动采集处理、敏感词过滤、智能聚类分类、主题检测、专题聚焦、统计分析,实现各单位对自己相关网络情报监督管理的需要,最终形成情报简报、情报专报、分析报告、移动快报,为决策层全面掌握情报动态,做出正确舆论引导,提供分析依据。传统的情报服务系统上的信息检索是采用关键词匹配的方式,只能检索出关键词出现过的文本,一般的过程是先将搜索语句进行分词,过滤得到需要检索的关键词,然后通过匹配的方式进行检索。
技术实现思路
有鉴于此,有必要针对上述问题,提供一种面向大规模媒体文本数据的在线语义理解搜索系统及方法,让顾客更快地了解到和自己相关联的情报,极大地方便了客户,使的客户定位情报更精准,提升了情报的服务质量。为了实现上述目的,本专利技术的技术方案如下:一种面向大规模媒体文本数据的在线语义理解搜索系统,包括中文分词单元、中文词嵌入单元、LSTM语义理解单元、实体定位单元、知识推理单元;所述中文分词单元用于将用户输入的词句进行中文分词,采用结合词库的HMM算法,得到中文词序列;所述中文词嵌入单元用于通过词嵌入算法对分词后的中文词序列进行处理,生成数字向量;所述LSTM语义理解单元用于按中文词序列顺序接收数字向量,并通过LSTM对数字向量进行预测,得到相应的语义描述向量;所述实体定位单元用于接收LSTM语义理解单元的语义描述向量以及客户上下文描述向量,按照图搜索算法在知识图谱中进行实体定位;所述知识推理单元用于在实体定位单元完成对实体定位后,完成对实体及其关系的抽取。作为优选的,还包括一搜索单元,用于接收知识推理单元推理得到的实体序列,按照此序列进行搜索。作为优选的,所述知识推理单元按照权重关系对与定位实体相关联的第一层实体进行排列,权重高的排在前。作为优选的,所述中文分析单元在对用户语句分词后,将其中的停用词去掉。一种根据上述系统进行在线语义理解搜索的方法,包括以下步骤:S1、将用户输入的语句进行中文分词,分词后将其中的停用词去掉后,保留中文词的序列;S2、中文词嵌入单元按照词嵌入算法,将中文词生成数字向量;S3、LSTM语义理解单元采用LSTM对输入的数字序列进行预测,得到的是相应的语义描述向量;S4、实体定位单元采用图搜索算法,接收LSTM语义理解单元的输出以及客户上下文描述向量两种输入,然后图搜索算法在知识图谱中定位到各个实体;S5、实体定位单元定位后,知识推理单元会抽取各个实体及实体间关系,最终得到搜索实体序列;S6、搜索单元接收知识推理单元推理得到的搜索实体序列,按照此序列进行搜索。与现有技术相比,本专利技术的有益效果在于:本专利技术可以结合情报系统中客户的情况,首先理解用户的输入,能够更好的定位到用户需要寻找的资讯,让顾客更快地了解到和自己相关联的情报,极大地方便了客户,使的客户定位情报更精准,提升了情报的服务质量。附图说明图1为本专利技术实施例的系统结构框图;图2为本专利技术实施例的方法流程图;图3是本专利技术实施例的具体实施示意图。具体实施方式下面结合附图和实施例对本专利技术所述的一种面向大规模媒体文本数据的在线语义理解搜索系统及方法作进一步说明。以下是本专利技术所述的面向大规模媒体文本数据的在线语义理解搜索系统及方法的最佳实例,并不因此限定本专利技术的保护范围。图1示出了一种面向大规模媒体文本数据的在线语义理解搜索系统,包括中文分词单元、中文词嵌入单元、LSTM语义理解单元、实体定位单元、知识推理单元;所述中文分词单元用于将用户输入的词句进行中文分词,采用结合词库的HMM算法,得到中文词序列;所述中文词嵌入单元用于通过词嵌入算法对分词后的中文词序列进行处理,生成数字向量;所述LSTM语义理解单元用于按中文词序列顺序接收数字向量,并通过LSTM对数字向量进行预测,得到相应的语义描述向量;所述实体定位单元用于接收LSTM语义理解单元的语义描述向量以及客户上下文描述向量,按照图搜索算法在知识图谱中进行实体定位;客户上下文描述向量是提前针对每个客户训练好的,内置在系统中,结合语义描述向量和客户上下文描述向量。实体定位单元实质上是一个各类实体的如何联系的关系图。LSTM语义理解单元预测得到的是一个语义描述向量,此描述向量能够完成语义消歧及语义理解。由于LSTM是经过训练的,具备了一定的语义理解能力,即可以对语义的语境进行消歧,为后面实体定位提供更好的支撑。知识图谱中图的节点是一个个实体,实体有各种描述不同描述,实体和实体间通过关系想联系。知识推理单元在实体定位单元完成对实体定位后,完成对实体及其关系的抽取(比如“刘德华”这个实体,“刘德华”和“华仔”均是对这个实体的描述,均属于此实体,而刘德华妻子是对“刘德华”这一实体的关系描述,关系描述可以指向另一实体,比如刘德华妻子会指向“朱丽倩”这一实体)。所述知识推理单元用于在实体定位单元完成对实体定位后,完成对实体及其关系的抽取。作为优选的,还包括一搜索单元,用于接收知识推理单元推理得到的实体序列,按照此序列进行搜索。作为优选的,所述知识推理单元按照权重关系对与定位实体相关联的第一层实体进行排列,权重高的排在前。作为优选的,所述中文分析单元在对用户语句分词后,将其中的停用词去掉。图2示出了一种根据上述系统进行在线语义理解搜索的方法,包括以下步骤:S1、将用户输入的语句进行中文分词,分词后将其中的停用词去掉后,保留中文词的序列;S2、中文词嵌入单元按照词嵌入算法,将中文词生成数字向量;S3、LSTM语义理解单元采用LSTM对输入的数字序列进行预测;S4、实体定位单元采用图搜索算法,接收LSTM语义理解单元的输出以及客户上下文描述向量两种输入,图搜索算法的输出可以定位到需要确认的定位实体;S5、知识推理单元采用知识图谱技术,以实体定位单元的输出定位到实体,从知识图谱中抽取实体及其关系,同时采用和此实体相关联的第一层实体作为搜索实体,最终得到搜索实体序列;S6、搜索单元接收知识推理单元推理得到的搜索实体序列,按照此序列进行搜索。图3为本专利技术的方法具体应用示意图,通过对用户的语句进行中文分词后输入电影、票房等中文词序列,嵌入到中文词嵌入单元生成数字向量序列,LSTM对输入的数字向量序列进行预测,LSTM会产生输出,并通过结合客户上下文描述向量输出可以定位到某一需要确认的搜索实体,包括中心实体:电影、票房,以及限制实体:王中磊、华益、范冰冰等;最终通过知识推理单元实体定位单元的输出定位到某个实体,同时采用和此实体相关联的第一层实体(第一层实体和定位实体间有权重联系,权重高的会排在搜索前)作为搜索实体进行搜索。与现有技术相比,本专利技术的有益效果在于:本专利技术可以结合情报系统中客户的情况,首先理解用户的输入,能够更好的定位到本文档来自技高网...

【技术保护点】
一种面向大规模媒体文本数据的在线语义理解搜索系统,其特征在于,包括中文分词单元、中文词嵌入单元、LSTM语义理解单元、实体定位单元、知识推理单元;所述中文分词单元用于将用户输入的词句进行中文分词,采用结合词库的HMM算法,得到中文词序列;所述中文词嵌入单元用于通过词嵌入算法对分词后的中文词序列进行处理,生成数字向量;所述LSTM语义理解单元用于按中文词序列顺序接收数字向量,并通过LSTM对数字向量进行预测,得到相应的语义描述向量;所述实体定位单元用于接收LSTM语义理解单元的语义描述向量以及客户上下文描述向量,按照图搜索算法在知识图谱中进行实体定位;所述知识推理单元用于在实体定位单元完成对实体定位后,完成对实体及其关系的抽取。

【技术特征摘要】
1.一种面向大规模媒体文本数据的在线语义理解搜索系统,其特征在于,包括中文分词单元、中文词嵌入单元、LSTM语义理解单元、实体定位单元、知识推理单元;所述中文分词单元用于将用户输入的词句进行中文分词,采用结合词库的HMM算法,得到中文词序列;所述中文词嵌入单元用于通过词嵌入算法对分词后的中文词序列进行处理,生成数字向量;所述LSTM语义理解单元用于按中文词序列顺序接收数字向量,并通过LSTM对数字向量进行预测,得到相应的语义描述向量;所述实体定位单元用于接收LSTM语义理解单元的语义描述向量以及客户上下文描述向量,按照图搜索算法在知识图谱中进行实体定位;所述知识推理单元用于在实体定位单元完成对实体定位后,完成对实体及其关系的抽取。2.根据权利要求1所述的面向大规模媒体文本数据的在线语义理解搜索系统,其特征在于,还包括一搜索单元,用于接收知识推理单元推理得到的实体序列,按照此序列进行搜索。3.根据权利要求1所述的面向大规模媒体文本数据的在线...

【专利技术属性】
技术研发人员:李靖金俏胡雯蔷杨绪升
申请(专利权)人:武汉烽火普天信息技术有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1