信息分析的方法及装置制造方法及图纸

技术编号:15791888 阅读:237 留言:0更新日期:2017-07-09 22:29
本发明专利技术提供一种信息分析的方法及装置;一种信息分析的方法包括:接收用户输入的待分析文本;对所述待分析文本进行分词处理;确定各分词分别所属的语义标签;将所述各分词分别所属的语义标签与匹配规则进行匹配,得到所述各分词分别所属的语义标签与所述匹配规则中的第一规则匹配的匹配结果,并根据所述匹配结果确定分析结果。本发明专利技术解决了现有技术中匹配规则较多的问题。

【技术实现步骤摘要】
信息分析的方法及装置
本专利技术涉及信息
,尤其涉及一种信息分析的方法及装置。
技术介绍
随着互联网的普及和海量信息的涌现,如何快速有效的分析信息已成为制约信息技术发展的一个全局性问题。现有技术中,一种信息分析的方法为根据匹配规则对待分析文本中的关键字进行匹配,并根据匹配结果确定分析结果,该分析结果例如可以为待分析文本所属的分类、待分析文本对应的操作需求或待分析文本匹配的某个或某些关键字等。其中,该匹配规则为根据预先确定的关键字所设定的匹配规则。但是,现有技术中存在匹配规则较多的问题。
技术实现思路
本专利技术提供一种信息分析的方法及装置,用以解决现有技术中匹配规则较多的问题。本专利技术提供一种信息分析的方法,包括:接收用户输入的待分析文本;对所述待分析文本进行分词处理;确定各分词分别所属的语义标签;将所述各分词分别所属的语义标签与匹配规则进行匹配,得到所述各分词分别所属的语义标签与所述匹配规则中的第一规则匹配的匹配结果,并根据所述匹配结果确定分析结果。可选的,在本专利技术一实施例中,所述将所述各分词分别所属的语义标签与匹配规则进行匹配,得到所述各分词分别所属的语义标签与所述匹配规则中的第一规则匹配的匹配结果,并根据所述匹配结果确定分析结果,包括:将所述各分词分别所属的语义标签作为主串,输入至AC自动机进行匹配,确定匹配的终节点为第一节点,并从所述第一节点的输出表获得所述分析结果;其中,所述AC自动机中各节点的转向表根据所述匹配规则生成;所述AC自动机的根节点到所述第一节点的路径与所述第一规则对应。可选的,在本专利技术一实施例中,所述将所述各分词分别所属的语义标签作为主串,输入至AC自动机进行匹配之前,还包括:根据所述匹配规则,生成所述各节点的转向表;所述转向表中包括预设语义标签以及与所述预设语义标签对应的所述各节点的下一级节点;根据所述各节点作为终节点时分别对应的分析结果,生成所述各节点的输出表。可选的,在本专利技术一实施例中,所述匹配规则包括采用正则表达式和所述预设语义标签描述的规则,以及仅采用所述预设语义标签描述的规则;所述将所述各分词分别所属的语义标签作为主串,输入至AC自动机进行匹配之前,还包括:根据所述采用正则表达式和所述预设语义标签描述的规则,生成所述各节点的正则表;所述正则表中包括所述预设语义标签、与所述预设语义标签对应的所述各节点的下一级节点以及与所述预设语义标签对应的正则表达式;相应的,所述根据所述匹配规则,生成所述各节点的转向表,包括:根据所述匹配规则中采用所述预设语义标签描述的规则,生成所述各节点的转向表。可选的,在本专利技术一实施例中,所述将所述各分词分别所属的语义标签作为主串,输入至AC自动机进行匹配,包括:判断所述各分词分别所属的语义标签中的第N个语义标签是否包括在第二节点的转向表中;其中,N为大于0小于M的正整数,M为所述语义标签的个数,所述第二节点为根节点的第N-1级子节点;若是,则转移至所述第二节点的转向表中所述第N个语义标签对应的第三节点,形成所述第二节点与所述第三节点之间的路径;判断所述第N个语义标签是否包括在所述第二节点的正则表中,且所述第N个语义标签对应的分词满足所述第二节点的正则表中所述第N个语义标签对应的正则表达式;若是,则转移至所述第二节点的正则表中所述第N个语义标签对应的第四节点,形成所述第二节点与所述第四节点之间的路径。可选的,在本专利技术一实施例中,所述确定各分词分别所属的语义标签之前,还包括:将所述各分词中的无效分词去除,获得所述各分词中的有效分词;所述确定各分词分别所属的语义标签,包括:确定所述各分词中的各有效分词分别所属的语义标签。本专利技术提供一种信息分析的装置,包括:接收模块,用于接收用户输入的待分析文本;分词模块,用于对所述待分析文本进行分词处理;确定模块,用于确定各分词分别所属的语义标签;匹配及分析模块,用于将所述各分词分别所属的语义标签与匹配规则进行匹配,得到所述各分词分别所属的语义标签与所述匹配规则中的第一规则匹配的匹配结果,并根据所述匹配结果确定分析结果。可选的,在本专利技术一实施例中,所述匹配及分析模块,具体用于:将所述各分词分别所属的语义标签作为主串,输入至AC自动机进行匹配,确定匹配的终节点为第一节点,并从所述第一节点的输出表获得所述分析结果;其中,所述AC自动机中各节点的转向表根据所述匹配规则生成;所述AC自动机的根节点到所述第一节点的路径与所述第一规则对应。可选的,在本专利技术一实施例中,所述匹配及分析模块,还用于:根据所述匹配规则,生成所述各节点的转向表;所述转向表中包括预设语义标签以及与所述预设语义标签对应的所述各节点的下一级节点;根据所述各节点作为终节点时分别对应的分析结果,生成所述各节点的输出表。可选的,在本专利技术一实施例中,所述匹配规则包括采用正则表达式和所述预设语义标签描述的规则,以及仅采用所述预设语义标签描述的规则,所述匹配及分析模块,还用于:根据所述采用正则表达式和所述预设语义标签描述的规则,生成所述各节点的正则表;所述正则表中包括所述预设语义标签、与所述预设语义标签对应的所述各节点的下一级节点以及与所述预设语义标签对应的正则表达式;相应的,所述匹配及分析模块根据所述匹配规则,生成所述各节点的转向表,具体包括:根据所述匹配规则中采用所述预设语义标签描述的规则,生成所述各节点的转向表。可选的,在本专利技术一实施例中,所述匹配及分析模块,将所述各分词分别所属的语义标签作为主串,输入至AC自动机进行匹配,具体包括:判断所述各分词分别所属的语义标签中的第N个语义标签是否包括在第二节点的转向表中;其中,N为大于0小于M的正整数,M为所述语义标签的个数,所述第二节点为根节点的第N-1级子节点;若是,则转移至所述第二节点的转向表中所述第N个语义标签对应的第三节点,形成所述第二节点与所述第三节点之间的路径;判断所述第N个语义标签是否包括在所述第二节点的正则表中,且所述第N个语义标签对应的分词满足所述第二节点的正则表中所述第N个语义标签对应的正则表达式;若是,则转移至所述第二节点的正则表中所述第N个语义标签对应的第四节点,形成所述第二节点与所述第四节点之间的路径。可选的,在本专利技术一实施例中,所述确定模块,还用于将所述各分词中的无效分词去除,获得所述各分词中的有效分词;所述确定模块,确定各分词分别所属的语义标签,具体包括:确定所述各分词中的各有效分词分别所属的语义标签。本专利技术提供一种信息分析的方法及装置;通过对待分析文本进行分词处理;确定各分词分别所属的语义标签;将所述各分词分别所属的语义标签与匹配规则进行匹配,得到所述各分词分别所属的语义标签与所述匹配规则中的第一规则匹配的匹配结果,并根据所述匹配结果确定分析结果;使得对属于同一语义标签的多个关键字,可以使用所属的一个语义标签来表示;因此,与使用文本中的关键字描述的匹配规则相比,使用语义标签描述的匹配规则减少了匹配规则的数目。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术信息分本文档来自技高网...
信息分析的方法及装置

【技术保护点】
一种信息分析的方法,其特征在于,包括:接收用户输入的待分析文本;对所述待分析文本进行分词处理;确定各分词分别所属的语义标签;将所述各分词分别所属的语义标签与匹配规则进行匹配,得到所述各分词分别所属的语义标签与所述匹配规则中的第一规则匹配的匹配结果,并根据所述匹配结果确定分析结果。

【技术特征摘要】
1.一种信息分析的方法,其特征在于,包括:接收用户输入的待分析文本;对所述待分析文本进行分词处理;确定各分词分别所属的语义标签;将所述各分词分别所属的语义标签与匹配规则进行匹配,得到所述各分词分别所属的语义标签与所述匹配规则中的第一规则匹配的匹配结果,并根据所述匹配结果确定分析结果。2.根据权利要求1所述的方法,其特征在于,所述将所述各分词分别所属的语义标签与匹配规则进行匹配,得到所述各分词分别所属的语义标签与所述匹配规则中的第一规则匹配的匹配结果,并根据所述匹配结果确定分析结果,包括:将所述各分词分别所属的语义标签作为主串,输入至AC自动机进行匹配,确定匹配的终节点为第一节点,并从所述第一节点的输出表获得所述分析结果;其中,所述AC自动机中各节点的转向表根据所述匹配规则生成;所述AC自动机的根节点到所述第一节点的路径与所述第一规则对应。3.根据权利要求2所述的方法,其特征在于,所述将所述各分词分别所属的语义标签作为主串,输入至AC自动机进行匹配之前,还包括:根据所述匹配规则,生成所述各节点的转向表;所述转向表中包括预设语义标签以及与所述预设语义标签对应的所述各节点的下一级节点;根据所述各节点作为终节点时分别对应的分析结果,生成所述各节点的输出表。4.根据权利要求3所述的方法,其特征在于,所述匹配规则包括采用正则表达式和所述预设语义标签描述的规则,以及仅采用所述预设语义标签描述的规则;所述将所述各分词分别所属的语义标签作为主串,输入至AC自动机进行匹配之前,还包括:根据所述采用正则表达式和所述预设语义标签描述的规则,生成所述各节点的正则表;所述正则表中包括所述预设语义标签、与所述预设语义标签对应的所述各节点的下一级节点以及与所述预设语义标签对应的正则表达式;相应的,所述根据所述匹配规则,生成所述各节点的转向表,包括:根据所述匹配规则中采用所述预设语义标签描述的规则,生成所述各节点的转向表。5.根据权利要求4所述的方法,其特征在于,所述将所述各分词分别所属的语义标签作为主串,输入至AC自动机进行匹配,包括:判断所述各分词分别所属的语义标签中的第N个语义标签是否包括在第二节点的转向表中;其中,N为大于0小于M的正整数,M为所述语义标签的个数,所述第二节点为根节点的第N-1级子节点;若是,则转移至所述第二节点的转向表中所述第N个语义标签对应的第三节点,形成所述第二节点与所述第三节点之间的路径;判断所述第N个语义标签是否包括在所述第二节点的正则表中,且所述第N个语义标签对应的分词满足所述第二节点的正则表中所述第N个语义标签对应的正则表达式;若是,则转移至所述第二节点的正则表中所述第N个语义标签对应的第四节点,形成所述第二节点与所述第四节点之间的路径。6.根据权利要求1-5任一项所述的方法,其特征在于,所述确定各分词分别所属的语义标签之前,还包括:将所述各分词中的无效分词去除,获得所述各分词中的有效分词;所述确定各分词...

【专利技术属性】
技术研发人员:杨锦峰
申请(专利权)人:北京城市网邻信息技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1