【技术实现步骤摘要】
信息分析的方法及装置
本专利技术涉及信息
,尤其涉及一种信息分析的方法及装置。
技术介绍
随着互联网的普及和海量信息的涌现,如何快速有效的分析信息已成为制约信息技术发展的一个全局性问题。现有技术中,一种信息分析的方法为根据匹配规则对待分析文本中的关键字进行匹配,并根据匹配结果确定分析结果,该分析结果例如可以为待分析文本所属的分类、待分析文本对应的操作需求或待分析文本匹配的某个或某些关键字等。其中,该匹配规则为根据预先确定的关键字所设定的匹配规则。但是,现有技术中存在匹配规则较多的问题。
技术实现思路
本专利技术提供一种信息分析的方法及装置,用以解决现有技术中匹配规则较多的问题。本专利技术提供一种信息分析的方法,包括:接收用户输入的待分析文本;对所述待分析文本进行分词处理;确定各分词分别所属的语义标签;将所述各分词分别所属的语义标签与匹配规则进行匹配,得到所述各分词分别所属的语义标签与所述匹配规则中的第一规则匹配的匹配结果,并根据所述匹配结果确定分析结果。可选的,在本专利技术一实施例中,所述将所述各分词分别所属的语义标签与匹配规则进行匹配,得到所述各分词分别所属的语义标签与所述匹配规则中的第一规则匹配的匹配结果,并根据所述匹配结果确定分析结果,包括:将所述各分词分别所属的语义标签作为主串,输入至AC自动机进行匹配,确定匹配的终节点为第一节点,并从所述第一节点的输出表获得所述分析结果;其中,所述AC自动机中各节点的转向表根据所述匹配规则生成;所述AC自动机的根节点到所述第一节点的路径与所述第一规则对应。可选的,在本专利技术一实施例中,所述将所述各分词分别所属 ...
【技术保护点】
一种信息分析的方法,其特征在于,包括:接收用户输入的待分析文本;对所述待分析文本进行分词处理;确定各分词分别所属的语义标签;将所述各分词分别所属的语义标签与匹配规则进行匹配,得到所述各分词分别所属的语义标签与所述匹配规则中的第一规则匹配的匹配结果,并根据所述匹配结果确定分析结果。
【技术特征摘要】
1.一种信息分析的方法,其特征在于,包括:接收用户输入的待分析文本;对所述待分析文本进行分词处理;确定各分词分别所属的语义标签;将所述各分词分别所属的语义标签与匹配规则进行匹配,得到所述各分词分别所属的语义标签与所述匹配规则中的第一规则匹配的匹配结果,并根据所述匹配结果确定分析结果。2.根据权利要求1所述的方法,其特征在于,所述将所述各分词分别所属的语义标签与匹配规则进行匹配,得到所述各分词分别所属的语义标签与所述匹配规则中的第一规则匹配的匹配结果,并根据所述匹配结果确定分析结果,包括:将所述各分词分别所属的语义标签作为主串,输入至AC自动机进行匹配,确定匹配的终节点为第一节点,并从所述第一节点的输出表获得所述分析结果;其中,所述AC自动机中各节点的转向表根据所述匹配规则生成;所述AC自动机的根节点到所述第一节点的路径与所述第一规则对应。3.根据权利要求2所述的方法,其特征在于,所述将所述各分词分别所属的语义标签作为主串,输入至AC自动机进行匹配之前,还包括:根据所述匹配规则,生成所述各节点的转向表;所述转向表中包括预设语义标签以及与所述预设语义标签对应的所述各节点的下一级节点;根据所述各节点作为终节点时分别对应的分析结果,生成所述各节点的输出表。4.根据权利要求3所述的方法,其特征在于,所述匹配规则包括采用正则表达式和所述预设语义标签描述的规则,以及仅采用所述预设语义标签描述的规则;所述将所述各分词分别所属的语义标签作为主串,输入至AC自动机进行匹配之前,还包括:根据所述采用正则表达式和所述预设语义标签描述的规则,生成所述各节点的正则表;所述正则表中包括所述预设语义标签、与所述预设语义标签对应的所述各节点的下一级节点以及与所述预设语义标签对应的正则表达式;相应的,所述根据所述匹配规则,生成所述各节点的转向表,包括:根据所述匹配规则中采用所述预设语义标签描述的规则,生成所述各节点的转向表。5.根据权利要求4所述的方法,其特征在于,所述将所述各分词分别所属的语义标签作为主串,输入至AC自动机进行匹配,包括:判断所述各分词分别所属的语义标签中的第N个语义标签是否包括在第二节点的转向表中;其中,N为大于0小于M的正整数,M为所述语义标签的个数,所述第二节点为根节点的第N-1级子节点;若是,则转移至所述第二节点的转向表中所述第N个语义标签对应的第三节点,形成所述第二节点与所述第三节点之间的路径;判断所述第N个语义标签是否包括在所述第二节点的正则表中,且所述第N个语义标签对应的分词满足所述第二节点的正则表中所述第N个语义标签对应的正则表达式;若是,则转移至所述第二节点的正则表中所述第N个语义标签对应的第四节点,形成所述第二节点与所述第四节点之间的路径。6.根据权利要求1-5任一项所述的方法,其特征在于,所述确定各分词分别所属的语义标签之前,还包括:将所述各分词中的无效分词去除,获得所述各分词中的有效分词;所述确定各分词...
【专利技术属性】
技术研发人员:杨锦峰,
申请(专利权)人:北京城市网邻信息技术有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。