文本信息分类方法、系统、设备及可读存储介质技术方案

技术编号:29255335 阅读:12 留言:0更新日期:2021-07-13 17:26
本申请提供文本信息分类方法、系统、设备及可读存储介质,其文本信息分类方法包括:获取文本信息;从所述文本信息内包含外事关键信息的候选语句中匹配触发词以得到事件语句,其中,所述触发词包含于触发词词典;基于匹配结果,对所述文本信息进行外事事件分类;将分类的结果存入数据库中和/或将分类的结果予以显示。所述外事事件分类的类别包括:出访事件、来访事件、以及非外事事件。本申请可在有效降低分析外事事件难度的同时保证处理的效率和准确性。

【技术实现步骤摘要】
文本信息分类方法、系统、设备及可读存储介质
本申请涉及移动通信
,特别是涉及文本信息分类方法、系统、设备及可读存储介质。
技术介绍
通常外事事件文本具有较高的复杂性,目前的文本处理技术无法有效识别外事事件文本中的关键信息并将其分类,不利于外事事件的高效分析。在现有方案中,针对文本信息分类多采用人工识别或机器学习的方式。其中,人工识别的方式通常效率低下,且人力成本高,耗时耗力,不具有实时处理大规模文本的能力;而机器学习虽能实时处理大规模文本,但其依赖于大量的样本训练,存在较严重的数据稀疏问题,准确度低。因此,如何在有效降低分析外事事件难度的同时保证处理的效率和准确性已成为本领域技术人员以期解决的技术问题。
技术实现思路
鉴于以上所述现有技术的缺点,本申请的目的在于提供文本信息分类方法、系统、设备及可读存储介质,用于解决现有技术中如何在有效降低分析外事事件难度的同时保证处理的效率和准确性的问题。为实现上述目的及其他相关目的,本申请的第一方面提供一种文本信息分类方法,包括以下步骤:获取文本信息;从所述文本信息内包含外事关键信息的候选语句中匹配触发词以得到事件语句;其中,所述触发词包含于触发词词典;基于匹配结果,对所述文本信息进行外事事件分类;所述外事事件分类的类别包括:出访事件、来访事件、以及非外事事件;将分类的结果存入数据库中和/或将分类的结果予以显示。在本申请的第一方面的某些实施方式中,所述基于匹配结果,对所述文本信息进行分类的步骤包括:若匹配成功且所述触发词属于能直接进行外事事件分类的第一分类类型,则将所述文本信息确定为与所述第一分类类型预先关联的出访事件或来访事件分类;若匹配成功且所述触发词属于能间接进行外事事件分类的第二分类类型,则对所述事件语句进行句法分析以得到所述事件语句中各词汇之间的句法关系,并根据由所述句法关系和提取自事件语句的各角色实体对象得到的相关于所述触发词的语法特征、该触发词的语义、所述各角色实体对象所关联的国别属性、以及提取自所述事件语句的事件发生地点及其所关联的国别属性,对所述文本信息进行出访事件或来访事件分类;若匹配失败或所述触发词属于不能通过触发词词典进行外事事件分类的第三分类类型,对所述事件语句进行句法分析以得到所述事件语句中的动词以及各词汇之间的句法关系,并根据所述动词的语义、以及所述各词汇之间的句法关系对所述文本信息进行出访事件或来访事件分类。在本申请的第一方面的某些实施方式中,所述角色实体对象是由所述事件语句中属于同一角色的实体名称整合形成的。在本申请的第一方面的某些实施方式中,所述每一事件语句中的各词汇对应有实体名称,所述实体名称包括:姓名、职位、组织机构和/或公司、以及地点。在本申请的第一方面的某些实施方式中,所述整合的步骤包括:以角色名称、连词或介词为切分点,对所述事件语句进行切分;将切分后的事件语句中属于同一角色的实体名称整合以形成每一角色的角色实体对象。在本申请的第一方面的某些实施方式中,所述根据由所述句法关系和提取自事件语句的各角色实体对象得到的相关于所述触发词的语法特征、该触发词的语义、所述各角色实体对象所关联的国别属性、以及提取自所述事件语句的事件发生地点及其所关联的国别属性,对所述文本信息进行出访事件或来访事件分类的步骤包括:根据所述触发词的语义,判断与该触发词在语法特征上相关的各相关角色实体对象相对于所述触发词的执行身份;所述执行身份包括:访问方及被访问方;根据各所述角色实体对象的执行身份及其国别属性、以及事件发生地点及其国别属性,以确定访问方或被访问方同事件发生地点间的国别属性的异同,据以进行外事事件分类。在本申请的第一方面的某些实施方式中,所述根据对所述事件语句进行句法分析以得到所述事件语句中的动词以及各词汇之间的句法关系,并根据所述动词的语义、以及所述各词汇之间的句法关系对所述文本信息进行出访事件或来访事件分类的步骤包括:利用依存句法分析对所述事件语句进行句法解析,以确定事件语句中的动词及其子节点,并根据子节点和动词间的句法关系确定子节点为外事事件的施事方或受事方;根据所述动词的词义、及该施事方和受事方对所述文本信息进行外事事件分类,以分类至外事事件分类还包括的其它事件分类中。在本申请的第一方面的某些实施方式中,所述从所述文本信息内包含外事关键信息的候选语句中匹配触发词以得到事件语句的步骤包括:对所述文本信息进行分句处理以通过模式匹配判断每一分句是否包含关键信息,并将包含关键信息的分句确定为候选语句;依据所述触发词词典,从所述候选语句中匹配触发词以得到包含触发词的候选语句,并将包含触发词的候选语句确定为事件语句。在本申请的第一方面的某些实施方式中,所述外事关键信息包括:时间信息、角色信息、及地点信息。在本申请的第一方面的某些实施方式中,所述获取的文本信息是经过预处理的。在本申请的第一方面的某些实施方式中,所述将分类的结果存入数据库中和/或将分类的结果予以显示的步骤包括:将每一分类结果对应于相应的分类类别颜色并予以显示,或者将每一分类结果对应于相应的分类类别栏目并予以显示。在本申请的第一方面的某些实施方式中,还包括基于匹配结果,对所述事件语句进行句法分析以得到所述事件语句中各词汇之间的句法关系,并至少根据所述各词汇之间的句法关系、以及所述触发词的语义提取所述事件语句中的要素。在本申请的第一方面的某些实施方式中,还包括根据预设的要素类型,将提取的要素与所述要素类型相匹配,并将匹配的要素类型存入数据库和/或将匹配的要素类型予以显示。本申请的第二方面还提供一种触发词词典构建方法,包括以下步骤:获取相关于外事事件的至少一文本信息;对所述至少一文本信息进行统计分析,以得到所述至少一文本信息中出现词频高于预设值的关键词;构建与每个所述关键词的语义相关的触发词分类类型,且由每种触发词分类类型对应的触发词集合构成触发词词典;其中,所述触发词分类类型包括第一分类类型、第二分类类型、以及第三分类类型。在本申请的第二方面的某些实施方式中,所述第一分类类型包括出访事件和来访事件。本申请的第三方面还提供一种文本信息分类系统,包括:通信单元,用以获取文本信息;处理单元,用以从所述文本信息内包含外事关键信息的候选语句中匹配触发词以得到事件语句;其中,所述触发词包含于触发词词典;以及,用以基于匹配结果,对所述文本信息进行外事事件分类;所述外事事件分类的类别包括:出访事件、来访事件、以及非外事事件;存储单元和/或显示单元,用以将分类的结果存入数据库中和/或将分类的结果予以显示。在本申请的第三方面的某些实施方式中,所述处理单元基于匹配结果对所述文本信息进行外事事件分类中包括:若匹配成功且所述触发词属于能直接进行外事事件分类的第一分类类型,则将所述文本信息确定为与所述第一分类类型预先关联的出访事件或来访事件分类;若匹配成功且所述触发词属于能间接进行外事事件分类的第二分类类型,则对所述事件语句进行句法分析以得到所述事件语句中各词汇之间的句法关系,并根据由本文档来自技高网...

【技术保护点】
1.一种文本信息分类方法,其特征在于,包括以下步骤:/n获取文本信息;/n从所述文本信息内包含外事关键信息的候选语句中匹配触发词以得到事件语句;其中,所述触发词包含于触发词词典;/n基于匹配结果,对所述文本信息进行外事事件分类;所述外事事件分类的类别包括:出访事件、来访事件、以及非外事事件;/n将分类的结果存入数据库中和/或将分类的结果予以显示。/n

【技术特征摘要】
1.一种文本信息分类方法,其特征在于,包括以下步骤:
获取文本信息;
从所述文本信息内包含外事关键信息的候选语句中匹配触发词以得到事件语句;其中,所述触发词包含于触发词词典;
基于匹配结果,对所述文本信息进行外事事件分类;所述外事事件分类的类别包括:出访事件、来访事件、以及非外事事件;
将分类的结果存入数据库中和/或将分类的结果予以显示。


2.根据权利要求1所述的文本信息分类方法,其特征在于,所述基于匹配结果,对所述文本信息进行分类的步骤包括:
若匹配成功且所述触发词属于能直接进行外事事件分类的第一分类类型,则将所述文本信息确定为与所述第一分类类型预先关联的出访事件或来访事件分类;
若匹配成功且所述触发词属于能间接进行外事事件分类的第二分类类型,则对所述事件语句进行句法分析以得到所述事件语句中各词汇之间的句法关系,并根据由所述句法关系和提取自事件语句的各角色实体对象得到的相关于所述触发词的语法特征、该触发词的语义、所述各角色实体对象所关联的国别属性、以及提取自所述事件语句的事件发生地点及其所关联的国别属性,对所述文本信息进行出访事件或来访事件分类;
若匹配失败或所述触发词属于不能通过触发词词典进行外事事件分类的第三分类类型,对所述事件语句进行句法分析以得到所述事件语句中的动词以及各词汇之间的句法关系,并根据所述动词的语义、以及所述各词汇之间的句法关系对所述文本信息进行出访事件或来访事件分类。


3.根据权利要求2所述的文本信息分类方法,其特征在于,所述角色实体对象是由所述事件语句中属于同一角色的实体名称整合形成的。


4.根据权利要求1或3所述的文本信息分类方法,其特征在于,所述每一事件语句中的各词汇对应有实体名称,所述实体名称包括:姓名、职位、组织机构和/或公司、以及地点。


5.根据权利要求3所述的文本信息分类方法,其特征在于,所述整合的步骤包括:
以角色名称、连词或介词为切分点,对所述事件语句进行切分;
将切分后的事件语句中属于同一角色的实体名称整合以形成每一角色的角色实体对象。


6.根据权利要求2所述的文本信息分类方法,其特征在于,所述根据由所述句法关系和提取自事件语句的各角色实体对象得到的相关于所述触发词的语法特征、该触发词的语义、所述各角色实体对象所关联的国别属性、以及提取自所述事件语句的事件发生地点及其所关联的国别属性,对所述文本信息进行出访事件或来访事件分类的步骤包括:
根据所述触发词的语义,判断与该触发词在语法特征上相关的各相关角色实体对象相对于所述触发词的执行身份;所述执行身份包括:访问方及被访问方;
根据各所述角色实体对象的执行身份及其国别属性、以及事件发生地点及其国别属性,以确定访问方或被访问方同事件发生地点间的国别属性的异同,据以进行外事事件分类。


7.根据权利要求2所述的文本信息分类方法,其特征在于,所述根据对所述事件语句进行句法分析以得到所述事件语句中的动词以及各词汇之间的句法关系,并根据所述动词的语义、以及所述各词汇之间的句法关系对所述文本信息进行出访事件或来访事件分类的步骤包括:
利用依存句法分析对所述事件语句进行句法解析,以确定事件语句中的动词及其子节点,并根据子节点和动词间的句法关系确定子节点为外事事件的施事方或受事方;
根据所述动词的词义、及该施事方和受事方对所述文本信息进行外事事件分类,以分类至外事事件分类还包括的其它事件分类中。


8.根据权利要求1所述的文本信息分类方法,其特征在于,所述从所述文本信息内包含外事关键信息的候选语句中匹配触发词以得到事件语句的步骤包括:
对所述文本信息进行分句处理以通过模式匹配判断每一分句是否包含关键信息,并将包含关键信息的分句确定为候选语句;
依据所述触发词词典,从所述候选语句中匹配触发词以得到包含触发词的候选语句,并将包含触发词的候选语句确定为事件语句。


9.根据权利要求1或8所述的文本信息分类方法,其特征在于,所述外事关键信息包括:时间信息、角色信息、及地点信息。


10.根据权利要求1所述的文本信息分类方法,其特征在于,所述获取的文本信息是经过预处理的。


11.根据权利要求1所述的文本信息分类方法,其特征在于,所述将分类的结果存入数据库中和/或将分类的结果予以显示的步骤包括:将每一分类结果对应于相应的分类类别颜色并予以显示,或者将每一分类结果对应于相应的分类类别栏目并予以显示。


12.根据权利要求1所述的文本信息分类方法,其特征在于,还包括基于匹配结果,对所述事件语句进行句法分析以得到所述事件语句中各词汇之间的句法关系,并至少根据所述各词汇之间的句法关系、以及所述触发词的语义提取所述事件语句中的要素。


13.根据权利要求12所述的文本信息分类方法,其特征在于,还包括根据预设的要素类型,将提取的要素与所述要素类型相匹配,并将匹配的要素类型存入数据库和/或将匹配的要素类型予以显示。


14.一种触发词词典构建方法,其特征在于,包括以下步骤:
获取相关于外事事件的至少一文本信息;
对所述至少一文本信息进行统计分析,以得到所述至少一文本信息中出现词频高于预设值的关键词;
构建与每个所述关键词的语义相关的触发词分类类型,且由每种触发词分类类型对应的触发词集合构成触发词词典;其中,所述触发词分类类型包括第一分类类型、第二分类类型、以及第三分类类型。


15.根据权利要求14所述的触发词词典构建方法,其特征在于,所述第一分类类型包括出访事件和来访事件。


16.一种文本信息分类系统,其特征在于,包括:
通信单元,用以获取文本信息;
处理单元,用以从所述文本信息内包含外事关键信息的候选语句中匹配触发词以得到事件语句;其中,所述触发词包含于触发词词典;以及,用以基于匹配结果,对所述文本信息进行外事事件分类;所述外事...

【专利技术属性】
技术研发人员:胡殿明刘雨亮李强
申请(专利权)人:图灵人工智能研究院南京有限公司感易智能科技南京有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1