文本热点提取方法及装置制造方法及图纸

技术编号:21892192 阅读:29 留言:0更新日期:2019-08-17 14:37
本发明专利技术实施例涉及一种文本热点提取方法及装置,包括:采用正则表达式对输入的至少一个文本数据按照设定规则进行分割处理,得到多个第一短文本数据;采用依存句法分析算法将第二短文本数据生成对应的第四短文本数据;将第三短文本数据和第四文短本数据进行向量化处理,得到对应的多个文本向量;基于相似度算法确定任意两个文本向量之间的相似度;将相似度大于相似度阈值的两个文本向量进行合并处理,句法分析抽取关系词而组成的短句提高了信息抽取的可观性和准确度,让用户可以更好的理解文本内容从而获取核心关键信息点,通过Word2vec将短句向量化进行相似度对比,保留词语之间的语义信息,从而保证了排重工作的准确性,尽可能的避免了热点信息的冗余。

Method and Device for Text Hotspot Extraction

【技术实现步骤摘要】
文本热点提取方法及装置
本专利技术实施例涉及数据处理领域,尤其涉及一种文本热点提取方法及装置。
技术介绍
热点抽取是根据已知文本抽取其核心摘要式短句作为分类类别,从而实现用户在应用平台上快速找到感兴趣的事件话题,并进行相关信息获取的功能。为了提高信息抽取的准确性及促进抽取结果的可理解化,本方案提出采用基于依存句法分析技术方法来实现抽取存在语义理解的短文本;并基于相似度技术进行抽取结果的合并。目前较多的相关信息抽取任务是基于关键词的抽取技术进行的,关键词既可以是单个的词语,也可以是若干词语组成的短语,是表达文档主题意义的最小单位。然而,关键词抽取只能识别文档中对某一事件或话题最具有代表性片段或词汇,并不能准确反映文本的整体内容。
技术实现思路
鉴于此,为了解决上述技术问题或者至少部分地解决上述技术问题,本专利技术实施例提供一种文本热点提取方法及装置。第一方面,本专利技术实施例提供一种文本热点提取方法,包括:采用正则表达式对输入的至少一个文本数据按照设定规则进行分割处理,得到多个第一短文本数据,其中,所述第一短文本数据包括:第二短文本数据和第三短文本数据,所述第二短文本数据对应的字符长度大于设定字符阈值;采用依存句法分析算法将所述第二短文本数据生成对应的第四短文本数据;将所述第三短文本数据和所述第四文短本数据进行向量化处理,得到对应的多个文本向量;基于相似度算法确定任意两个所述文本向量之间的相似度;将所述相似度大于相似度阈值的两个所述文本向量进行合并处理。在一个可能的实施方式中,所述采用依存句法分析算法将所述第二短文本数据生成对应的第四短文本数据,包括:基于HANLP依存句法分析算法确定所述第二短文本数据进行语句成分分析;确定所述第二短文本数据中带有标注语义关系的词语;从所述带有标注语义关系的词语中选取代表所述第二短文本数据的主谓关系词、动宾关系词和核心关系词;根据所述主谓关系词、所述动宾关系词和所述核心关系词,生成对应的第四短文本数据。在一个可能的实施方式中,所述将所述第三短文本数据和所述第四短文本数据进行向量化处理,得到对应的多个文本向量,包括:将所述第三短文本数据和所述第四短文本数据进行分词处理,并采用Word2vec对分词后的结果进行向量化处理;确定向量化处理结果对应的每个短文本数据对应的平均词向量作为文本向量。在一个可能的实施方式中,所述基于相似度算法确定任意两个所述文本向量之间的相似度,包括:基于余弦相似度算法采用第一公式计算任意两个所述文本向量之间的相似度;其中,所述第一公式为:其中,Ai为文本向量A,Bi为文本向量B。在一个可能的实施方式中,所述将所述相似度大于相似度阈值的两个所述文本向量进行合并处理,包括:当所述相似度大于相似度阈值时,则确定两个所述文本向量属于同类话题;将两个所述文本对应的短文本数据进行重新排列,确定两个所述短文本数据中频数最高的词进行合并,得到合并后的第五短文本数据。第二方面,本专利技术实施例提供一种文本热点提取装置,包括:分割模块,用于采用正则表达式对输入的至少一个文本数据按照设定规则进行分割处理,得到多个第一短文本数据,其中,所述第一短文本数据包括:第二短文本数据和第三短文本数据,所述第二短文本数据对应的字符长度大于设定字符阈值;生成模块,用于采用依存句法分析算法将所述第二短文本数据生成对应的第四短文本数据;处理模块,用于将所述第三短文本数据和所述第四文短本数据进行向量化处理,得到对应的多个文本向量;计算模块,用于基于相似度算法确定任意两个所述文本向量之间的相似度;合并模块,用于将所述相似度大于相似度阈值的两个所述文本向量进行合并处理。在一个可能的实施方式中,所述生成模块,具体用于基于HANLP依存句法分析算法确定所述第二短文本数据进行语句成分分析;确定所述第二短文本数据中带有标注语义关系的词语;从所述带有标注语义关系的词语中选取代表所述第二短文本数据的主谓关系词、动宾关系词和核心关系词;根据所述主谓关系词、所述动宾关系词和所述核心关系词,生成对应的第四短文本数据。在一个可能的实施方式中,所述处理模块,具体用于将所述第三短文本数据和所述第四短文本数据进行分词处理,并采用Word2vec对分词后的结果进行向量化处理;确定向量化处理结果对应的每个短文本数据对应的平均词向量作为文本向量。在一个可能的实施方式中,所述计算模块,具体用于基于余弦相似度算法采用第一公式计算任意两个所述文本向量之间的相似度;其中,所述第一公式为:其中,Ai为文本向量A,Bi为文本向量B。在一个可能的实施方式中,所述合并模块,具体用于当所述相似度大于相似度阈值时,则确定两个所述文本向量属于同类话题;将两个所述文本对应的短文本数据进行重新排列,确定两个所述短文本数据中频数最高的词进行合并,得到合并后的第五短文本数据。本专利技术实施例提供的文本热点提取方案,通过采用正则表达式对输入的至少一个文本数据按照设定规则进行分割处理,得到多个第一短文本数据;采用依存句法分析算法将所述第二短文本数据生成对应的第四短文本数据;将所述第三短文本数据和所述第四文短本数据进行向量化处理,得到对应的多个文本向量;基于相似度算法确定任意两个所述文本向量之间的相似度;将所述相似度大于相似度阈值的两个所述文本向量进行合并处理,基于句法分析抽取关系词而组成的短句提高了信息抽取的可观性和准确度,让用户可以更好的理解文本内容从而获取核心关键信息点,通过Word2vec将短句向量化进行相似度对比,保留词语之间的语义信息,从而保证了排重工作的准确性,尽可能的避免了热点信息的冗余。附图说明图1为本专利技术实施例提供的一种文本热点提取方法的流程示意图;图2为本专利技术实施例涉及的生成第四短文本数据的流程示意图;图3为本专利技术实施例涉及的成分关系的有向图的示意图;图4为本专利技术实施例提供的一种文本热点提取装置的结构示意图;图5为本专利技术实施例提供的一种文本热点提取设备的硬件结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。为便于对本专利技术实施例的理解,下面将结合附图以具体实施例做进一步的解释说明,实施例并不构成对本专利技术实施例的限定。图1为本专利技术实施例提供的一种文本热点提取方法的流程示意图,如图1所示,该方法具体包括:S11、采用正则表达式对输入的至少一个文本数据按照设定规则进行分割处理,得到多个第一短文本数据。在本实施例中,输入的至少一个文本数据可以是针对爬虫获取的互联网文本数据,基于单个文本数据的输入,使用正则表达式按照指定的格式,基于标点符号分割文档,返回文档分割后的多个第一短文本数据,生成短句列表,其中,所述第一短文本数据包括:第二短文本数据和第三短文本数据,所述第二短文本数据对应的字符长度大于设定字符阈值,第三短文本数据对应的字符长度不大于设定字符阈值。需要说明的是,对于字符阈值可以根据实际需求进行设定,如2、4、6、8、10等,对此,本实施例不作具体限定。S12、采用依存句法分析算法将所本文档来自技高网...

【技术保护点】
1.一种文本热点提取方法,其特征在于,包括:采用正则表达式对输入的至少一个文本数据按照设定规则进行分割处理,得到多个第一短文本数据,其中,所述第一短文本数据包括:第二短文本数据和第三短文本数据,所述第二短文本数据对应的字符长度大于设定字符阈值;采用依存句法分析算法将所述第二短文本数据生成对应的第四短文本数据;将所述第三短文本数据和所述第四短文本数据进行向量化处理,得到对应的多个文本向量;基于相似度算法确定任意两个所述文本向量之间的相似度;将所述相似度大于相似度阈值的两个所述文本向量进行合并处理。

【技术特征摘要】
1.一种文本热点提取方法,其特征在于,包括:采用正则表达式对输入的至少一个文本数据按照设定规则进行分割处理,得到多个第一短文本数据,其中,所述第一短文本数据包括:第二短文本数据和第三短文本数据,所述第二短文本数据对应的字符长度大于设定字符阈值;采用依存句法分析算法将所述第二短文本数据生成对应的第四短文本数据;将所述第三短文本数据和所述第四短文本数据进行向量化处理,得到对应的多个文本向量;基于相似度算法确定任意两个所述文本向量之间的相似度;将所述相似度大于相似度阈值的两个所述文本向量进行合并处理。2.根据权利要求1所述的方法,其特征在于,所述采用依存句法分析算法将所述第二短文本数据生成对应的第四短文本数据,包括:基于HANLP依存句法分析算法确定所述第二短文本数据进行语句成分分析;确定所述第二短文本数据中带有标注语义关系的词语;从所述带有标注语义关系的词语中选取代表所述第二短文本数据的主谓关系词、动宾关系词和核心关系词;根据所述主谓关系词、所述动宾关系词和所述核心关系词,生成对应的第四短文本数据。3.根据权利要求2所述的方法,其特征在于,所述将所述第三短文本数据和所述第四短文本数据进行向量化处理,得到对应的多个文本向量,包括:将所述第三短文本数据和所述第四短文本数据进行分词处理,并采用Word2vec对分词后的结果进行向量化处理;确定向量化处理结果对应的每个短文本数据对应的平均词向量作为文本向量。4.根据权利要求1所述的方法,其特征在于,所述基于相似度算法确定任意两个所述文本向量之间的相似度,包括:基于余弦相似度算法采用第一公式计算任意两个所述文本向量之间的相似度;其中,所述第一公式为:其中,Ai为文本向量A,Bi为文本向量B。5.根据权利要求4所述的方法,其特征在于,所述将所述相似度大于相似度阈值的两个所述文本向量进行合并处理,包括:当所述相似度大于相似度阈值时,则确定两个所述文本向量属于同类话题;将两个所述文本对应的短文本数据进行重新排列,确定两...

【专利技术属性】
技术研发人员:王宇琪孔庆超黄秋曼方省曹家罗引王磊赵菲菲张西娜
申请(专利权)人:北京中科闻歌科技股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1