文本热点提取方法及装置制造方法及图纸

技术编号：21892192 阅读：29 留言：0更新日期：2019-08-17 14:37

本发明专利技术实施例涉及一种文本热点提取方法及装置，包括：采用正则表达式对输入的至少一个文本数据按照设定规则进行分割处理，得到多个第一短文本数据；采用依存句法分析算法将第二短文本数据生成对应的第四短文本数据；将第三短文本数据和第四文短本数据进行向量化处理，得到对应的多个文本向量；基于相似度算法确定任意两个文本向量之间的相似度；将相似度大于相似度阈值的两个文本向量进行合并处理，句法分析抽取关系词而组成的短句提高了信息抽取的可观性和准确度，让用户可以更好的理解文本内容从而获取核心关键信息点，通过Word2vec将短句向量化进行相似度对比，保留词语之间的语义信息，从而保证了排重工作的准确性，尽可能的避免了热点信息的冗余。

Method and Device for Text Hotspot Extraction

全部详细技术资料下载

【技术实现步骤摘要】
文本热点提取方法及装置
本专利技术实施例涉及数据处理领域，尤其涉及一种文本热点提取方法及装置。
技术介绍
热点抽取是根据已知文本抽取其核心摘要式短句作为分类类别，从而实现用户在应用平台上快速找到感兴趣的事件话题，并进行相关信息获取的功能。为了提高信息抽取的准确性及促进抽取结果的可理解化，本方案提出采用基于依存句法分析技术方法来实现抽取存在语义理解的短文本；并基于相似度技术进行抽取结果的合并。目前较多的相关信息抽取任务是基于关键词的抽取技术进行的，关键词既可以是单个的词语，也可以是若干词语组成的短语，是表达文档主题意义的最小单位。然而，关键词抽取只能识别文档中对某一事件或话题最具有代表性片段或词汇，并不能准确反映文本的整体内容。
技术实现思路
鉴于此，为了解决上述技术问题或者至少部分地解决上述技术问题，本专利技术实施例提供一种文本热点提取方法及装置。第一方面，本专利技术实施例提供一种文本热点提取方法，包括：采用正则表达式对输入的至少一个文本数据按照设定规则进行分割处理，得到多个第一短文本数据，其中，所述第一短文本数据包括：第二短文本数据和第三短文本数据，所述第二短文本数据对应的字符长度大于设定字符阈值；采用依存句法分析算法将所述第二短文本数据生成对应的第四短文本数据；将所述第三短文本数据和所述第四文短本数据进行向量化处理，得到对应的多个文本向量；基于相似度算法确定任意两个所述文本向量之间的相似度；将所述相似度大于相似度阈值的两个所述文本向量进行合并处理。在一个可能的实施方式中，所述采用依存句法分析算法将所述第二短文本数据生成对应的第四短文本数据，包括：基于HAN...

【技术保护点】
1.一种文本热点提取方法，其特征在于，包括：采用正则表达式对输入的至少一个文本数据按照设定规则进行分割处理，得到多个第一短文本数据，其中，所述第一短文本数据包括：第二短文本数据和第三短文本数据，所述第二短文本数据对应的字符长度大于设定字符阈值；采用依存句法分析算法将所述第二短文本数据生成对应的第四短文本数据；将所述第三短文本数据和所述第四短文本数据进行向量化处理，得到对应的多个文本向量；基于相似度算法确定任意两个所述文本向量之间的相似度；将所述相似度大于相似度阈值的两个所述文本向量进行合并处理。

【技术特征摘要】
1.一种文本热点提取方法，其特征在于，包括：采用正则表达式对输入的至少一个文本数据按照设定规则进行分割处理，得到多个第一短文本数据，其中，所述第一短文本数据包括：第二短文本数据和第三短文本数据，所述第二短文本数据对应的字符长度大于设定字符阈值；采用依存句法分析算法将所述第二短文本数据生成对应的第四短文本数据；将所述第三短文本数据和所述第四短文本数据进行向量化处理，得到对应的多个文本向量；基于相似度算法确定任意两个所述文本向量之间的相似度；将所述相似度大于相似度阈值的两个所述文本向量进行合并处理。2.根据权利要求1所述的方法，其特征在于，所述采用依存句法分析算法将所述第二短文本数据生成对应的第四短文本数据，包括：基于HANLP依存句法分析算法确定所述第二短文本数据进行语句成分分析；确定所述第二短文本数据中带有标注语义关系的词语；从所述带有标注语义关系的词语中选取代表所述第二短文本数据的主谓关系词、动宾关系词和核心关系词；根据所述主谓关系词、所述动宾关系词和所述核心关系词，生成对应的第四短文本数据。3.根据权利要求2所述的方法，其特征在于，所述将所述第三短文本数据和所述第四短文本数据进行向量化处理，得到对应的多个文本向量，包括：将所述第三短文本数据和所述第四短文本数据进行分词处理，并采用Word2vec对分词后的结果进行向量化处理；确定向量化处理结果对应的每个短文本数据对应的平均词向量作为文本向量。4.根据权利要求1所述的方法，其特征在于，所述基于相似度算法确定任意两个所述文本向量之间的相似度，包括：基于余弦相似度算法采用第一公式计算任意两个所述文本向量之间的相似度；其中，所述第一公式为：其中，Ai为文本向量A，Bi为文本向量B。5.根据权利要求4所述的方法，其特征在于，所述将所述相似度大于相似度阈值的两个所述文本向量进行合并处理，包括：当所述相似度大于相似度阈值时，则确定两个所述文本向量属于同类话题；将两个所述文本对应的短文本数据进行重新排列，确定两...

【专利技术属性】
技术研发人员：王宇琪，孔庆超，黄秋曼，方省，曹家，罗引，王磊，赵菲菲，张西娜，
申请(专利权)人：北京中科闻歌科技股份有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人