一种基于开源软件的邮件服务应用制造技术

技术编号:33739341 阅读:14 留言:0更新日期:2022-06-08 21:37
一种基于开源软件的邮件服务应用,其步骤为:A从邮件归档服务器上爬取目标开源软件的邮件归档文件;依据邮件头部域将邮件归档文件分割成多封单独的邮件;其中,分割成多封单独的邮件包括:步骤1、用户请求处理步骤:本地服务器接收到关于某项质量证据或质量测度的用户请求,查询本地数据库中是否已有目标软件的最新变更数据;如果本地数据库中存在目标软件的预设时间段N以内的更新数据;步骤2、最新变更数据下载步骤:本地服务器在互联网上搜索并确定具有目标软件的最新变更数据的一定数量的远端服务器;依据序列模式挖掘的问题句提取方法相较于传统的基于疑问词的问题句提取方法在准确率上有明显提高。法在准确率上有明显提高。法在准确率上有明显提高。

【技术实现步骤摘要】
一种基于开源软件的邮件服务应用


[0001]本专利技术属于邮件服务
,具体涉及一种基于开源软件的邮件服务应用。

技术介绍

[0002]软件开发人员在项目开发的过程中越来越多地复用开源软件。开源项目通常会提供诸如用户手册、FAQ页面、邮件列表等文档来帮助用户更好地理解和使用开源项目。其中邮件列表中蕴含丰富的软件问答信息。软件开发人员可以到邮件列表中去检索是否有人遇到过相似的问题。但由于邮件的数量巨大,邮件内容组织繁杂等因素使得其不易于被阅读和浏览。若能从邮件列表中定位到问题句和回答句,对进一步整合问题信息以及检索答案会有很大帮助。
[0003]目前,关于问答信息抽取的相关工作主要是基于特征词和疑问标点的方法。但这类方法存在模型过于简单,准确性不高的问题。
[0004]因此,对邮件问答信息进行自动化分析、抽取,进而帮助开发人员高效地获取与开源项目相关的问答信息是一项亟待解决的问题,对软件开发效率的提高有重要意义。

技术实现思路

[0005]为解决上述
技术介绍
中提出的问题。本专利技术提供了一种基于开源软件的邮件服务应用。
[0006]为实现上述目的,本专利技术提供如下技术方案:一种基于开源软件的邮件服务应用,其特征在于:其步骤为:A从邮件归档服务器上爬取目标开源软件的邮件归档文件;依据邮件头部域将邮件归档文件分割成多封单独的邮件;其中,分割成多封单独的邮件包括:步骤1、用户请求处理步骤:本地服务器接收到关于某项质量证据或质量测度的用户请求,查询本地数据库中是否已有目标软件的最新变更数据;如果本地数据库中存在目标软件的预设时间段N以内的更新数据;步骤2、最新变更数据下载步骤:本地服务器在互联网上搜索并确定具有目标软件的最新变更数据的一定数量的远端服务器,从远端服务器下载最新变更数据到本地数据库;步骤3、数据解析步骤:本地服务器对新下载的目标软件的最新变更数据进行解析,从中提取结构化的数据条目存储于后台数据库;步骤4、软件质量测度提取步骤:从解析后的结构化数据中提取软件质量测度,存储于服务器;步骤5、质量证据返回步骤:本地服务器提供目标软件的各种质量证据及其测度分值,返回用户;步骤6、本地服务器数据更新步骤:本地服务器对已有项目进行定期检查,更新相应资源库,重新计算各测度值
B将回复信息域为空的邮件设为一个会话的提问邮件,然后从步骤A得到的邮件中查找回复信息域的域值为该提问邮件的邮件标识ID的邮件,将其加入该会话;从而将同一主题下的邮件组织成邮件对话的形式;C提取各邮件的正文信息并对邮件内容中代码元素进行标注;D从提问邮件的正文信息中提取问题句及其上下文信息;然后基于问题句及其上下文信息和标注的代码元素构建查询条件,在该提问邮件的会话邮件中进行检索;然后从检索结果中选取一邮件作为回答信息。
[0007]作为本专利技术的一种基于开源软件的邮件服务应用优选技术方案,其中结构化的数据条目包括的来自代码控制系统的代码版本号、提交者名称、提交时间、提交所涉及的文件集合、所涉及的代码行;以及来自缺陷控制系统的缺陷号、提出时间、修复时间、缺陷状态、严重程度、优先级;和来自邮件列表的列表发起者、邮件主题、所有接收者名称、邮箱地址、所有回复者名称、邮箱地址。
[0008]作为本专利技术的一种基于开源软件的邮件服务应用优选技术方案,邮件的作者分为项目开发人员、资深用户和普通用户;其中,项目开发人员的权威度>资深用户的权威度>普通用户的权威度,候选答案邮件的作者权威度越大,该候选答案邮件权重越大;根据候选答案邮件的回复时间确定邮件位置对应的权重,候选答案邮件的回复时间越早,该候选答案邮件的权重越大;在邮件会话中,若提问邮件的作者对候选答案邮件做出了肯定的回复,则增大该候选答案邮件的权重。
[0009]作为本专利技术的一种基于开源软件的邮件服务应用优选技术方案,对步骤A得到的邮件进行预处理,其方法为:首先对每一邮件进行分段;然后识别出邮件中的冗余文本段落、邮件引用段落、异常信息段落、代码文本段落、正文信息段落。
[0010]作为本专利技术的一种基于开源软件的邮件服务应用优选技术方案,冗余文本段落的识别方法为:检测邮件第一段落的前两句,若是问候句则将该句从当前段落移除,划分到冗余文本段落;检测邮件结尾之前的两个段落,如果只包含两个以内短句或包含人名、感谢语,则划分到冗余文本段落;所述邮件引用段落的识别方法为:如果段落的第一句匹配某人在某天写道的句式且该段以设定符合“>”开始的行数超过段落总行数的设定比例H,则该段为邮件引用段落;所述异常信息段落的识别方法为:统计段落的总行数和位于行的行数,若位于行的行数占总行数比例超过设定比例L且存在导致行和省略行,则认为该段落是异常信息段落;所述异常描述行为包含设定异常特征词语的行,所述位于行为包含堆栈信息中某个方法的行号的行,所述导致行为包含说明异常出现的原因及位置的行,所述省略行为以省略号开头、以数字后接“more”结尾的行;所述代码文本段落的识别方法为:利用语法解析器从邮件文本段落中抽取符合语法的文本块作为代码文本段落,如果文本段落中包含Java关键词的句子超过该文本段落中句子总数的一半,则判定该文本段落为代码文本段落;将该邮件剩余未识别部分作为该邮件的所述正文信息段落。
[0011]作为本专利技术的一种基于开源软件的邮件服务应用优选技术方案,对邮件内容中代码元素进行标注的方法为:将邮件内容中的代码元素与目标开源软件的代码元素列表进行比对,将邮件内容中的代码元素分为目标开源软件的代码元素和其他项目的代码元素;然后对目标开源软件的代码元素进行标注:从目标开源软件的代码元素中抽取出类、方法、接口代码元素;对邮件内容去除停用词后,将剩余单词与抽取的代码元素进行匹配标注。
[0012]作为本专利技术的一种基于开源软件的邮件服务应用优选技术方案,其中软件质量测度包括开发者的代码贡献度和缺陷响应速度。
[0013]作为本专利技术的一种基于开源软件的邮件服务应用优选技术方案,根据邮件标题中的内容词、问题句中的内容词以及问题句段落的代码元素、异常文本段落的异常信息词汇构建所述查询条件。
[0014]与现有技术相比,本专利技术的有益效果是:依据序列模式挖掘的问题句提取方法相较于传统的基于疑问词的问题句提取方法在准确率上有明显提高。本专利技术在验证时人工标注了300封来自开源项目Lucene和Tomcat的邮件的问题句,分别与上述两种方法提取的问题句进行了比较。基于疑问词的传统方法准确率为78.64%,本专利技术使用的基于序列模式挖掘的方法可以取得88.17%的准确率,有显著提升。
附图说明
[0015]附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实施例一起用于解释本专利技术,并不构成对本专利技术的限制。在附图中:图1为软件问答信息抽取工具示意图;图2为邮件内容分类流程图;图3为异常信息段落识别流程图;图4为提取方法流程图;图5为提问邮件问题句标注流程图;图6为邮件会话答案信息抽取流程图。
具体实施方式
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于开源软件的邮件服务应用,其特征在于:其步骤为:A从邮件归档服务器上爬取目标开源软件的邮件归档文件;依据邮件头部域将邮件归档文件分割成多封单独的邮件;其中,分割成多封单独的邮件包括:步骤1、用户请求处理步骤:本地服务器接收到关于某项质量证据或质量测度的用户请求,查询本地数据库中是否已有目标软件的最新变更数据;如果本地数据库中存在目标软件的预设时间段N以内的更新数据;步骤2、最新变更数据下载步骤:本地服务器在互联网上搜索并确定具有目标软件的最新变更数据的一定数量的远端服务器,从远端服务器下载最新变更数据到本地数据库;步骤3、数据解析步骤:本地服务器对新下载的目标软件的最新变更数据进行解析,从中提取结构化的数据条目存储于后台数据库;步骤4、软件质量测度提取步骤:从解析后的结构化数据中提取软件质量测度,存储于服务器;步骤5、质量证据返回步骤:本地服务器提供目标软件的各种质量证据及其测度分值,返回用户;步骤6、本地服务器数据更新步骤:本地服务器对已有项目进行定期检查,更新相应资源库,重新计算各测度值B将回复信息域为空的邮件设为一个会话的提问邮件,然后从步骤A得到的邮件中查找回复信息域的域值为该提问邮件的邮件标识ID的邮件,将其加入该会话;从而将同一主题下的邮件组织成邮件对话的形式;C提取各邮件的正文信息并对邮件内容中代码元素进行标注;D从提问邮件的正文信息中提取问题句及其上下文信息;然后基于问题句及其上下文信息和标注的代码元素构建查询条件,在该提问邮件的会话邮件中进行检索;然后从检索结果中选取一邮件作为回答信息。2.根据权利要求1所述的一种基于开源软件的邮件服务应用,其特征在于:其中结构化的数据条目包括的来自代码控制系统的代码版本号、提交者名称、提交时间、提交所涉及的文件集合、所涉及的代码行;以及来自缺陷控制系统的缺陷号、提出时间、修复时间、缺陷状态、严重程度、优先级;和来自邮件列表的列表发起者、邮件主题、所有接收者名称、邮箱地址、所有回复者名称、邮箱地址。3.根据权利要求2所述的一种基于开源软件的邮件服务应用,其特征在于:所述邮件的作者分为项目开发人员、资深用户和普通用户;其中,项目开发人员的权威度>资深用户的权威度>普通用户的权威度,候选答案邮件的作者权威度越大,该候选答案邮件权重越大;根据候选答案邮件的回复时间确定邮件位置对应的权重,候选答案邮件的回复时间越早,该候选答案邮件的权重越大;...

【专利技术属性】
技术研发人员:秦国强
申请(专利权)人:苏州虞诚数字科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1