基于MapReduce的Bagging决策树优化算法-计算机工程与科学论文范文-学术咨询网
计算机工程与科学

计算机工程与科学杂志

  • 北大期刊
  • CSCD
  • 统计源期刊
  • 知网收录
  • 维普收录
  • 万方收录
基本信息
  • 主管单位:

    国防科技大学

  • 主办单位:

    国防科技大学计算机学院

  • 国际刊号:

    1007-130X

  • 国内刊号:

    43-1258/TP

  • 创刊时间:

    1973

  • 期刊类别:

    计算机期刊

  • 出版社:

    计算机工程与科学

  • 主编:

    王志英

  • 发行周期:

    月刊

出版信息
  • 审稿周期:

    1-3个月

  • 被引次数:

    19216

  • 邮发代号:

    42-153

  • 全年定价:

    ¥796.00

  • 他引率:

    0.9643

  • 邮编:

    410073

期刊详情 投稿咨询 关注公众号

基于MapReduce的Bagging决策树优化算法-计算机工程与科学论文范文

作者:张元鸣,陈苗,陆佳炜,徐俊,肖刚
摘要:针对经典C4.5决策树算法存在过度拟合和伸缩性差的问题,提出了一种基于Bagging的决策树改进算法,并基于MapReduce模型对改进算法进行了并行化。首先,

针对经典C4.5决策树算法存在过度拟合和伸缩性差的问题,提出了一种基于Bagging的决策树改进算法,并基于MapReduce模型对改进算法进行了并行化。首先,基于Bagging技术对C4.5算法进行了改进,通过有放回采样得到多个与初始训练集大小相等的新训练集,并在每个训练集上进行训练,得到多个分类器,再根据多数投票规则集成训练结果得到最终的分类器;然后,基于MapReduce模型对改进算法进行了并行化,能够并行化处理训练集、并行选择最佳分割属性和最佳分割点,以及并行生成子节点,实现了基于MapReduce Job工作流的并行决策树改进算法,提高了对大数据集的分析能力。实验结果表明,并行Bagging决策树改进算法具有较高的准确度与敏感度,以及较好的伸缩性和加速比。


In order to address the shortcomings of overfitting and poor scalability of the C4.5 decision tree algorithm, we propose an optimized C4.5 algorithm with Bagging technique, and then parallelize it according to the MapReduce model. The optimized algorithm can obtain multiple new training sets that are equal to the initial training set by sampling with replacement. Multiple classifiers can be obtained by training the algorithm with these new training sets. A final classifier is generated according to a majority voting rule that integrates the training results. Then, the optimized algorithm is parallelized in three aspects, including parallel processing training sets, parallel selecting optimal decomposition attributes and optimal decomposition point, and parallel generating child nodes. A parallel algorithm based on job workflow is implemented to improve the ability of big data analysis. Experimental results show that the parallel and optimized decision tree algorithm has higher accuracy, higher sensitivity, better scalability and higher performance.
相关文章

[1]郭艺, 何廷年, 李爱斌, 毛君宇. 融合GA-CART和Deep-IRT的知识追踪模型[J]. 计算机工程与科学, 2023, 45(09): 1691-1700.
[2]崔弘, 赵双, 张广胜, 苏金树. 基于机器学习的移动代理应用流量识别方法[J]. 计算机工程与科学, 2022, 44(04): 654-664.
[3]贾俊杰, 段超强. 基于评分离散度的托攻击检测算法[J]. 计算机工程与科学, 2022, 44(03): 554-562.
[4]王鑫, 陈建凯, 翟俊海, . 区间值属性单调决策树算法的扩展[J]. 计算机工程与科学, 2020, 42(03): 557-563.
[5]陈丽芳,冯力静,刘保相. 神经网络规则优化建模与应用[J]. 计算机工程与科学, 2019, 41(12): 2247-2254.
[6]张忠林,吴挡平. 基于概率阈值Bagging算法的不平衡数据分类方法[J]. 计算机工程与科学, 2019, 41(06): 1086-1094.
[7]陈力1,费洪晓2,丁海伦2,成琳2,翟纪宇2. 基于双决策树的数据采样方法[J]. 计算机工程与科学, 2019, 41(01): 130-135.
[8]王永坤1,罗萱1,金耀辉1,2. 基于私有云和物理机的混合型大数据平台设计及实现[J]. 计算机工程与科学, 2018, 40(02): 191-199.
[9]赵一宁,肖海力. 对于大规模系统日志的日志模式提炼算法的优化[J]. 计算机工程与科学, 2017, 39(05): 821-828.
[10]钟伟1,黄元亮2. 基于特征融合与决策树技术的表情识别方法[J]. 计算机工程与科学, 2017, 39(02): 393-398.
[11]吴思博,陈志刚,黄瑞. 基于相关系数的ID3优化算法[J]. 计算机工程与科学, 2016, 38(11): 2342-2347.
[12]胡灵敏1,骆力明1,茅潇潇2,高明2. 基于决策树的大学生科研活动与毕业走向的关联研究[J]. J4, 2016, 38(06): 1275-1280.
[13]周美琴,陈诗旭,袁鼎荣,朱新华. 一种单位代价收益决策树剪枝算法[J]. J4, 2016, 38(05): 1023-1030.
[14]董跃华,刘力. 基于相关系数的决策树优化算法[J]. J4, 2015, 37(09): 1783-1793.
[15]张岩峰1,陈长松1,杨涛1,左俐俐2,丁飞1. 微博用户的个性分类分析[J]. J4, 2015, 37(02): 402-409.
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社