近日,第31届IEEE软件分析、演化与重构国际会议(简称SANER)和第46届IEEE/ACM国际软件工程会议(简称ICSE)分别在芬兰罗瓦涅米和葡萄牙里斯本召开。SANER和ICSE分别是中国计算机学会推荐的B类和A类国际学术会议,均是软件工程领域最新研究成果和创新想法交流的重要平台。
在本届SANER会议中,计算机学院硕士生洪硕作为第一作者的论文“Investigating and Detecting Silent Bugs in PyTorch Programs”荣获IEEE Computer Society TCSE Distinguished Paper Award。在本届ICSE会议上,计算机学院博士生齐斌航作为第一作者的论文“Modularizing while Training: A New Paradigm for Modularizing DNN Models”荣获ACM SIGSOFT Distinguished Paper Award。两篇论文指导教师均为孙海龙教授和高祥副教授,这是北航首次以第一作者单位在SANER和ICSE会议上获得该类奖项。
发表在SANER’24会议的论文针对深度学习程序中的静默缺陷(silent bugs)开展了首次深入研究。静默缺陷是一类特殊的缺陷,它们会导致错误的行为,但不会引起系统崩溃或挂起,也不会向用户显示错误信息,因此更难被开发者发现、定位和修复。作者收集了 PyTorch 官方论坛上的 14,523 个帖子,并使用基于大语言模型的半自动方法筛选出其中的静默缺陷。通过分析这些缺陷的症状、根本原因和模式,作者得出了三个重要发现和启示,并实现了一个可扩展的基于规则的工具PysiAssist,以帮助开发者调试和解决静默缺陷。评估结果表明,PYSIASSIST 的精确率达到 92.4%,召回率达到 85.3%,优于现有技术。
发表在ICSE’24会议的论文围绕神经网络模块化问题展开研究,首次提出了模型训练时模块化新模式。神经网络模块化技术能够将已训练模型分解为模块,每个模块继承模型的一部分功能且仅包含负责这部分功能的神经元或权重,使得开发者能够按需复用相应的模块,从而降低模型复用后的冗余推理开销与安全风险。在该工作中,作者首次提出模型训练时模块化新模式MwT,借鉴软件模块化开发中内聚度与耦合度概念,设计了神经网络模型的内聚度与耦合度损失函数,从而将模块化过程融入到模型训练过程中,显著提高了模块化的分解效率与模块性能。实验结果表明,相比于现有的最先进技术,MwT的模块化时间开销降低了50%,所得模块的大小降低了74.31%、分类准确度提高了1.76百分点。
(转载自校网 通讯员 刘景超)