信控学院张勇教授、王衍虎硕士、巩敦卫教授在高维不平衡特征选择方面取得进展
所提算法框架图
随着大数据时代的到来,高维数据在实际应用中越来越普遍。为了防止丢失重要信息,决策者获取的原始数据往往包含大量冗余或不相关的特征。这些冗余/不相关的特征会增加学习算法的计算成本,甚至降低其学习性能。特征选择的目的是从原始特征集中选择一个特征子集,在最大化给定性能指标的同时降低学习成本。已有特征选择方法不仅无法有效同时解决数据缺失和类不平衡等问题,而且存在“维数灾难”等问题。
近日,信控学院智能优化与控制课题组张勇教授、王衍虎硕士和巩敦卫教授在该领域取得研究进展,提出了一种聚类引导的粒子群特征选择算法,研究成果形成了论文“Clustering-guided particle swarm feature selectionalgorithm for high-dimensional imbalanced datawith missing values”,该论文以中国矿业大学为第一单位,发表在中科院一区期刊《IEEE Transactions onEvolutionary Computation》(IF: 11.554)。论文第一作者为张勇教授,通讯作者为王衍虎硕士和巩敦卫教授。
该成果首次提出了填充风险的定义,并给出了基于填充风险的F测度(RF测度)。随后,以RF测度作为目标函数,提出了一种聚类引导的PSO特征选择算法。RF测度可以评估特征子集处理缺失不平衡数据的质量,克服传统F测度未考虑缺失数据的不足。提出的模糊聚类策略能够将大量特征划分成多个组,仅使用每组中的代表特征来构建特征子集。这样既减小了种群的搜索范围,又提高了个体的评价代价。此外,在局部修剪策略与种群初始化策略的帮助下,所提算法不仅显著减少了所选特征的数量,而且提高了所选特征子集的分类性能。
该成果为含缺失高维不均衡数据提供了一种有效的进化特征选择算法。在多个典型实际数据集上的应用表明,所提算法能够在较短的运行时间内获得分类性能好的特征子集。