基于分类与预测的两段式就业指导系统的分析

Analysis on Two Sections Employment Guidance System Based on the Classification and Prediction

吴静 WU Jing

（福州软件职业技术学院计算机系，福州 350002）

（Computer Engineering Dept of Fuzhou Software Technology Vocational College，Fuzhou 350002，China）

摘要：本文研究分类与预测技术在学生就业指导中的应用。主要分为入学后的就业指导与求职前的就业指导。利用了决策树模型分析出贡献度最大的分裂属性，对学生进行入学前就业指导。利用基于类平均距离对学生可能就业的单位进行预测，为学生求职时提供有价值的指导信息。

Abstract: This paper studies the application of classification and prediction technology in the student employment guidance. It mainly divides into the employment guidance after the entrance and before applying the job. The largest contribution splitting attributes are analyzed by the decision-making tree model to carry out the employment guidance before the entrance of students. It uses the group average distance to predict possible employment units of students to provide the valuable guidance information for students in the job hunting.

教育期刊网 http://www.jyqkw.com
关键词：决策树；类平均距离；就业指导

Key words: decision-making tree；group average distance；employment guidance

中图分类号：TP301.6 文献标识码：A文章编号：1006-4311（2015）20-0258-02

0引言

来自教育部公布的最新数据显示，我国高校毕业生的数量由2001 年的 114 万增加到 2014 年的 727 万。为了提高就业率，决策者们很想知道如何培养学生，使其能在就业市场找到理想工作。高职院校一般已建立了比较完善的学生信息管理系统，积累了大量的历史数据。但这些资料都没有或很少被利用，学校在制定学生的培养方式时较少的利用这类信息。如能从这类信息中找到一个一般规律，启发相应管理者注意哪些学生应注重哪些方面，则会起到相当好的效果。对学生的就业指导并不是到学生即将毕业时才进行的工作，应是在学生入学后就立即展开的工作。本文利用分类与预测的数据挖掘的理论和技术应用到“两段式就业指导”实际研究中，使用决策树模型对学生进行入学前就业指导，利用基于KNN分类与预测模型对学生进行了毕业就业指导[1]。

1数据准备

本文所采用的样本数据主要来自于福建某高职院校的学生信息。基本的数据表有学生个人情况表、学生成绩表、学生就业登记表。在每种就业单位类型的学生样本抽取若干学生记录组成测试样本数据。

在进行样本选择时，主要从四个维度进行考虑：课程的平均成绩，该维度可以体现学生的平均学习能力；实践成绩与毕业设计成绩，该维度可以体现学生的实际动手能力；英语成绩，该维度可以体现学生第二技能的掌握能力（英语专业学生除外）。样本数据的提取主要数据库语句为：Select* from View_KNN。

其中，View_KNN是为存放各种类型的学生信息的就业视图，将所有数据作为测试样本。接下来需对一些数据进行数值化处理，以便算法的实现，同时输入每个属性的权值，并选取测试数据，以便接下来的测试工作的实现。

2决策树模型在两段式就业指导中的应用

对于决策模型来讲，所谓的分类就是将未知对象与预先定义好的类中知识进行学习的完整过程。构造过程是从多个分裂属性中选取一个分裂属性作为根结点[2]，这是第一个要解决的问题，这主要是依据分裂属性的信息增益来决定。当根结点确定完后，那么接下来是要确定下层的结点应该是哪一个分裂属性，那么这同样是依据分裂属性的信息增益来确定它对分类做的贡献。用同样的方法逐层地确定每层上的分裂属性应该选择哪一个更为合适。以此类推，逐层确定结点，直到整棵树的建立。构造过程中就可以发现贡献度最大的属性，同时也表明了这些属性对学生被不同类型单位录用的决定程度。分裂属性“专业成绩”、“毕业设计成绩”、“英语过级情况”、“实践成绩”[3]。接下来本文应用公式1为每个分裂属性计算其信息增益。

对如上各分裂属性的信息增益值进行比较，不难发现属性“实践成绩”具有最大增益率，因此选择该属性作为决策树的根结点[4]。重复以上过程计算出各个分裂属性的信息熵。构造出如图1所示的决策树。现在可以从决策树中只提取国企、外企、私企三类业单位的规则。规则如下：①if实践成绩=“优”AND专业成绩=“优”then就业单位=“国企”；②if英语过级=“是”then就业单位=“外企”；③if实践成绩=“优”then就业单位=“私企”。从以上规则可以分析出，想要进入国企就必须加强专业成绩及实践能力，而想进入外企的学生则应注重外语能力的培养，对私企感兴趣的学生就应增强实践动手能力。学生可根据自未来的就业意向，在大学学习过程中注重自己相应能力的培养。

3类平均距离在两段式就业指导中的应用

最邻近（KNN）分类算法，被称为最简单的数据挖掘算法之一。假设圆要被决定赋予是三角形还是四方形中哪个类，则看圆与所有样本的距离中较近的前K个样本，其中是三角形占的比例大，还是四方形占的比例大。

根据学生的基本情况和个人综合素质分析其被各种单位录用的可能性大，提高被录用的效率，在学生即将毕业求职阶段是十分重要的。预测学生毕业后到哪种类型的单位就业的可能性更大，也是一种分类。同时基于距离的分类方法能够正确的确定对象，在数据模糊或不完整情况下，分类技术仍然能够准确的完成预测。在学生个人信息表和选课记录表中选择出若干起决定因素的素质项。如专业课平均成绩、英语水平、计算机水平、实践能力等作为分裂属性。

由于各个分裂属性在整个空间中所起的份量不同，如果让每个特征向量的权重都相同，那么这样计算的距离结果肯定是不够准确的。就这一不确定，可应用SOM神经网络进行各维的权重计算[5]。对样本数据进行分析后发现课程平均成绩及毕业设计成绩在各类别中取值基本相同，那么其对结果预测的贡献率相对较低，则分配给其的权重各为0.15。而实践成绩和英语成绩在各类别中取值差异较大，它们具有较强的分类能力，则分配给其的权重各为0.35。通过对各特征属性赋予一定权重之后，假设被预测学生X与样本数据Si（Si表示样本数据中第i个学生）之间的距离计算可通过如下方式完成。如公式2所示。

其中，x1表示学生X的课程平均成绩，x2表示学生X的实践成绩，x3表示学生X的英语成绩，x4表示学生X的毕业设计成绩。si1表示学生Si的课程平均成绩，si2表示学生Si的实践成绩，si3表示学生Si的英语成绩，si4表示学生Si的毕业设计成绩。最后统计样本X与类别Ci的所有样本距离的平均值，距离最近的即为该样本所属的类别。通过已知的测试对象，计算它与样本数据的平均距离，最后通过检验计算结果与测试对象的类型是否一致，来验证算法的准确性。该样本所代表的学生就可到预测出相应类别的单位进行求职，同时被该类单位录用的可能性则会很大。通过对各特征属性对预测贡献的高低设置相应的权重，同时解决了K值难确定的问题。这种基于类平均距离的分类预测方法是原来基于类中心分类预测方法的另一种表现形式。

4总结

本研究通过挖掘学生的就业信息及学生的个人信息及成绩信息，分别基于类平均距离分类方法与ID3方法构建决策树模型，挖掘出隐含的能影响就业率和就业情况的决策因素，通过分析这些信息，能够发现学生哪些方面的素质对于就业单位来讲是最需要的，什么样的学生将来到何种就业单位就业的可能性更大。

教育期刊网 http://www.jyqkw.com
参考文献：

[1]傅莉.数据挖掘在教学评估中的应用[D].南京理工大学，2007，09.

[2]屈志毅，周海波.决策树算法的一种改进算法[J].计算机应用，2008，28（6）:141-143.

[3]Zhaohui Tang,Jamie MacLennan.数据挖掘原理与应用——SQL Server 2005 数据库[M].北京:清华大学出版社，2007：30-31.

[4]王燕.基于XML的Web文本挖掘及关联算法的研究[D].江苏科技大学，2011.

[5]王茜，杨正宽.一种基于加权KNN的大数据集下离群检测算法[J].计算机科学，2011（10）：183-186.