职位分词工具

分词工具时间:2021-03-24 阅读:()

第四届"泰迪杯"全国数据挖掘挑战赛优秀作品作品名称:网络招聘信息的数据挖掘与综合分析荣获奖项:特等并获企业冠名奖作品单位:北京林业大学作品成员:孙海锋郑中枢杨武岳指导老师:崔晓晖第1页网络招聘信息的分析与挖掘摘要近年来,随着互联网的广泛应用和网络招聘的迅速发展,网络招聘信息平台已成为招聘者获取信息的主要渠道.
因此,运用网络文本分析和数据挖掘技术对网络招聘信息的研究具有重大的意义.
对于问题1,通过PositionId对招聘信息表、职位描述表进行去重,得到不重复的招聘职位信息.
利用jieba中文分词工具对岗位描述信息进行分词,并通过TF-IDF算法提取每个职位描述的前5个关键词.
再利用TF-IDF算法得到每个职位描述的TF-IDF权重向量,采用K-means对TF-IDF权重向量进行聚类,得到7个质心.
分别求出距离各个质心最近的5个职位,结合招聘信息表的PositionFirstType字段,根据KNN算法,为各个类加上行业性质标签.
再分别对各个职业类型的PositionName进行统计分析,得出各个职业类型对应的专业领域.
对于问题2,通过利用excel对去重后的招聘信息表对行业领域、工作地域、职位分类三个项目进行分类筛选,对各个项目的各类内容进行计数汇总统计,根据计数多的内容去定于热门的行业、地域、职位.
对于问题3,根据数据挖掘与分析的职位特征,将新兴的职位定义为两大类并分别筛选出来.
利用发散性思维,再分别对筛选出来的结果按照城市(city)、公司阶段(financestage)、学历要求(Education)、薪资(Salary)四个方面对其进行多方面系统地统计,结合图表进行分析预测相关职位的需求.
对于问题4,通过寻找it职位对应的id的职业描述,并对其分词和it专业语义库构建,在此基础上筛选出所有的it职位.
对1进行数据预处理,在预处理得到的数据上进行数据初步筛选出it行业的职位.
对筛选出的it职位对应的职业id找到职位描述表的职位描述,对该描述构建it专业语义库.
判断职业描述表中职位是否符合it职业,通过判断与专业语义库的交集长度来确定是否为it职业并统计地域.
对于问题5,根据研究结果,通过分析目前的主要职业类型、职业要求、热门行业及地域、工作经验及就业现状等问题,给在校大学生的就业规划提出可行性的建议.
关键词:去重中文分词K-means聚类KNN算法TF-IDF算法预测相关职位第四届"泰迪杯"全国数据挖掘挑战赛www.
tipdm.
org第2页NetworkRecruitmentInformationAnalysisandMiningAbstractInrecentyears,withthewideapplicationofInternetandtherapiddevelopmentofInternetrecruitment,recruitmentinformationnetworkplatformhasbecomethemainchannelforinterviewerstoobtaininformation.
Therefore,usingthenetworktextanalysisanddataminingtechnologytonetworkrecruitmentinformationoftheresearchisofgreatsignificance.
Aimingattheproblemofthefirst,therecruitmentinformationtable,byPositionIdjobdescriptiontabletoheavy,don'trepeatjobinformation.
UsingjiebaChinesewordsegmentationtoolstoparticipleofjobdescriptioninformation,andthroughtheTF-IDFalgorithmtoextracteachjobdescriptionofthetopfivekeywords.
ReusingtheTF-IDFalgorithmforeachjobdescriptionoftheTF-IDFweightvector,theK-meansofTF-IDFweightvectorclustering,getsevencentersofmass.
Respectivelycalculatedfromthecenterofmassofrecent5position,combinationofrecruitmentinformationtablePositionFirstTypefields,basedonKNNalgorithm,foreachclasswithnatureoftheindustry.
ThenrespectivelythestatisticalanalysisofvariousprofessionaltypesofPositionName,drawingthecorrespondingprofessionalcareertype.
Aimingattheproblemofthesecond,byusingexceltogoafterheavyrecruitmentinformationtable(IndustryField)toindustryfield,workarea(City),thepositionclassification(PositionFirstType)classifythreeprojectsselection,allkindsofcontenttocalculatesummarystatisticsforeachproject,accordingtocalculatingmorethancontenttoindustryandregion,duetobepopular,position.
Aimingattheproblemofthethird,accordingtothecharactersofthepositionofdataminingandanalysis,definsingthepositionofemergingastwocategoriesandfiltered,respectively.
Usingdivergentthinking,andthenwouldgetresultsofscreeningoutrespectivelyaccordingtotheCity(City),phase(Financestage),Education(Education),compensation(Salary)fromfouraspectsonthevariousstatisticssystematically,withthedemandofchartanalysisforecastrelatedposition.
Aimingattheproblemoftheforth,bylookingfortheitpositioncorrespondingtotheidofthejobdescription,andthewordsegmentationandbuiltitprofessionalsemanticlibraryonthebasisofscreeningallitposition.
Toannex1fordatapreprocessingindatapreprocessingthedataonapreliminaryscreeningthepositionoftheitindustry.
Toscreenouttheitpositionsthecorrespondingprofessionalidtofindthejobdescriptiontableinthejobdescription,descriptiononthebuilditprofessionalsemanticrepository.
Determiningthejobdescriptioninthetablepositionisinlinewiththeitprofession,throughthejudgmentandprofessionalsemanticrepositorytodeterminewhethertheintersectionoflengthfortheitprofessionalandstatisticalarea.
Aimingattheproblemofthefifth,accordingtotheresearchresults,throughtheanalysisofthecurrentmainprofessionaltype,theprofessionalrequirements,popularindustryandregion,workexperience,andtheproblemofemployment第四届"泰迪杯"全国数据挖掘挑战赛www.
tipdm.
org第3页situationforcollegestudentsemploymentplanningandfeasibilitySuggestionsareputforward.
Keywords:toheavyChineseparticipleK-meansclusteringTF-IDFweightedKNNalgorithmPredictrelatedposition第四届"泰迪杯"全国数据挖掘挑战赛www.
tipdm.
org第4页目录1、挖掘目标.
62、分析方法与过程.
62.
1问题1分析方法与过程.
72.
1.
1流程图.
72.
1.
2数据预处理.
72.
1.
3职业类型的分类.
92.
1.
4Knn最邻近分类算法2112.
2问题2分析方法与过程.
122.
2.
1数据筛选.
122.
2.
2数据统计.
122.
3问题3分析方法与过程.
122.
3.
1问题2流程图.
122.
3.
2数据预处理.
132.
4问题4分析方法与过程.
132.
4.
1数据预处理.
132.
4.
2数据对照筛选分析.
142.
5问题5分析方法与过程.
143.
结果分析.
143.
1问题1结果分析.
143.
1.
1聚类中心分类结果.
143.
1.
2职业领域分类.
153.
2问题2结果分析.
153.
2.
1对热门行业的分析.
153.
2.
2对热门领域的分析.
163.
2.
3对热门职位的分析.
173.
3问题3结果分析.
173.
3.
1按城市地域进行划分.
173.
3.
2按公司发展阶段进行划分.
183.
3.
3按学历进行筛选.
193.
3.
4按salary(月薪)进行统计.
20第四届"泰迪杯"全国数据挖掘挑战赛www.
tipdm.
org第5页3.
4问题4结果分析.
203.
5结合研究结果,给在校大学生就业规划提建议.
224结论.
245参考文献.
24第6页1、挖掘目标本次建模目标是利用网络信息平台系统发布的网络招聘信息数据,利用jieba中文分词工具对职位描述进行分词、K-means聚类的方法及KNN算法,达到以下三个目标:1)利用文本分词和文本聚类的方法对非结构化的数据进行文本挖掘,根据聚类结果,结合招聘职位工作性质和内涵分析现阶段所需的职业类型、专业领域;结合招聘单位的特点分析目前热门行业走向.
2)根据新兴数据挖掘行业的职位体系的数据,预测未来的人才走向及相关的职位要求.
分析IT行业人才市场的供求现状,了解其未来的发展趋势.
3)根据研究的目前人才情况、热门行业、未来人才需求走向等结果,给大学生的就业规划提供真实可靠的建议.
2、分析方法与过程总体流程图图1:总体流程图本用例主要包括如下步骤:步骤一:数据预处理,在题目给出的数据中,出现了很多重复的招聘数据,在原始的数据上进行去重处理,在此基础上进行中文分词.
步骤二:数据分析,在对职位描述信息分词后,需要把这些词语转换为向量,以供挖掘分析使用.
这里采用TF-IDF算法,找出每个职位描述的关键词,把职位描第7页述信息转换为权重向量.
采用K-means算法对职业进行分类,利用Knn算法找出与各中心相似的元素,根据个数多的判定所属类别.
步骤三:数据筛选,统计相关数据,分类筛选汇总,预测热门行业的问题、人才需求走向和相关职业的需求情况等.
步骤四:利用步骤一的结果构建专业语义库,通过计算与语义库的距离,找出对应的IT职业的ID,统计地域分布情况.
2.
1问题1分析方法与过程2.
1.
1流程图图2:问题1流程图2.
1.
2数据预处理2.
1.
2.
1招聘信息的去重、去空在题目给出的数据中,出现了很多重复的招聘数据.
例如招聘信息表跟职位描述表中出现了很多重复的职位信息.
考虑到公司招聘人才时可能每天都会对要招聘的职位进行更新,因此在去重的时候应该取更新时间最晚的记录,去掉历史原始数据1.
招聘信息表2.
职位描述表对招聘信息表相同职位去重(positionld相同的取最新更新状态)对职位描述表相同职位去重(positionld相同的取最新更新状态)中文分词统计职位类型种类Kjieba利用TF-IDF与余弦相似性进行k-means聚类统计聚类结果中各个类别职位类型的数量,以数量最多的为该类职业类型第8页记录.
考虑到python中的字典在保存数据时,key相同的内容,value取值为最后更新的值.
因此在读取数据时,按时间升序把招聘信息的PositionId作为key,把整个招聘信息作为value保存在value中.
最后再将字典中的内容写入文本即可.
同时在职位描述表中出现了职位描述为空的记录,干扰了问题的分析,采取直接滤过方法,从文本中删除.
对招聘数据去重的python程序见附件duplicatedetection.
py.
去重、去空后的数据分别保存在1去重.
csv、2去重.
csv、3去重.
csv中.
2.
1.
2.
2对职位信息表进行中文分词在对招聘信息进行挖掘分析之前,先要把非结构化的文本信息转换为计算机能够识别的结构化信息.
在职位描述表中,以中文文本的方式给出了数据.
为了便于转换,先要对这些职位描述信息进行中文分词.
这里采用python的中文分词包jieba进行分词.
jieba采用了基于前缀词典实现的高效词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG),同时采用了动态规划查找最大概率路径,找出基于词频的最大切分组合,对于未登录词,采用了基于汉字成词能力的HMM模型,使得能更好的实现中文分词效果.
在分词的同时,采用了TF-IDF算法,抽取每个职位描述中的前5个关键词,这里采用jieba自带的语义库.
2.
1.
2.
3TF-IDF算法在对职位描述信息分词后,需要把这些词语转换为向量,以供挖掘分析使用.
这里采用TF-IDF算法,把职位描述信息转换为权重向量.
TF-IDF算法的具体原理如下:第一步,计算词频,即TF权重(TermFrequency).
)1(中出现的次数本某个词在文=词频(TF)考虑到文章有长短之分,为了便于不同文章的比较,进行"词频"标准化,除以文本的总词数或者除以该文本中出现次数最多的词的出现次数即:)2(的总词数本文中的出现次数本某个词在文=词频(TF)或)3(出现次数本出现次数最多的词的文该中的出现次数本某个词在文=词频(TF)第二步,计算IDF权重,即逆文档频率(InverseDocumentFrequency),需要建立一个语料库(corpus),用来模拟语言的使用环境.
IDF越大,此特征性在文本中的分布越集中,说明该分词在区分该文本内容属性能力越强.
)4()1+数本包含该词的文总数文本语料库的log(逆文档频率(IDF)第9页第三步,计算TF-IDF值(TermFrequencyDocumentFrequency).
)5(逆文档频率(IDF)*词频(TF)=IDF-TF实际分析得出TF-IDF值与一个词在职位描述表中文本出现的次数成正比,某个词文本的重要性越高,TF-IDF值越大.
计算文本中每个词的TF-IDF值,进行排序,次数最多的即为要提取的职位描述表中文本的关键词.
2.
1.
2.
4生成TF-IDF向量生成TF-IDF向量的具体步骤如下:(1)使用TF-IDF算法,找出每个职位描述的前5个关键词;(2)对每个岗位描述提取的5个关键词,合并成一个集合,计算每个岗位描述对于这个集合中词的词频,如果没有则记为0;(3)生成各个岗位描述的TF-IDF权重向量,计算公式如下:TF-IDF=词频(TF)*逆文档频率(IDF)(6)2.
1.
3职业类型的分类生成职位描述的TF-IDF权重向量后,根据每个职位的TF-IDF权重向量,对职业进行分类.
这里采用K-means算法把职业类型分成7类.
K-mean聚类的原理如下:假设有一个包含n个d维数据点的数据集},,,,,{21nixxxxX,其中diRx,K-means聚类将数据集X组织为K个划分},,2,1,{KicCk.
每个划分代表一个类kc,每个类kc有一个类别中心i.
选取欧式距离作为相似性和距离判断准则,计算该类内个点到聚类中心i的距离平方和2)(kicxkikxcJ(1)聚类目标是使各类总的距离平方和KkkcJCJ1)()(最小,211211)()(KkiinikiKkCxiiKkkxdxcJCJii(2)其中,,若,0若,1iiiikicxcxd所以根据最小二乘法和拉格朗日原理,聚类中心k第10页应该取为类别kc类各数据点的平均值.
K-mean聚类的算法步骤如下:1、从X中随机取K个元素,作为K个簇的各自的中心.
2、分别计算剩下的元素到K个簇中心的相异度,将这些元素分别划归到相异度最低的簇.
3、根据聚类结果,重新计算K个簇各自的中心,计算方法是取簇中所有元素各自维度的算术平均数.
4、将X中全部元素按照新的中心重新聚类.
5、重复第4步,直到聚类结果不再变化.
6、将结果输出.
K-mean聚类的算法流程图如下:图3:聚类算法流程图由于职位描述表给出了539216条记录,去重后还有402727条记录,如果把所有的职位都用来挖掘分析,会占用很大的机器性能跟时间.
为了节省机器性能跟时间,获得结果.
从402727条记录数据中随机抽取40000条记录,抽样python程序见sampling.
py,抽样结果保存在抽样样本.
csv文件里面.
然后利用抽样样本进行分词、求TF-IDF向量,并利用K-mean聚类,把样本分成7类,程序见kmean.
py,得出来的七个聚类中心保存在centroids.
csv中(由于维度较高,打开时请用文本编辑器打开),每步迭代的)(CJ值保存在clusterAssment.
csv中.
否聚类结束1)选定数据空间中K个对象作为初始聚类中心,每个对象代表一个类别的中心2)对于样品中的数据对象,则根据它们与这些聚类中心的欧氏距离,按距离最近的准则分别将它们分配给与其最相似的聚类中心所代表的类3)计算每个类别中所有对象的均值作为该类别的新聚类中心,计算所有样本到其所在类别聚类中心的距离平方和,即()JC值4)聚类中心和()JC值发生改变是第11页2.
1.
4Knn最邻近分类算法2由K-Means分类得到聚类中心,利用Knn算法找出与各中心相似的元素,根据个数多的判定所属类别.
根据向量空间模型,将每一类别文本训练后得到该类别的中心向量记为12jnCWWW,将待分类文本T表示成n维向量的形式12nTWWW,则文本内容被形式化为特征空间中的加权特征向量,即1122nnDDTWTWTW.
对于一个测试文本,计算它与训练样本集中每个文本的相似度,找出K个最相似的文本,根据加权距离和判断测试文本所属的类别.
具体算法步骤如下:(1)对于一个测试文本,根据特征词形成测试文本向量.
(2)计算该测试文本与训练集中每个文本的文本相似度,计算公式为:12211(,)MikjkkijMMikjkkkWWSimddWW式中,id为测试文本的特征向量,jd为j类的中心向量;M为特征向量维数;kW为向量的第k维.
k值的确定一般先采用一个初始值,然后根据实验测试K的结果来调整K值.
(3)按照文本相似度,在训练文本集中选出与测试文本最相似的k个文本.
(4)在测试文本的k个近邻中,以此计算每类的权重,计算公式如下:1,若0(,)0,其他iijdKnnjSimxdydCbPXC式中,x为测试文本的特征向量;(,)iSimxd为相似度计算公式;b为阙值,有待于优化选择;而(,)ijydC的值为1或0,如果id属于jC,则函数值为1,否则为0.
(5)比较类的权重,将文本分到权重最大的那个类别中.
2.
1.
5分析职业类型和初步定义职业领域对3根据K-means聚类方法和Knn最邻近分类得出7个点和每个点周围100个id,根据这些id对照1所属的职业PositionFirstType,包括技术、职能、市场与销售、产品、运营、设计和金融七大职业分类,统计数量最多的即为目前企业最需要的职业类型,并定义相关职业领域.
第12页2.
2问题2分析方法与过程2.
2.
1数据筛选(1)根据招聘信息表对不同行业领域进行分类筛选,得到020行业、电子商务、分类信息、广告营销等21个不同行业领域.
(2)根据招聘信息表对不同工作地域进行分类,得到299个不同的地域.
(3)根据招聘信息表对不同的职位所属大类分类,分为技术、运营、市场与销售、设计、职能、产品、金融七大类.
2.
2.
2数据统计(1)对各个行业领域出现的招聘次数进行计数,通过排序得出排名前10行业,并定义热门行业;(2)对各个地域进行分类计数,通过排序得出排名前10的地域,并定义热门的地域;(3)对七大职位所属大类进行分类计数,通过排序得出各大职位的需求情况,并定义热门的职位.
2.
3问题3分析方法与过程2.
3.
1问题2流程图图4:问题3流程第13页2.
3.
2数据预处理2.
3.
2.
1定义新兴职位定义新兴职位,并将其分为两类:第一类:数据分析第二类:大数据、数据挖掘、机器学习、人工智能2.
3.
2.
2数据筛选根据定义的两大类新兴职位,对招聘信息表中positionName(职位名称)这一列进行按关键词定义为大数据、数据挖掘、机器学习、人工智能与数据分析这两类,进行筛选分析;(筛选结果见3)2.
3.
2.
3统计做图表分析利用数据透视表,对两类职业所在城市(city)、公司阶段(financestage)、学历要求(Education)、薪资(Salary)进行计数,并且进行降序处理(具体结果见3)2.
4问题4分析方法与过程2.
4.
1数据预处理2.
4.
1.
1、数据初步筛选粗略筛选出it行业的职位.
通过招聘信息的PositionType字段筛选出dba、it支持、java、sqlserver、web前端、测试工程师、后端开发、架构师、嵌入式、网络安全、网络工程师、网页产品设计师、移动开发、运维工程师这些选项的职位,记为集合C.
把C保存在it.
csv文件中.
2.
4.
1.
2、it职位分词与it专业语义库构建利用2.
4.
1选出来职位的id,得到每个职位在3中对应的职位描述,分别对这些职位描述进行分词、去停用词、去重,得到一个语义库Y第14页2.
4.
1.
3、筛选出所有的it职位假设z是职位描述表中的一条记录,对z的职位描述内容进行分词,得到集合S,如果集合S跟it专业语义库Y的交集长度大于等于2(改大一点进行比较严格的筛选)、则可以认为z属于it职业,记录z的PositionId.
遍历所有的职位描述,可以筛选出所有的it职位跟对应的职位描述,程序见itposition.
py,结果分别保存在it职位.
csv跟it专业职位描述.
csv中.
2.
4.
2数据对照筛选分析对于选出的所有IT职位,根据招聘信息表的PositionName对每一个IT职位进行筛选,得出各个IT职位的信息.
根据招聘信息表中的City、IndustryField和Education分析所有IT职位的地域分布情况、人才的专业和学历层次,.
再根据CompanySize、提供的Salary和除IT的其他职位在这段时间的需求量.
公司规模大,说明所需要的人才越高;工资越高说明职位需求量高,受欢迎程度越高;在同一段时间相比于其他行业需求量大,说明有发展前景;以此分析了IT人才市场的供求现状及未来的发展趋势.
2.
5问题5分析方法与过程根据本题研究结果,对目前的就业市场行情和职位供需情况进行简要的概况,再此基础上从学生自身特点、专业特点、热门行业与地域、工作经验、能力这5方面给大学生的就业提供建议,最后鼓励大学生做好就业规划,未雨绸缪.
3.
结果分析3.
1问题1结果分析3.
1.
1聚类中心分类结果通过去重后对文本进行分词,提取五个关键词后由K-Means分类得到聚类中心,利用KNN算法找出离各个聚类中心最近的前5个元素,根据"少数服从多数"判定聚类中心所属类别.
KNN算法的大致步骤如下:1、算距离:给定聚类中心,计算它与样本中的每个TF-IDF权重向量的距离2、找邻居:圈定距离最近的15个样本,作为聚类中心的近邻第15页3、做分类:根据这5个近邻归属的主要类别,来对聚类中心进行分类结合抽样样本,分别找出七个聚类中心的5个近邻样本点所属的职业类型(程序见knn.
py).
结果如下表所示为:表1:KNN分类表聚类中心市场与销售技术运营职能设计所属类型第一个聚类中心32000市场与销售第二个聚类中心01300运营第三个聚类中心01040职能第四个聚类中心14000技术第五个聚类中心23000技术第六个聚类中心23000技术第七个聚类中心01103设计从KNN分类表可以看出:七个聚类中心可分为:市场与销售、运营、职能、技术、设计四大类.
3.
1.
2职业领域分类从职位信息表中筛选出属于技术类的职业,由职位类型可以得到:1、市场与销售领域集中在采购、高端市场职位、公关、供应链、市场/营销、投资、销售.
2、运营领域集中在编辑、高端运营职位、客服、网点运营、设计.
3、职能领域集中在财务、法务、高端职能职位、行政、人力资源.
4、技术类的专业领域集中在dba、测试、高端技术职位、后端开发、企业软件、前端开发、项目管理、移动开发、硬件开发、运维.
3.
2问题2结果分析3.
2.
1对热门行业的分析通过对21个行业领域排序计数,选取排名前10的行业领域进行分析,(见表1)分析得出移动互联网这一行业在前10个行业所占比例为60%,电子商务行业占了13%,金融行业占了9%.
(见图1)可以发现移动互联网这一行业正在蓬勃发展,在最近几年里,移动通信和互联网成为当今世界发展最快、市场潜力最大、前景最诱人的两大业务,它们的增长速度都是任何预测家未曾预料到的,所以移动互联网可以预见将会创造怎样的经济神话.
根据发展的需要,招聘单位对该类人才的需求量也逐渐增加,使移动互联网迅速成为热门行业之一.
第16页表2:排名前10的行业领域行业领域网络信息招聘次数排序移动与互联网20667781电子商务445132金融318773企业服务159774020行业131885数据服务93806教育86157游戏76828文化娱乐47679其他470710图5:前10个行业领域比重3.
2.
2对热门领域的分析随着经济发展,城市发展日新月异,一线城市在生产、服务、金融、创新、就业、流通等全国社会活动中起到引领的主导功能.
研究表明,各大招聘单位提供的工作地域为北京、上海、深圳、广州、杭州等这些经济发达的城市,(图3和图四)大城市对人才的需求量高,而大城市新兴行业的兴起,为求职者提供更多的就业岗位.
第17页表3:排名前10的地域数据图6:地域分布排名前10的地域分布3.
2.
3对热门职位的分析通过对职位所属大类的7个类别进行分类技术,得到技术类职位是目前需求量的职位,技术类职位包括MySQL数据库工程师(DBA)、高端技术职位、PHP开发等技术型的职位,其发展前景可观,具有一定的发展优势.
仅次于技术型职位是市场与销售职位,促进了经济的发展,体现了供求关系,发展前景也是较为可观的.
表4:职位大类计数图图7:职位大类分类汇总图3.
3问题3结果分析3.
3.
1按城市地域进行划分这里,截取前10个城市进行分析,得到:第18页表5不同城市对这两类新兴职位的需求情况表第一类第二类城市计数求和城市计数求和北京1248北京1718上海463上海502深圳243深圳351杭州170杭州240广州159广州168成都36成都85南京31南京60武汉29武汉51长沙18厦门24苏州17苏州19如表1所示:作为中国首都的北京对这两类职位的需求量位居榜首,通过计算可得,北京对第一类职位的需求为49%,对第二类——数据分析领域的职位需求为51%,超出中国所有城市的一半!
而享有"东方巴黎"的上海紧随其后,需求数量也是达到18%和15%.
并且,诸如深圳、杭州、广州等一线城市对其需求量也都是过百的.
可以看到:经济越发达,科技越进步的一线城市对这两类新兴的数据分析与挖掘的职位需求量越大.
进入21世纪信息爆炸的时代,各种各样的信息满天飞,有用资讯和没用资讯混为一潭,很多数据信息需要我们去整理并且发现其中的规律,社会迫切需要这种人才将各种各样的数据转换成有用的信息和知识,数据分析与挖掘这一行业便孕育而生了.
作为一线城市北京、上海、深圳经济发达,有比较早的IT基础,拥有高超的IT技术,在IT行业一直作为领头羊领跑全中国.
而杭州近几年软件发展也很迅速,这也从侧面推动了IT行业的蓬勃发展.
而数据分析与挖掘作为新兴的IT行业,与传统的IT行业对比,拥有更加鲜活的时代性与科技含量,势必在这个信息爆炸的时代掀起一番热潮.
而也只有这些一线城市有这样的本事,利用自身优越的科技与人才资源,庞大的数据系统,推动着数据分析与挖掘行业的蓬勃发展.
所以可以预测:未来对数据挖掘与分析的职位需求应该集中在这些一线城市.
3.
3.
2按公司发展阶段进行划分第19页表6:不同公司发展阶段对这两类职位的需求第一类第二类公司阶段汇总公司阶段汇总上市公司483上市公司792成长型(A轮)360成长型(B轮)399成长型(B轮)296初创型(未融资)322成熟型(D轮及以上)219成熟型(C轮)304成熟型(C轮)206成熟型(D轮及以上)278成长型(不需要融资)189初创型(天使轮)267初创型(天使轮)180成长型(不需要融资)251成熟型(不需要融资)166成熟型(不需要融资)194初创型(不需要融资)42初创型(不需要融资)64如表2所示:作为龙头老大的上市公司,对这两类新兴职位的需求量上都是稳居第一.
在筛选过程中发现,这些上市公司中,诸如阿里巴巴、JD京东商城、当当网等这些电子商务平台,凭借自身海量的数据,玩转数据分析与挖掘市场,推动着数据分析与挖掘蓬勃发展,需要大量的数据分析人才,为这两类行业提供了大量的职位.
除此之外,还有很多诸如知网、凤凰网、腾讯这些知名的上市公司也对这两大类职位需求比重也是很高的.
可以看出:信息时代,数据分析与挖掘行业已经在大型企业的公司发挥举足轻重的作用,成为衡量一个公司规模的指标.
按融资和为融资分,不难发现融资型公司需要的人才量更多.
广义上的融资也叫金融,就是货币资金的融通,当事人通过各种方式到金融市场上筹措或贷.
所以,数据分析与挖掘跟金融这一方面关系密切.
在新时代下,数据分析与挖掘被赋予重大的使命,在金融业中也发挥了重大的作用.
3.
3.
3按学历进行筛选通过对学历的筛选,我们得到如下饼图:第20页图8:两类职位对应的学历要求情况图由图1可知:对于从事这两大类职位的学历要求其实不高,要求本科毕业高达70%.
并且这些职位也为大专生提供了就业机会,甚至有些招聘是不限学历的.
相反的,在这两类新兴招聘中,要求硕士,博士与硕士的比例低于10%.
3.
3.
4按salary(月薪)进行统计研究发现这两大类职位的薪资都集中在15k—30k,综合学历要求看出,这两大类职位属于学历门槛不高,但是薪资相对比较丰厚的职位,这两大新兴职位势必会成为求职心目中一个很理想的职位,将会受到人们的追捧.
通过对salary(月薪)进行统计(详见3),以下截取人数最多的前10名分析:表7:两类职位的不同月薪集中范围第一类第二类月薪人数月薪人数10k-20k24715k-30k4568k-15k15810k-20k35115k-25k13715k-25k32715k-30k13720k-40k2098k-10k12910k-15k13910k-15k1218k-15k1315k-10k8920k-30k1304k-6k8515k-20k896k-12k738k-16k736k-10k6820k-35k55通过表3,发现这数据分析这一职位的薪资集中在10k—20k,而第二类主要月薪范围更高,集中在15k—30k,与其他普通的职业相比,数据分析与挖掘所在行业相对工资更高.
综合学历要求看出,这两大类职位属于学历门槛不高,但是薪资相对比较丰厚的职位,这两大新兴职位势必会成为求职心目中一个很理想的职位,将会受到人们的追捧.
3.
4问题4结果分析IT人才市场的供求现状及未来的发展趋势对筛选出来的所有it职位,按城市统计每个城市it职位招聘的个数,并按招聘职位个数进行降序排列,取前面10个城市,结果如it职位招聘地区排行表所示:第21页表8:it职位招聘地区排行表城市职位个数排序北京304781上海142242深圳97353广州66684杭州66525成都28666武汉18307南京16388西安9249长沙90010由上表可知:对it人才需求较大的十大城市分别为:北京、上海、深圳、广州、杭州、成都、武汉、南京、西安、长沙.
北京对it人才的需求居于首位,而且远远高于排名第二的上海跟第三的深圳.
从地域分布上,可以看出,对it人才需求较大的城市大部分集中在东部沿海一带,而且都是大城市.
事实上"北上广深"地区it行业比较发达,对it人才的需求量较大,从而形成"聚集"效应,预计在未来很长一段时间里,对it人才需求量较大的还会集中在这些地区.
对筛选出来的所有it职位,按学历统计每个学历层次it职位招聘的个数,结果如it招聘职位学历分布表所示:表9:it招聘职位学历分布表学历个数排序本科847751大专661892学历不限265583硕士14794博士345高中76中专47初中18由it招聘职位学历分布表可以看出,对it人才的要求不是很高,大部分集中在大专、本科学历,甚至出现了26558个不限学历的招聘职位,而硕士、博士以上学历的却非常少.
事实上it行业属于"吃青春饭"的行业,很多做it的到最后都转型,当上管理层.
这是一个属于年轻人的职业.
对筛选出来的所有it职位,按职位类型统计职位类型职位招聘的个数,并按招聘职位个数进行降序排列,取前面10个职位类型,结果如下表所示:第22页表10:it职位排名前10的职位类型专业领域计数排序后端开发241221移动开发105422前端开发100913测试59674运维32045高端计数职位19176dba15747企业软件9078硬件开发8759项目管理70310由上表可知:it行业需求较大的专业领域集中在后端开发、移动开发、前段开发、测试跟运维.
3.
5结合研究结果,给在校大学生就业规划提建议网络招聘信息平台现已成为招聘者发布招聘信息和应聘者获取职位信息的主要渠道.
如今是互联网时代,互联网日新月异,网上的招聘信息层出不穷,这给我们求职者找工作提供了一条方便快捷并且有效的途径.
特别是在校大学生,往往可以通过结合自身专业条件和能力水平选择适合自己的岗位,投递简历联系应聘.
随着每年毕业生总量压力进一步增大,很多大学生难以在社会中找到一份适合自己的职位,被迫失业,而也有很多企业高新招聘却找不到合适的人才.
这种供需矛盾的现象要求我们应该要有对自己将来所从事的行业有一定的规划准备以下为大学生就业规划的建议:(1)提高自身能力储备,明确所学专业大学生应该结合个人发展的需要,选择适合自己的学习内容、学习方法和学习方式,形成自己的学习目标并提高自己学习能力.
要树立正确的职业理想,大学生一旦确定自己理想的职业,就会依据职业目标规划自己的学习和实践,并为获得理想的职业做好积极准备.
大学生要明确了解自己所学的专业,包括专业的要求、专业适合的岗位、专业的职业类型、专业发展的前景等,才能对自己所学专业保持一个全面正确的了解,对学习内容有一定的认识,对就业有一个更有目的性的规划.
(2)了解专业的职位类型和职位要求职业类型是一个较大的概念,一般按一定的规则、标准及方法,按照职业的性质和特点,把一般特征和本质特征相同或相似的社会职业,统一归纳为同一职业类型.
所以不同的职位可以同属一个职业类型,如技术类职业类型,其职位可以是前端工程师、MySQL数据库工程师、运维开发工程师等.
大学生了解自己专业所属的职位类型可以知道与自己专业性质相类似的其他职位,进而可以对自己专业有更深刻的认识.
也可以根据个人的需要和特点,选择相临近的职业.
另一方面,了解专业的职位要求,对自己的学习内容、专业素养、能力培养第23页都有一个初步的对照,根据职位要求进而制定就业规划.
要明确不同招聘单位对职位的要求不同,如同为数据分析师,有些单位只要求掌握对数据的筛选;有些只需要求前端开发;有些则要求是广告平台数据分析师-javaHadoop,甚至是要求高级Java软件工程师.
因此,在校大学生要严格要求自己,全面学习相关专业知识,全面掌握相关专业技能和岗位要求,形成多元化全面的发展,以便符合不同的岗位的工作要求.
(3)了解热门的行业和地域本题通过分析研究得出热门行业基本为IT行业、数据分析师、Java等,这些热门行业主要分布的地域为北京、上海、广州、深圳这些经济相当发达的大城市,对专业人才的需求量高,对专业人才的能力要求高,且薪资方面相对于小城市也高了许多.
大学生要根据自己所学专业的前景去判定要不要多学专业外的热门行业的相关知识,以便遇到自己所学专业招聘岗位已饱和或发展前景不好能有另外的出路,有应聘别的工作的机会.
大学生应该选择适合自己的发展区域,根据不同区域对工作岗位的工作内容、工作要求和工作能力等不同来要求自己,使自己具备成为一名合格工作者的标准.
(4)积累工作经验根据网上招聘信息得知不同工作职位需要的应聘者要求是实习生,3-5年或5-10年的工作,这需要在校大学生通过社会实践去积累工作经验,争取在校期间到各大知名企业去应聘实习生的工作.
开始步入社会工作,有利于以后工作任职的顺利进行.
大学生认识要超前,要认识到单有理论知识没有实践经验,将来走向社会很难得到社会的认可.
现在有不少用人单位明确表示不招刚毕业的大学生,确实有他们的理由,因为企业要招的人是不通过培训招进来就能立即上岗的人,而不是缺乏工作经验处理事情毫无条理的人,然而这却是很多应届大学毕业生的"软肋".
大学生可以利用寒暑假到各大企业、社会单位实习,如从大一就开始,平均拿三年的寒暑假计算,大概有9个月的时间可以积累到很多工作经验,特别要珍惜临近毕业的这一年实习机会.
大学生要根据自己所学专业或毕业后打算从事哪方面的职业来确定实习的单位和实习的内容,不能毫无目的的到任何性质的单位实习,没有对自己以后从事的工作积累有用的经验,这样的社会实践对将来的就业帮助不会很大.
(5)不断提升自己,用能力说话当今社会人才辈出,就业形势严峻,很多大学生都面临着一毕业就失业的窘境,归咎起来,都是一个能力问题.
所以,大学生在校期间一定要把握好四年时光,努力学习,培养良好的心理素质,并且不断提升自己的能力,只有这样,将来在求职时才不至于处处碰壁,才能在艰难险阻中立于不败之地.
首先,在校大学生应该多多参加一些学校举办的活动,多多上台去表现自己,不断提高自己的表达能力与胆识.
许多高校会定期举办一些模拟就业的活动,大学生可以多多参与,从中获得一些经验体悟.
其次,一些学生缺乏市场意识,缺乏择业经验,很多学生在就业过程中主体意识薄弱,一是求职过程中过多依赖学校老师和家长,求职准备和主动性不够;二是,一些学生的查找资料和获取信息的能力太差,不懂得如何获取有效的网络招聘信息.
所以,作为在校大学生,在刚踏入大学校门的那一刻开始,就应该培养自己的独立意识,而不应该过多地依赖别人,对于求职,应当有足够的准备和主动性,学会利用互联网的时代背景优势,获取有利的资源和信息.
第24页大学生要时刻关注招聘信息,有目的的学习,应该从大一开始未雨绸缪,在大学期间不断提升自己,丰富社会实践工作,制定好就业计划,努力将自己打造成社会栋梁!
4结论对网络招聘信息进行分析研究,了解社会和相关行业的需求特点与趋势,对广大的求职者有重大意义,同时也是文本分析的一个课题、一个难题.
传统的文本解读已经不能满足数据量庞大的网络招聘信息.
本文采用根据K-means聚类方法和Knn最邻近分类,统计目前企业最需要的职业类型,并定义相关职业领域,深入分析人才市场的供需现状.
由分析结果可以看出,网络招聘中所需要的人才可以分为技术、职能、市场、销售、产品、运营、设计和金融七大职业分类,对各个行业领域出现的招聘次数进行计数,从而定义热门的地域,可以看出北上广发达地区需求量较大,通过排序得出各大职位的需求情况,并定义热门的职位,可以发现热门行业为移动与互联网相关职业.
统计新兴行业在公司在不同的发展阶段对这四类新兴职位的需求量,得出上市型和成长型需求量较大,另外分析了IT人才市场的供求现状及未来的发展趋势,可以看出发展前景相对较好.
5参考文献[1]赵琳瑛.
基于隐马尔科夫模型的中文命名实体识别研究.
西安电子科技大学.
2007[2]翟东海,鱼江,高飞,于磊等.
最大距离法选取初始簇中心的K_means文本聚类算法的研究.
西南交通大学.
2014[3]朱志远.
基于数据挖掘的网络招聘系统是设计与实现.
电子科技大学.
硕士学位论文.
2013[4]王千,王成,冯振元,叶金凤.
K-means聚类算法研究综述.
2012[5]张晓辉,李莹,王华勇等.
应用特征聚合进行中文文本分类的改进KNN算法.
东北大学.
2003[6]卜凡军.
KNN算法的改进及其在文本分类中的应用.
江南大学.
硕士学位论文.
2009[7]曹卫峰.
中文分词关键技术研究.
南京理工大学.
硕士学位论文.
2009[8]杨虎.
面向海量短文文本去重技术的研究与实现.
国防科学技术大学.
2007

展开全文

职位分词工具相关文档

京沪高铁上市首秀哪些企业建设京沪高铁？敬汉卿姓名被抢注身份证号码被别人抢注了12306帐号怎么办 www.20ren.com有什么好看的电影吗？来几个…www.4411b.com难道那www真的4411B坏了，还是4411b梗换com鑫域明了 www.yahoo.com.hk香港的常用网站 mole.61.com摩尔庄园的米米号和密码我都忘了只记得注册的邮箱怎么办-_-www.7788dy.com回家的诱惑哪个网站更新的最快啊 www.hyyan.comdota屠夫怎么玩？从初期到后期的装备是什么？www.ijinshan.com金山毒霸的网站是多少 www.ijinshan.com好电脑要用什么样的软件国外主机空间域名备案查域名电信服务器租赁万网免费域名 uk2 线路工具一点优惠网数字域名空间出租世界测速稳定免费空间免费申请个人网站 hkt 多线空间 cxz 金主黑科云聚惠网 windowssever2008 更多

职位分词工具

福州云服务器 1核 2G 2M 12元/月（买5个月) 萤光云

Hostodo（年付12美元）斯波坎VPS六六折,美国西海岸机房

HaBangNet（6.95美元/月）美国vps 5TB流量/德国vps 香港双向CN2 GIA VPS