数据挖掘原理与算法数据挖掘里面最简单的算法是什么

数据挖掘原理与算法时间:2021-07-31 阅读:()

数据挖掘算法有哪些

统计和可视化要想建立一个好的预言模型，你必须了解自己的数据。

最基本的方法是计算各种统计变量（平均值、方差等）和察看数据的分布情况。

你也可以用数据透视表察看多维数据。

数据的种类可分为连续的，有一个用数字表示的值（比如销售量）或离散的，分成一个个的类别（如红、绿、蓝）。

离散数据可以进一步分为可排序的，数据间可以比较大小（如，高、中、低）和标称的，不可排序（如邮政编码）。

图形和可视化工具在数据准备阶段尤其重要，它能让你快速直观的分析数据，而不是给你枯燥乏味的文本和数字。

它不仅让你看到整个森林，还允许你拉近每一棵树来察看细节。

在图形模式下人们很容易找到数据中可能存在的模式、关系、异常等，直接看数字则很难。

可视化工具的问题是模型可能有很多维或变量，但是我们只能在2维的屏幕或纸上展示它。

比如，我们可能要看的是信用风险与年龄、性别、婚姻状况、参加工作时间的关系。

因此，可视化工具必须用比较巧妙的方法在两维空间内展示n维空间的数据。

虽然目前有了一些这样的工具，但它们都要用户“训练”过他们的眼睛后才能理解图中画的到底是什么东西。

对于眼睛有色盲或空间感不强的人，在使用这些工具时可能会遇到困难。

聚集（分群）聚集是把整个数据库分成不同的群组。

它的目的是要群与群之间差别很明显，而同一个群之间的数据尽量相似。

与分类不同（见后面的预测型数据挖掘），在开始聚集之前你不知道要把数据分成几组，也不知道怎么分（依照哪几个变量）。

因此在聚集之后要有一个对业务很熟悉的人来解释这样分群的意义。

很多情况下一次聚集你得到的分群对你的业务来说可能并不好，这时你需要删除或增加变量以影响分群的方式，经过几次反复之后才能最终得到一个理想的结果。

神经元网络和K-均值是比较常用的聚集算法。

不要把聚集与分类混淆起来。

在分类之前，你已经知道要把数据分成哪几类，每个类的性质是什么，聚集则恰恰相反。

关联分析关联分析是寻找数据库中值的相关性。

两种常用的技术是关联规则和序列模式。

关联规则是寻找在同一个事件中出现的不同项的相关性，比如在一次购买活动中所买不同商品的相关性。

序列模式与此类似，他寻找的是事件之间时间上的相关性，如对股票涨跌的分析。

关联规则可记为A==>B，A称为前提和左部（LHS），B称为后续或右部（RHS）。

如关联规则“买锤子的人也会买钉子”，左部是“买锤子”，右部是“买钉子”。

要计算包含某个特定项或几个项的事务在数据库中出现的概率只要在数据库中直接统计即可。

某一特定关联（“锤子和钉子”）在数据库中出现的频率称为支持度。

比如在总共1000个事务中有15个事务同时包含了“锤子和钉子”，则此关联的支持度为1.5%。

非常低的支持度（比如1百万个事务中只有一个）可能意味着此关联不是很重要，或出现了错误数据（如，“男性和怀孕”）。

要找到有意义的规则，我们还要考察规则中项及其组合出现的相对频率。

当已有A时，B发生的概率是多少？也即概率论中的条件概率。

回到我们的例子，也就是问“当一个人已经买了锤子，那他有多大的可能也会买钉子？”这个条件概率在数据挖掘中也称为可信度，计算方法是求百分比：（A与B同时出现的频率）/（A出现的频率）。

让我们用一个例子更详细的解释这些概念：总交易笔数（事务数）：1,000包含“锤子”：50包含“钉子”：80包含“钳子”：20包含“锤子”和“钉子”：15包含“钳子”和“钉子”：10包含“锤子”和“钳子”：10包含“锤子”、“钳子”和“钉子”：5 则可以计算出： “锤子和钉子”的支持度=1.5%（15/1,000）“锤子、钉子和钳子”的支持度=0.5%（5/1,000）“锤子==>钉子”的可信度=30%（15/50）“钉子==>锤子”的可信度=19%（15/80）“锤子和钉子==>钳子”的可信度=33%（5/15）“钳子==>锤子和钉子”的可信度=25%（5/20）

用于数据挖掘的分类算法有哪些，各有何优劣

1.?朴素贝叶斯(Naive Bayes, NB) 超级简单，就像做一些数数的工作。

如果条件独立假设成立的话，NB将比鉴别模型（如Logistic回归）收敛的更快，所以你只需要少量的训练数据。

即使条件独立假设不成立，NB在实际中仍然表现出惊人的好。

如果你想做类似半监督学习，或者是既要模型简单又要性能好，NB值得尝试。

2.?Logistic回归(Logistic Regression, LR) LR有很多方法来对模型正则化。

比起NB的条件独立性假设，LR不需要考虑样本是否是相关的。

与决策树与支持向量机（SVM）不同，NB有很好的概率解释，且很容易利用新的训练数据来更新模型（使用在线梯度下降法）。

如果你想要一些概率信息（如，为了更容易的调整分类阈值，得到分类的不确定性，得到置信区间），或者希望将来有更多数据时能方便的更新改进模型，LR是值得使用的。

3.决策树（Decision Tree, DT） DT容易理解与解释。

DT是非参数的，所以你不需要担心野点（或离群点）和数据是否线性可分的问题（例如，DT可以轻松的处理这种情况：属于A类的样本的特征x取值往往非常小或者非常大，而属于B类的样本的特征x取值在中间范围）。

DT的主要缺点是容易过拟合，这也正是随机森林（Random Forest, RF）（或者Boosted树）等集成学习算法被提出来的原因。

此外，RF在很多分类问题中经常表现得最好（我个人相信一般比SVM稍好），且速度快可扩展，也不像SVM那样需要调整大量的参数，所以最近RF是一个非常流行的算法。

4.支持向量机（Support Vector Machine, SVM）很高的分类正确率，对过拟合有很好的理论保证，选取合适的核函数，面对特征线性不可分的问题也可以表现得很好。

SVM在维数通常很高的文本分类中非常的流行。

由于较大的内存需求和繁琐的调参，我认为RF已经开始威胁其地位了。

用于数据挖掘的分类算法有哪些，各有何优劣

朴素贝叶斯(Naive Bayes, NB) 　　超级简单，就像做一些数数的工作。

如果条件独立假设成立的话，NB将比鉴别模型（如Logistic回归）收敛的更快，所以你只需要少量的训练数据。

即使条件独立假设不成立，NB在实际中仍然表现出惊人的好。

如果你想做类似半监督学习，或者是既要模型简单又要性能好，NB值得尝试。

　　Logistic回归(Logistic Regression, LR) 　　LR有很多方法来对模型正则化。

比起NB的条件独立性假设，LR不需要考虑样本是否是相关的。

与决策树与支持向量机（SVM）不同，NB有很好的概率解释，且很容易利用新的训练数据来更新模型（使用在线梯度下降法）。

如果你想要一些概率信息（如，为了更容易的调整分类阈值，得到分类的不确定性，得到置信区间），或者希望将来有更多数据时能方便的更新改进模型，LR是值得使用的。

　　决策树（Decision Tree, DT）　　DT容易理解与解释（对某些人而言——不确定我是否也在他们其中）。

DT是非参数的，所以你不需要担心野点（或离群点）和数据是否线性可分的问题（例如，DT可以轻松的处理这种情况：属于A类的样本的特征x取值往往非常小或者非常大，而属于B类的样本的特征x取值在中间范围）。

DT的主要缺点是容易过拟合，这也正是随机森林（Random Forest, RF）（或者Boosted树）等集成学习算法被提出来的原因。

此外，RF在很多分类问题中经常表现得最好（我个人相信一般比SVM稍好），且速度快可扩展，也不像SVM那样需要调整大量的参数，所以最近RF是一个非常流行的算法。

　　支持向量机（Support Vector Machine, SVM）　　很高的分类正确率，对过拟合有很好的理论保证，选取合适的核函数，面对特征线性不可分的问题也可以表现得很好。

SVM在维数通常很高的文本分类中非常的流行。

由于较大的内存需求和繁琐的调参，我认为RF已经开始威胁其地位了。

　　回到LR与DT的问题（我更倾向是LR与RF的问题），做个简单的总结：两种方法都很快且可扩展。

在正确率方面，RF比LR更优。

但是LR可以在线更新且提供有用的概率信息。

鉴于你在Square(不确定推断科学家是什么，应该不是有趣的化身)，可能从事欺诈检测：如果你想快速的调整阈值来改变假阳性率与假阴性率，分类结果中包含概率信息将很有帮助。

无论你选择什么算法，如果你的各类样本数量是不均衡的（在欺诈检测中经常发生），你需要重新采样各类数据或者调整你的误差度量方法来使各类更均衡。

数据挖掘里面最简单的算法是什么

鄙人认为k-means算法不怎么难，不论是一维的还是二维的，用c或c++实现都不十分复杂，这方面的代码也很多。

算法描述: K均值聚类算法: 给定类的个数K，将N个对象分到K个类中去，使得类内对象之间的相似性最大，而类之间的相似性最小。

基本算法的步骤：输入：k, data[n]; （1）选择k个初始中心点，例如c[0]=data[0],…c[k-1]=data[k-1]; （2）对于data[0]….data[n], 分别与c[0]…c[n-1]比较，假定与c[i]差值最少，就标记为i; （3）对于所有标记为i点，重新计算c[i]={ 所有标记为i的data[j]之和}/标记为i的个数；（4）重复(2)(3),直到所有c[i]值的变化小于给定阈值或者前后两次的中心不再发生变化。

展开全文