决策树基本定义决策树是一种利用树形图进行决策的预测模型,表现出对象属性与对象值的一种映射关系,用于分类和回归任务。它是通过训练数据,采用自顶而下的贪婪算法选择最合适的属性作为节点生成的决策树。
属性选择标准
信息增益 (ID3算法)
信息熵 H(D)用来描述系统信息量的不确定度,越混乱,信息熵越高。H(D|A)表示属性A的情况下的熵值。Gain值表示属性A对于系统统一性作出的贡献值,对比所有属性的Gain值,Gain值最高的属性适合做决策树的第一个节点。
条件熵:
eg. 风力weak的情况有8次,风力strong的情况6次。week情况下,8次中有6次出去玩,2次不出去玩。stro...
k-均值聚类kmeans算法是一种常用的聚类算法,属于无监督学习的一种。KMeans算法的基本原理是通过迭代的方式将数据集划分为K个簇,使得每个簇内的数据点尽可能相似,而不同簇之间的数据点尽可能不同。
具体步骤初始化:随机选择K个数据点作为初始的聚类中心。分配:计算每个数据点到各个聚类中心的距离,将每个数据点分配到距离最近的聚类中心所在的簇。更新:重新计算每个簇的中心点,通常是取该簇所有数据点的均值。迭代:重复步骤2和3,直到聚类中心不再发生变化或达到预设的迭代次数。
KMeans算法的应用场景和优缺点KMeans算法因其简单高效,被广泛应用于数据挖掘、数据分析、异常检测、模式识别等领域...
线性回归(Linear Regression)线性回归是一种监督学习算法,用于建立连续型变量(因变量)与一个或多个自变量之间的线性关系模型。核心思想:通过拟合最佳直线(或超平面)最小化预测值与真实值的误差。
数学模型
其中斜率系数代表权重参数。
损失函数损失是一个数值指标,用于描述模型的预测有多大偏差。损失函数用于衡量模型预测与实际标签之间的距离。训练模型的目标是尽可能降低损失,将其降至最低值。
损失类型:
使用不同损失函数训练出的模型,与离群值距离不同。
MSE:模型更接近离群值,但与大多数其他数据点的距离更远。
MAE:模型离离群值较远,但离大多数其他数据点较近。
梯度下降法梯度下...
朴素贝叶斯分类贝叶斯分类是一类分类算法的总称,这类算法以贝叶斯定理为基础。而朴素贝叶斯分类是贝叶斯分类中最简单与常见的一种分类方法,它与贝叶斯分类的区别点是加了一个前提假设:所有的条件对结果都是独立发生作用的,即所有的特征之间相互独立。(比如某人是篮球运动员与某人有运动天赋,这两个特征之间是有关联的,不能算作完全独立。而特征有关联性会导致朴素贝叶斯概率误差较大)
贝叶斯公式
先验概率(Prior Probability):P(A)基于过去的经验认知,对某个事件发生概率的初步估计。后验概率(Posterior Probability):P(A|B)表示在特征B已知的情况下,类别A发生的概率...
1.1 监督学习 Supervised Learning训练数据: 有明确标签(数据集的每个样本的多种特征均有标准答案)输出: 有特定结果导向
回归算法regression与分类算法classification均属于监督学习机制,其他函数如支持向量机也属于该机制。
回归通过设计的算法输出连续值continuous value,分类输出离散值 discrete value。
1.2 无监督学习 Unsupervised Learning训练数据:无标签或均为同标签 (无标准答案)输出: 无特定结果导向,需要设计算法自行发现数据的规律。
聚类算法是无监督学习机制中的一种算法,其他函数...
Welcome to Hexo! This is your very first post. Check documentation for more info. If you get any problems when using Hexo, you can find the answer in troubleshooting or you can ask me on GitHub.
Quick StartCreate a new post1$ hexo new "My New Post"
More info: Writing
Run server1$ hexo ...