相关系数的介绍与特征选择
发表于
|
分类于
知识沉淀
在进行数据分析的时候,相关性相关系数和特征选择之前,先来区别两个概念,一个是属性,一个是特征。一般,把数据集中的各列称为属性,而对算法模型表现有益的属性称为特征。举个例子,在预测泰坦尼克乘客的存活情况时,乘客姓名这个属性对我们的预测可能没有帮助,甚至会干扰模型表现;而乘客年龄、性别或许与存活情况有很
...
1201.机器学习-算法-Logistic 回归
发表于
|
分类于
machine_learning
,
算法
Logistic模型,又称为Logistic回归模型,是一种广义线性模型(GLM),主要用于处理二分类问题。它通过使用Logistic函数(或称为Sigmoid函数)来估计概率,从而预测一个事件的发生与否。尽管它涉及到一些高等数学的概念,但是其基本原理和公式是可以通过初高中数学基础来理解的。
公式和
...
1201.机器学习-算法-K-Means聚类
发表于
|
分类于
machine_learning
,
算法
K-means 算法是一种经典的无监督学习方法,用于对未标记的数据集进行分群,即将数据集中相似的对象划分为不同的簇。
基本原理:
初始化: 设定簇的数量(K):由用户预先指定,表示希望得到的簇的数量。 选择初始聚类中心(Centroids):通常随机从数据集中选取 K 个对象作为初始的聚类中心。
...
1201.机器学习-算法-支持向量机
发表于
|
分类于
machine_learning
,
算法
初识SVM算法支持向量机(Support Vector Machine,SVM)是一种经典的监督学习算法,用于解决二分类和多分类问题。其核心思想是通过在特征空间中找到一个最优的超平面来进行分类,并且间隔最大。它的基本模型是定义在特征空间上的间隔最大的线性分类器,间隔最大使它有别于感知机;SVM还包括
...
1201.机器学习-算法-线性回归
发表于
|
分类于
machine_learning
,
算法
线性回归模型简介线性与非线性
线性:两个变量之间的关系是一次函数关系的——图象是直线,叫做线性。注意:线性是指广义的线性,也就是数据与数据之间的关系。
非线性:两个变量之间的关系不是一次函数关系的——图象不是直线,叫做非线性。
线性回归是统计学中一种常用的预测分析方法,它通过最小化误差的平方和来
...
1201.机器学习-算法-朴素贝叶斯
发表于
|
分类于
machine_learning
,
算法
18世纪英国业余(一点都不业余好吗)数学家托马斯·贝叶斯(Thomas Bayes,1702~1761)提出过一种看似显而易见的观点:用客观的新信息更新我们最初关于某个事物的信念后,我们就会得到一个新的、改进了的信念。这个研究成果由于简单显得平淡无奇,直至他死后两年才于1763年由他的朋友理查德·普
...
1201.机器学习-算法-朴素贝叶斯
发表于
|
分类于
machine_learning
,
算法
匈牙利算法(Hungarian Algorithm) 是一种在多项式时间内求解的分配问题的组合优化算法, 由 Harold Kuhn 在1955年完善并发表. 算法的命名是因为该算法很大程度上是基于两位匈牙利数学家 Dénes Kőnig and Jenő Egerváry 的工作而来的. Jame
...