编辑
然后我们再来看一下,对于之前我们说的,一元一次方程来说,在我们的现实世界中,往往是不能适用的,因为只考虑一个因素的话,那么太简单了,所以我们需要,考虑多个因素,这里就需要
多元一次方程.这个元就是多个维度,考虑多个因素的意思.
编辑
可以看到,多元线性回归,其实就是上面写的
y = w1*x1 +....wn * xn + w0
编辑
然后这里要注意,其实这个w0 可以写成w0*x0,我们假设x0是1
y = w1*x1 +....wn * xn + w0 * x0 就写成了这样
编辑
然后这个我们看到其实就是一个,行和列的计算,如果我们把w1...wn写成行,然后把x0...xn写成列,那么上面我们写的那个:y = w1*x1 +....wn * xn + w0 * x0 实际上就是行列的,相乘
也可以写成 y =wT* x 这样写,在数学中叫做transpose,转置函数,也叫转换函数,转换成行列相乘函数.这里wT指的就是w0到wn,然后x指的就是x0到xn,然后还可以简写成:y = seita T * X
这里seita 符号我又不会打了. y = θ^T * X 这里的T,也不是这样写的,也不是T次方的意思,这里表示对W,或者说是对θ 进行转置,因为T是转置函数,
编辑
然后我们继续来看这里,对于上图中,左边的m来说,表示输入的样本,所谓的样本,就是很多的数据,历史数据,这里yi表示,第m个样本的,第i个结果,这里的yi,表示的是真实的结果.并不是我们之前说的那个yhat y估计,是真实值.这里要知道y是一列的,然后x是什么呢?x不是行业不是列,x是一个,行列的矩阵,表示的是,m * x,这样的行列矩阵,然后如果我们写一个xi,那么这个xi,表示,里面的某一行,也就是针对某个m样本的,某个x0到xn ,这里的xi指的就是某个x0到xn.
然后上面我们写的公式y = W^t * X 这里是小写的y,表示预测值,就是yhat ,然后t表示转置,可以看到,右边是e bu se lo ε ,这个值,我们就可以用,大写的Y 也就是输入的真实的Y值,然后 减去- y小写的y,去绝对值,就得到了误差ε了.
然后我们再看上面的值,那个be ta beta(大写Β,小写β,中文音译:贝塔 ) ,这个其实用w来表示,会更专业,w0到wn,这里用大写的W,表示权重,为什么用大写的W表示,因为:
编辑
可以看到,这里y = w1*x1 +w2*x2 +....wn*xn + w0 *x0..
可以看到这里W越大,表示权重越大对结果的影响越大对吧.所以w也是重要程度,影响程度这样.
然后我们再来看,这里m指的是样本,那么m *x0 ...xn,其实就是,y列,其实就是y = m *x 这样一个矩阵,
那么就是m *x (也就是y 这一个列)= 那么m行 * n列(这里m和x都表示一组数据) 这个行列矩阵 * 要乘以 ,注意这里需要再理解一下,这里的m0到mn个样本, * x0 到xn,这里整个的这部分合起来,可以理解成,我们之前的那个一元一次方程里的x,然后,这个行列的矩阵,要乘以一个n行 一列的w0的数据,也就是权重数据,才能得到 y这个预测值.所以,这里我们说的w,每个w都表示w0到wn,是一个一列n行的数据,一组数据.
这里有了y值这个真实值这一列,有了输入的初始的样本m,yi = mi * xi +m0 *x0 这里就可以获取到
一组w,这里一组w,就是m其实就是,但是m是初始的样本值,w是求出的模型,也就是我们说权重,然后
这里mi 和 xi 都值得是一组数据这个要清楚,然后,有了这个w以后,我们就可以带入新的xi,也就是一组x 的值,然后去求出预测值y.得到预测值yi.
编辑
然后我们再来看,我们的公式,y = se ta T* X 或者写成 = WT *X ,这里的
w指的是一个m行一列的数据,同样x是m行 n列的数据,得到的是一个y 这个预测值,是
m行 一列的预测值,然后和m行 一列的真实的Y 去减去然后获得绝对值,得到一个,m行 一列的
误差列 e bu se lo.
编辑
然后其实我们这里要做的就是,要把现有的得到这个e bu se lo 这个列,拿到,然后
把拿到的值进行 平方,然后加起来,∑,然后再去除以 m的 行数 ,也就是我们输入的样本数量,得到
平均值,这个值就是截距...就是挨着线性最近的那个误差值.通过我们不断得到w权重,带入,得到
不同的这个值,获取最小的这个值,对应的一组w就可以了.我们找到就是这一组w.权重.也叫模型.
编辑
首先我们看,这里数据首先是包含,x,y的数据,然后,得到的值,y如果是连续的那么我们需要处理的是,回归问题,
如果y是离散的,我们需要解决的是分类问题.
编辑
之前也说过这个案例了,这里要说的就是,自然规律,高斯分布,我们要做的就是,找到贴近高斯分布,也就是正态分布的,这个权重w.
编辑
然后我们再来看,这里,有个最大似然估计,这个是什么意思,最大似然估计是一种统计方法,它用来求一个样本的相关概率密度函数的参数,也就是说,对于我们的数据集,我们可能会有很多个正太分布,
那么我们要找到,符合我们数据集的是哪一个正太分布,这个时候我们就需要用到这个,最大似然估计.
因为我们知道,如果我们找到了一个正态分布的密度函数,我们要获取密度最大的,也就是相关性最大的这个正太分布.
举个例子,我们有两个正太分布,一个是踢足球的人员的正态分布,可以看到上面左边的那个,这个正太分布,身高可以看到,范围广一些,1.6到1.9 是,另一个是打篮球人的正太分布,可以看到这个身高是1.8到2.26 ,这个正太分布就比较的高,比较廋对吧,也就是大部分数据,都集中在u均值的左右了...数据密集.所以如果有一个人是1.7,或者1.8 ,那么我们通过最大似然估计,能得到,第一个正太分布,比较符合规律,我们就把这个人放到第一个正太分布里.
实际上,我们说,如果我们有一个u值,也就是均值,并且我们还有一个 标准差,这个标准差表示的是数据的离散程度,或者说方差是表示离散程度,方差越大,那么正太分布越扁平,离散程度高,越小离散程度越小.
方差是实际值与期望值之差平方的平均值,而标准差是方差平方根。标准差,也称均方差,是各数据偏离平均数的距离的平均数,它是离均差平方和平均后的方根,用σ表示。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度.