markov不等式取等条件
markov不等式取等条件:
|a|≥a取"="的条件是a≥0
|a|≥-a取"="的条件是a≤0
|a+b|≤|a|+|b| 取"="的条件是ab≥0
|a-b|≤|a|+|b| 取"="的条件是ab≤0
(变形为|a+(-b)|≤|a|+|-b| 再用基本式得到)
|a+b|≥|a|-|b| 取"="的条件是(a+b)b≤0
(变形为|a+b|+|-b|≥|(a+b)+(-b)| 再用基本式得到)
|a-b|≥|a|-|b| 取"="的条件是(a-b)b≥0
基本性质
①如果xy,那么yx;如果yx,那么xy(对称性)
②如果xy,yz;那么xz(传递性)
③如果xy,而z为任意实数或整式,那么x+zy+z(加法原则,或叫同向不等式可加性)
④ 如果xy,z0,那么xzyz;如果xy,z0,那么xzyz(乘法原则)
⑤如果xy,mn,那么x+my+n(充分不必要条件)
马尔可夫不等式,二次函数绝对值不等式
正常啊,说明马尔科夫不等式放大放的太多了,一般还是用基本不等式吧
不等式是
什么是不等式
用不等号将两个整式连结起来所成的式子。在一个式子中的数的关系,不全是等号,含不等符号的式子,那它就是一个不等式。例如2x+2y≥2xy,sinx≤1,ex0 ""连接的不等式称为严格不等式,用不小于号(大于或等于号)、不大于号(小于或等于号)"≥”“≤”连接的不等式称为非严格不等式,或称广义不等式。
不等式的分类
卡尔松不等式、几何不等式、外森比克不等式、克拉克森不等式、yu不等式、施瓦尔兹不等式、卡尔松不等式、三角不等式、erdos不等式、Milosevic不等式、等周不等式、芬斯拉不等式、嵌入不等式、杨氏不等式、车贝契夫不等式、马尔可夫不等式、典范类不等式、佩多不等式、四边形不等式、肖刚不等式、Arakelov不等式、卡拉玛特不等式、外森比克不等式、宫冈-丘不等式、柯西—施瓦茨不等式
马尔可夫不等式和切比雪夫不等式
中文叫马尔科夫不等式或马尔可夫不等式。
若随机变量 只取非负值,则 ,有
证明 :
取 ,则必有 ,进而有 。
而
因此有 ,得证。
以上证明非常简单,如果想直观地理解一下,就是将整个 的分布减小(分布图像向左移)到 和 处两个部分,减小后的分布的期望一定小于原来的期望。如下图:
如果用积分形式来证,也非常直接:
Markov's inequality用得非常少,因为它给出的上界宽松了,但用它可以证明另一个著名的不等式——Chebyshev's inequality,中文叫切比雪夫不等式。
假设随机变量 有均值 、方差 ,则 ,有:
证明:
取 ,则它非负,而 也非负,使用Markov's Inequality,有:
而 , 与 又是等价的,因此得证。
高斯-马尔可夫定理 以及为什么最小二乘法是***线性无偏估计
在做机器学习和线性回归的时候,经常会遇到不讲道理的最小二乘法,优化的目标是(yi-y)^2最小,这个结论非常暴力,为啥不是三次方,四次方,他的来源是什么呢?
本文参考的内容 高斯马尔科夫定理的证明
在 统计学 中, 高斯-马尔可夫定理(G***ss-Markov Theorem) 陈述的是:在 线性回归 模型中,如果误差满足零 均值 、 同方差 且 互不相关 ,则回归系数的***线性 无偏 估计 ( BLUE , Best Linear unbiased estimator)就是 普通最小二乘法估计 。
上面的理论言简意赅,但是很多名词的意思需要展开来理解。
1、什么是线性回归?
2、为什么要零均值、同方差、互不相关
3、什么是线性估计,什么是无偏估计?
4、什么是***估计,标准是什么?
回归就是利用测量到的数据去尝试计算真实值得一种方法,假设我们测量到了很多的数据,但是我们内心觉得这些数据可能是有线性关系的,那么我们可以利用这些数据去计算(估计)那条真实的“直线”。
线性回归有一些问题值得思考:
这个比较好理解,每一次测量,肯定是存在误差的,如果这个误差的均值是0,形象的理解就是误差可能大一点、也可能小一点,平均起来就是在真值附近变化,而且每次测量的行为都是独立互不影响的。我们就可以定义这个误差的期望是0,方差是一个固定值。
我们也不知道真实值,对误差的这种假设其实一种理想的假设。
线性估计的模型是这样的,beta是一个模型的真实值,他的维度是k维向量,X是我们的样本,他是一个N*K的矩阵,y是我们样本的结果,是一个N维矩阵,epsilon是我们每次测量和真实值的误差。
比如我现在测量了N个学生的身高、体重、起床时间、平时作业成绩。。。。等等这些参数(K个参数),我想知道这些参数和他们的期末考试成绩的线性关系是什么,他们的期末成绩就是y(N维向量),我现在需要估计的beta就是每个参数和期末成绩关系的矩阵。这个方程里面y和x是已知的。
如果N=K,那么这就是一个N元N次方程组,他只有一个解,我们用这个解就能得到一个beta。但是实际情况来说我们可以测量很多学生的值,N可以比K大很多,这种情况下方程组是无解的。(直观理解,那些点并不完全在一条直线、一个平面上)
在这种情况下我需要一种算法去计算一个beta的估计:
这里的C应该是和x有关系的。但是这个C可以有很多形式,他就是一种线性估计
无偏估计的定义大概是这样的:
看着很不直观,但是可以这样理解,无偏估计的意思是我抽取一批样本,然后根据这些样本估计出来的beta,是在真实beta的任意方向等可能存在的,直接一点来说,我把很多批次的估计再来求取一个平均,会更接近于真实的beta,在做无穷多次抽取之后可以任认为这些估计的均值就是真实值。
具体的例子:比如我们要估计总体均值theata,随机抽取一批数据得到样本的均值,这个均值就是无偏的,随着抽取的批次增加,E(E(x)) = theata,也就是均值的均值会得到真实值。
有偏估计是指这个估计的过程中引入了一些系统的误差,最终把很多批次的估计合计起来看,得不到真实的结果。
还有一个和无偏相关的概念——一致性:
关于无偏和一致性这篇文章讲得比较好 深入浅出讲解数理统计——(3)评价估计量的好坏
总结来说:
实际上真实世界中的测量都是有系统误差的,估计出来的值是有偏的,但是如果这个偏差比较小,而且是一致的,那么这个估计量就是有意义的。反之,就算这个估计是无偏的,但是没有一致性,那么只有在穷举之后才能得到那个真实值,这样的估计也是很不好的。
再重复一下开始的假设,在证明过程中,参数都是矩阵形式的、设计到矩阵运算的和矩阵的性质。
现在我们要估计K个系统中的参数,他们组成一个K维向量beta。
OLS(最小二乘法)的估计结果由上图所示,现在的目标就是要证明OLS估计是***的
证明如下,带入y,右边出现真值beta,由于epsilon是0均值的,所以OSL估计出来的beta就是真值beta
估计beta的方法有很多种,我们定义***的一种是,方差最小的,所以最小二乘法是平方而不是三次方、四次方。
也就是说上式中左边的估计方法要优于右边的估计方法,接下来就是证明为什么OSL最小二乘法的方差是最小的
要证明4.2中的不等式成立,那就是要证明下式是 半正定矩阵
假设一个任意的估计矩阵是C,那么这个估计矩阵和OSL的估计矩阵的差异,设为D矩阵,由于两个beta都是无偏估计,那么有:D矩阵性质是DX=0,这里有个条件概率E[DXbeta|X],如果X是已知的,那么DX只是一个常量,这个常量必须恒等于一个k*k的0矩阵
利用了一下这个性质:
马尔可夫不等式的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于马尔可夫不等式和切比雪夫不等式的区别、马尔可夫不等式的信息别忘了在本站进行查找喔。