高斯-马尔可夫定理总共分为对OLS(Ordinary least square)普通线性方程有5个假设。
1.Assumption MLR.1(linear in parameters): 假设一要求所有的母集团参数(population parameters)为常数,用来保证模型为线性关系。即如果母集团方程为y=a+b1x1+b2x2+…+bkxk+u, 所有的a, b1,b2…bk必须为常数。同时u为无法检测的误差项,即实验过程中模型没有包含的因素。
Assumption MLR.2 (Random sampling)假设二: 假设我们有n个调查的样本,那么这n个样本必须是从母集团里面随机抽样得出的。以假设一的方程为例,{(xi1,xi2, xi3…..xik,yi): i=1,2,3…n}
Assumption MLR.3 (No perfect collinearity)假设三:在样本(母集团)中, 没有独立变量(independent variable)是常数,并且独立变量之间不能有完全共线性。(根据矩阵方程的定义,方程会无解)
Assumption MLR.4 (Zero conditional mean)假设四: 母集团方程的误差项的均值为 0,并且均值不受到独立变量的影响,可以表示为:E(U/ X1, X2…Xk)=0
5.Assumption MLR.5 (Homoscedasticity): 假设五:同方差性, 误差项u的方差不受到独立变量的影响为一个固定不变的值,可以表示为: Var(u/X1,X2…Xk)=σ
在统计学中,高斯-马尔可夫定理是指在误差零均值,同方差,且相关的线性回归模型中,回归系数的最佳线性无偏估计就是最小方差估计。一般而言,任何回归系数的线性组合之BLUE(Best Linear Unbiased Estimators)就是它的最小方差估计。在这个线性回归模型中,其误差不需要假定为正态分布或独立同分布(而仅需要满足相关和方差这两个稍弱的条件)。
指在给定经典线性回归的假定下,最小二乘估计量是具有最小方差的线性无偏估计量的这一定理。 高斯–马尔可夫定理的意义在于,当经典假定成立时,我们不需要再去寻找其它无偏估计量,没有一个会优于普通最小二乘估计量。也就是说,如果存在一个好的线性无偏估计量,这个估计量的方差最多与普通最小二乘估计量的方差一样小,不会小于普通最小二乘估计量的方差。
尖峰,厚尾的特征是OLS不能捕捉的。模型的区别主要在于如何设定误差项。
很多复杂的式子里,一阶导是没有解析解的。
线性模型是怎么回事(基本描述了y与x的相关性)
引入例子 用一些指标判断垃圾邮件 y:0,1
l = function(p,y){
out = sum(y*log(p)+(1-y)*log(1-p))
return(out)
}
y = c(1,0,1,1,0,0,0,0,1,1,0,1,0,1,0,1,0,1,0,1,0,1,0,1,0,1,0,1,0)
d_l = function(p,y){
out = sum(y/p+(y-1)/(1-p))
return(out)
}
# p的范围更好,在[0,1]的闭区间里
dd_l = function(p,y){
out = sum((-y/p^2)+(y-1)/(1-p)^2)
return(out)
}
# 为了求一阶导数的零点,因此对其使用牛顿迭代法
# 其中也需要用到二阶导,算是铺垫
nralgo1<-function(mu0,func,deri){
epsilon<-1E-2 #Set Tolerance Level 精确度
MaxIter<-500 #Maximum Number of Iterations
p<-rep(NA,MaxIter+1) #A vector to store sequence of y
p[1]<-mu0 # Initialise初始化
for(n in 1:MaxIter){
p[n+1]<-p[n]-(func(p[n],y)/deri(p[n],y)) #Update Step
if(abs(p[n+1]-mean(y))<=epsilon){break} #Stopping Rule
}
if(n==MaxIter){warning('Maximum number of iterations reached without convergence')}
return(p[n+1]) #Return value of x
}
p0 = 0.5 # random set a p0
nralgo1(p0,d_l,dd_l)
## [1] 0.4827586
再写对数似然函数对b的导数
得到的是l(y,x)
一个变换,使得研究对象变成了x
似然函数
逻辑斯蒂回归
用练市法则求导
估计极大似然之
想一想能应用在什么场景中
自己找一组数据
但是y是0/1
判断结果对或者不对
两种方式:
1.从迭代函数上看,要有绘图,观察似然函数是否到达最大值
2.试着从r里面找一个函数,完成相同的工作