5.4

高斯马尔科夫假设

高斯-马尔可夫定理总共分为对OLS（Ordinary least square）普通线性方程有5个假设。

1.Assumption MLR.1（linear in parameters): 假设一要求所有的母集团参数（population parameters）为常数，用来保证模型为线性关系。即如果母集团方程为y=a+b1x1+b2x2+…+bkxk+u, 所有的a, b1,b2…bk必须为常数。同时u为无法检测的误差项，即实验过程中模型没有包含的因素。

Assumption MLR.2 (Random sampling)假设二：假设我们有n个调查的样本，那么这n个样本必须是从母集团里面随机抽样得出的。以假设一的方程为例，{（xi1,xi2, xi3…..xik,yi): i=1,2,3…n}
Assumption MLR.3 （No perfect collinearity)假设三：在样本（母集团）中，没有独立变量（independent variable）是常数，并且独立变量之间不能有完全共线性。（根据矩阵方程的定义，方程会无解）
Assumption MLR.4 (Zero conditional mean)假设四：母集团方程的误差项的均值为 0，并且均值不受到独立变量的影响，可以表示为：E(U/ X1, X2…Xk)=0

5.Assumption MLR.5 (Homoscedasticity): 假设五：同方差性，误差项u的方差不受到独立变量的影响为一个固定不变的值，可以表示为： Var(u/X1,X2…Xk)=σ

在统计学中，高斯－马尔可夫定理是指在误差零均值，同方差，且相关的线性回归模型中，回归系数的最佳线性无偏估计就是最小方差估计。一般而言，任何回归系数的线性组合之BLUE（Best Linear Unbiased Estimators）就是它的最小方差估计。在这个线性回归模型中，其误差不需要假定为正态分布或独立同分布（而仅需要满足相关和方差这两个稍弱的条件）。

指在给定经典线性回归的假定下，最小二乘估计量是具有最小方差的线性无偏估计量的这一定理。高斯–马尔可夫定理的意义在于，当经典假定成立时，我们不需要再去寻找其它无偏估计量，没有一个会优于普通最小二乘估计量。也就是说，如果存在一个好的线性无偏估计量，这个估计量的方差最多与普通最小二乘估计量的方差一样小，不会小于普通最小二乘估计量的方差。

注

尖峰，厚尾的特征是OLS不能捕捉的。模型的区别主要在于如何设定误差项。

很多复杂的式子里，一阶导是没有解析解的。

线性模型是怎么回事（基本描述了y与x的相关性）

逻辑斯蒂模型 logistic model

引入例子用一些指标判断垃圾邮件 y：0,1

l = function(p,y){
  out = sum(y*log(p)+(1-y)*log(1-p))
  return(out)
}
y = c(1,0,1,1,0,0,0,0,1,1,0,1,0,1,0,1,0,1,0,1,0,1,0,1,0,1,0,1,0)


d_l = function(p,y){
  out = sum(y/p+(y-1)/(1-p))
  return(out)
}
# p的范围更好，在[0,1]的闭区间里

dd_l = function(p,y){
  out = sum((-y/p^2)+(y-1)/(1-p)^2)
  return(out)
} 

# 为了求一阶导数的零点，因此对其使用牛顿迭代法
# 其中也需要用到二阶导，算是铺垫

nralgo1<-function(mu0,func,deri){
  epsilon<-1E-2 #Set Tolerance Level 精确度
  MaxIter<-500 #Maximum Number of Iterations
  p<-rep(NA,MaxIter+1) #A vector to store sequence of y
  p[1]<-mu0 # Initialise初始化
  
  for(n in 1:MaxIter){
    p[n+1]<-p[n]-(func(p[n],y)/deri(p[n],y)) #Update Step
    
    if(abs(p[n+1]-mean(y))<=epsilon){break} #Stopping Rule
  }
  if(n==MaxIter){warning('Maximum number of iterations reached without convergence')}
  
  return(p[n+1]) #Return value of x
}

p0 = 0.5  # random set a p0
nralgo1(p0,d_l,dd_l)

## [1] 0.4827586

换成

再写对数似然函数对b的导数

得到的是l(y,x)

一个变换，使得研究对象变成了x

大作业

似然函数

逻辑斯蒂回归

用练市法则求导

估计极大似然之

想一想能应用在什么场景中

自己找一组数据

但是y是0/1

判断结果对或者不对
两种方式：

1.从迭代函数上看，要有绘图，观察似然函数是否到达最大值

2.试着从r里面找一个函数，完成相同的工作

5.4

Helion

2018年4月26日

高斯马尔科夫假设

注

逻辑斯蒂模型 logistic model

换成

大作业