多元线性回归 ——模型、估计、检验与预测

pingzeng 2021-09-07 原文

一、模型假设

传统多元线性回归模型

最重要的假设的原理为：

1. 自变量和因变量之间存在多元线性关系，因变量y能够被x1,x2….x{k}完全地线性解释；2.不能被解释的部分则为纯粹的无法观测到的误差

其它假设主要为：

1.模型线性，设定正确； 2.无多重共线性； 3.无内生性； 4.随机误差项具有条件零均值、同方差、以及无自相关； 5.随机误差项正态分布

具体见另一篇文章：回归模型的基本假设

二、估计方法

目标：估计出多元回归模型的参数

注：下文皆为矩阵表述，X为自变量矩阵(n*k维)，y为因变量向量（n*1维）

OLS（普通最小二乘估计）

思想：多元回归模型的参数应当能够使得，因变量y的样本向量在由自变量X的样本所构成的线性空间G（x）的投影（即y’= xb）为向量y在线性空间G(x)上的正交投影。直白一点说，就是要使得(y-y’)’(y-y’)最小化，从而能够使y的预测值与y的真实值之间的差距最小。

使用凸优化方法，可以求得参数的估计值为：b = (x’x)^(-1)x’y

最大似然估计

既然已经在假设中假设了随机误差项的分布为正态分布，

那么自变量y的分布也可以由线性模型推算出来（其分布的具体函数包括参数b在内）。

进一步的既然已经抽取到了y的样本，那么使得y的样本出现概率（联合概率密度）最大的参数即为所求

最终结果与OLS估计的结果是一致的

矩估计

思想：通过寻找总体矩条件(模型设定时已经有的假设，即无内生性)，在总体矩条件中有参数的存在，然后用样本矩形条件来进行推导未知参数的解。

在多元回归中有外生性假设：

对应的样本矩为：

最终估计结果与OLS方法也是一样的。

三、模型检验

1.拟合优度检验

（1）因变量y是随机变量，而估计出来的y’却不是随机变量；

（2）拟合优度表示的是模型的估计值y’能够在多大程度上解释因变量样本y的变动。

（3）y’的变动解释y的变动能力越强，则说明模型拟合的越好y-y’就越接近与假设的随机误差

（4）而因变量的变动是由其方差来描述的。

所以定义3个变动：y’的变动，y的变动，以及随机误差u的变动。y的变动是由y’的变动和u的变动所构成的。

TSS:总回归平方和，代表y的变动

RSS:残差平方和，代表y’没有观测到的变动，这部分越大，说明拟合效果越差

ESS:回归平方和，代表y’观测到的变动，这部分越大，说明拟合效果越好。

进一步地，得出了拟合系数

该系数越大，表明模型的拟合程度越好。

需要注意的是，拟合系数并非越大越好，过度拟合的模型是难以进行外推的。

2.总体线性的检验

假设：

思想：若是所有参数的系数都为0，那么y的变动纯粹是由随机项的变动决定的，ESS模型解释的变动范围即为随机项的变动范围，由于随机项服从正态分布，那么ESS则服从卡方分布，又RSS为随机项的变动，本身就服从卡方分布。因此可以构造F统计量

若F值过大，则原假设成立的可能性就很小了。

3.变量显著性的检验

变量显著性的检验思想非常简单：由于b = (x’x)^(-1)x’y，再加上随机项正态分布的假设，便可以得出b的正态分布结论，同时由于随机项的方差是未知的，所以我们便用余差平方和对方差进行估计，从而能够构造T统计量。

四、回归模型的预测

本文链接：https://www.cnblogs.com/pingzeng/p/5033163.html

多元线性回归 ——模型、估计、检验与预测的更多相关文章

Oracle12c(12.1)中性能优化&功能增强之通过参数THREADED_EXECTION使用多线程模型

1. 后台 UNIX/Linux系统上，oracle用多进程模型。例如：linux上一个常规安装的数据 […]...

python 浅析IO 模型

协程：遇到IO操作就切换，但是什么时候切回去呢？怎么确定IO操作？很多程序员可能会考虑使用“线 […]...

机器学习之模型评价指标

机器学习之模型评价指标 Posted on 2018-04-16 22:12 wangjiaqiys 阅读(& […]...

以两种异步模型应用案例，深度解析Future接口

摘要：本文以实际案例的形式分析了两种异步模型，并从源码角度深度解析Future接口和FutureTask类。 […]...

数据、模型、IT系统认知

数据、模型、IT系统认知量化投资定义量化投资主要是指通过数理模型来实现投资理念，由计算机产生交易策略的 […]...

GBDT–原来是这么回事(附代码)

GBDT–原来是这么回事(附代码) 1. 解释一下GBDT算法的过程 GBDT(Gradient […]...

MindSpore模型精度调优实战：如何更快定位精度问题

摘要：为大家梳理了针对常见精度问题的调试调优指南，将以“MindSpore模型精度调优实战”系列文章的形式分享 […]...

.NET中微软实体框架的数据访问方法

介绍本文的目的是解释微软的实体框架提供的三种数据访问方法。网上有好几篇关于这个话题的好文章，但是我想以一个教 […]...

随机推荐

Netty源码解析 — PoolChunk实现原理(jemalloc 3的算法)

前面文章已经分享了Netty如何实现jemalloc 4算法管理内存。本文主要分享Netty 4.1.52之 […]...

谈谈对分布式事务的一点理解和解决方案

前提最近，工作中要为现在的老系统做拆分和升级，刚好遇到了分布式事务、幂等控制、异步消息乱序和补偿方案等问题， […]...

解决XP的IIS \”HTTP 500”内部服务器错误–asp和asp.net服务器ISS

这几天公司里接了几个站点优化的单子，不过非常无奈，这些烂站都是asp写的，都是模板形式的，需要修改 […]...

Oracle超出最大连接数问题及解决

用过Oracle的应该都熟悉如何查看和设置Oracle数据库的最大连接数。这里就再啰嗦一遍。查看当前的连接数 […]...

html标签设置contenteditable时，去除粘贴文本自带样式

html标签设置contenteditable时，去除粘贴文本自带样式在一个div标签里面加了可编辑的属性， […]...

Linux Docker 部署 ASP.NET Core应用

一、系统环境 1、腾讯云轻量应用服务器CentOS7.6 二、操作流程及途中遇到的问题 1、SSH方式远程Li […]...

background-position解析

参考文章为：http://www.cnblogs.com/huazaizai/archive/2010/11/ […]...

从0开始学多线程之共享对象(二)

从0开始学多线程之共享对象(二) 想要使用多线程编程,有一个很重要的前提,那就是必须保证操纵的是线程安全的类. […]...