在多元线性回归分析中如何对Y值进行log转换?

2024-05-06 17:10

1. 在多元线性回归分析中如何对Y值进行log转换?

在叙述Y矩阵时改写成log(Y)就行了
例:a=[320 320 160 710 320 320 320];
f=[0.18 0.18 0.18 0.18 0.09 0.36 0.18];
v=[2.3 1.7 1.7 1.7 1.7 1.7 1];
F=[38.8 29.23 26.53 25.28 19.53 35.72 16.75];
>> P=[ones(size(a))',log(a'),log(f'),log(v')];
>> [b,bint,r,rint,s]=regress(log(F'),P)

在多元线性回归分析中如何对Y值进行log转换?

2. 在统计学中为什么要对变量取对数

对数函数在其定义域内是单调增函数,取对数后不会改变数据的相对关系,取对数作用主要有:
缩小数据的绝对数值,方便计算。例如,每个数据项的值都很大,许多这样的值进行计算可能对超过常用数据类型的取值范围,这时取对数,就把数值缩小了,例如TF-IDF计算时,由于在大规模语料库中,很多词的频率是非常大的数字。
2. 取对数后,可以将乘法计算转换称加法计算。
3. 某些情况下,在数据的整个值域中的在不同区间的差异带来的影响不同。例如,中文分词的mmseg算法,计算语素自由度时候就取了对数,这是因为,如果某两个字的频率分别都是500,频率和为1000,另外两个字的频率分别为200和800,如果单纯比较频率和都是相等的,但是取对数后,log500=2.69897, log200=2.30103, log800=2.90308 这时候前者为2log500=5.39794, 后者为log200+log800=5.20411,这时前者的和更大,取前者。因为前面两个词频率都是500,可见都比较常见。后面有个词频是200,说明不太常见,所以选择前者。从log函数的图像可以看到,自变量x的值越小,函数值y的变化越快,还是前面的例子,同样是相差了300,但log500-log200>log800-log500,因为前面一对的比后面一对更小。对数值小的部分差异的敏感程度比数值大的部分的差异敏感程度更高。
4. 取对数之后不会改变数据的性质和相关关系,但压缩了变量的尺度,例如800/200=4, 但log800/log200=1.2616,数据更加平稳,也消弱了模型的共线性、异方差性等。
5. 所得到的数据易消除异方差问题。
6. 在经济学中,常取自然对数再做回归,这时回归方程为 lnY=a lnX+b ,两边同时对X求导,1/Y*(DY/DX)=a*1/X, b=(DY/DX)*(X/Y)=(DY*X)/(DX*Y)=(DY/Y)/(DX/X) 这正好是弹性的定义。
当然,如果数据集中有负数当然就不能取对数了。实践中,取对数的一般是水平量,而不是比例数据,例如变化率等。

3. 既然回归分析不能确定因果关系,那为什么在建立回归方程的时候还要说X是自变量,Y是因变量?

既然回归方程的研究需要确定相关关系,但这两样都不能确定因果关系,说明回归分析不需要确定谁因谁果关系,而确定了相关关系,x,y均可以充当自变量来画出回归曲线进行研究数据之间的关系,所以不需要纠结因果的关系,而重点应放在数据之间的联动性,为实际应用提供数据帮助

既然回归分析不能确定因果关系,那为什么在建立回归方程的时候还要说X是自变量,Y是因变量?

4. 相关系数和回归系数的联系和区别


5. 相关分析与回归分析的区别和联系是什么?

一、回归分析和相关分析主要区别是:
1、在回归分析中,y被称为因变量,处在被解释的特殊地位,而在相关分析中,x与y处于平等的地位,即研究x与y的密切程度和研究y与x的密切程度是一致的;
2、相关分析中,x与y都是随机变量,而在回归分析中,y是随机变量,x可以是随机变量,也可以是非随机的,通常在回归模型中,总是假定x是非随机的;
3、相关分析的研究主要是两个变量之间的密切程度,而回归分析不仅可以揭示x对y的影响大小,还可以由回归方程进行数量上的预测和控制.
二、回归分析与相关分析的联系:
1、回归分析和相关分析都是研究变量间关系的统计学课题。
2、在专业上研究上:
有一定联系的两个变量之间是否存在直线关系以及如何求得直线回归方程等问题,需进行直线相关分析和回归分析。
3、从研究的目的来说:
若仅仅为了了解两变量之间呈直线关系的密切程度和方向,宜选用线性相关分析;若仅仅为了建立由自变量推算因变量的直线回归方程,宜选用直线回归分析.

扩展资料:
1、相关分析是研究两个或两个以上处于同等地位的随机变量间的相关关系的统计分析方法。
例如,人的身高和体重之间;空气中的相对湿度与降雨量之间的相关关系都是相关分析研究的问题。
2、回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。运用十分广泛。
回归分析按照涉及的变量的多少,分为一元回归和多元回归分析;按照因变量的多少,可分为简单回归分析和多重回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析
参考资料:百度百科-回归分析
百度百科-相关分析

相关分析与回归分析的区别和联系是什么?

6. 相关分析与回归分析的联系与区别是什么?

相关分析与回归分析的研究目的不相同,相关分析用于描述变量之间是否存在关系,而回归分析则是研究影响关系情况,反映一个X或者多个X对Y的影响程度。

相关分析只能研究变量之间相关的方向和程度,却不能得到变量之间相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化情况,而这些都可以通过回归分析得出。
因而分析时首先应该确定研究变量之间是否存在关系,即先进行相关分析。当两个变量之间存在显著的关联时,再进行回归分析。有了相关关系,才可能有回归影响关系,如果没有相关关系,也不应该有影响关系。
两种方法均可用SPSSAU进行分析,并得到标准化分析结果,配合智能文字分析快速解读数据报告。

参考资料:相关与回归-SPSSAU

7. 相关分析与回归分析有何区别与联系

联系:相关分析和回归分析都是研究变量之间的关联关系的。
区别:1、相关性分析仅仅只能研究变量之间的关联关系,但是并不能研究变量之间的因果关   
系。
例如:A和B之间存在相关关系,意味着A依赖于B同时B也依赖于A;而回归分析则是
可以研究变量之间的因果关系,即回归分析中有明确的起因变量也有明确的结果变
量。
例如:A变量显著影响B变量;努力学习,成绩就好,努力就是起因,成绩就是结局。
2、相关性分析仅仅研究两个变量之间的关联关系,当有第三个变量的时候,则不能
选择相关性分析;回归分析则可以同时研究1个或者1个以上的起因变量(自变量)
对一个结局变量(因变量)的影响的情况。
接下来用图形简单说明回归分析和相关性分析的区别和联系:

同样是height和weight,如果选择相关性分析,那么只能得出height和weight之间的相关系数为0.625,意味着height和weight之间显著正相关,即height和weight同升同降;如果选择线性回归分析,则可以更进一步得出height可以显著正向影响weight,影响系数为0.425,即height每提升1单位会直接导致weight随之提升0.425个单位。

相关分析与回归分析有何区别与联系

8. 回归分析中x对y与y对x求法有什么不同

回归分析中x对y与y对x求法有什么不同?再添一句
不是应该:
线性相关要求x、y
服从双变量正态分布,对这种资料进行回归分析称为i
i型回归,即可以把x
当自变量,也可以当因变量,反之亦然。线性回归要求y
在给定x
值时服从正态分布,x
可以是精确测量和严格控制的变量,这时的回归称为i型回归,即不可以把x
当因变量,y
当自变量进行回归分析。