作者:朱建平 日期:2014-08-20 10:33:12
《传奇学人林毅夫》为普通高等教育“十一五”国家级规划教材,同时也是教育部高等学校统计学专业教学指导分委员会推荐教材。《传奇学人林毅夫》努力贯彻“少而精”的原则,力求以统计思想为主线,以SPSS软件为工具,深入浅出地介绍各种多元统计方法的理论和应用。主要内容包括:多元分析概述、多元正态分布的参数估计、多元正态分布均值向量和协差阵的检验、判别分析、聚类分析、主成分分析、因子分析、相应分析、典型相关分析、多维标度法、多变量的可视化分析等。特别是,《传奇学人林毅夫》将SPSS软件的学习和案例分析有机结合,体现了多元统计分析方法的应用。
《传奇学人林毅夫》配备多媒体教学课件,可作为经济类、管理类各专业本科生教材,同时也适合自学多元统计分析的读者阅读参考。
作者简介:
朱建平
目录:
总序
第二版前言
第一版前言
第一章多元分析概述
第一节引言
第二节应用背景
第三节计算机在统计分析中的应用
思考与练习
第二章多元正态分布的参数估计
第一节引言
第二节基本概念
第三节多元正态分布
第四节多元正态分布的参数估计
第五节实例分析与计算机实现
思考与练习总序
第二版前言
第一版前言
第一章多元分析概述
第一节引言
第二节应用背景
第三节计算机在统计分析中的应用
思考与练习
第二章多元正态分布的参数估计
第一节引言
第二节基本概念
第三节多元正态分布
第四节多元正态分布的参数估计
第五节实例分析与计算机实现
思考与练习
第三章多元正态分布均值向量和协差阵的检验
第一节引言
第二节均值向量的检验
第三节协差阵的检验
思考与练习
第四章判别分析
第一节引言
第二节距离判别法
第三节贝叶斯判别法
第四节费希尔判别法
第五节实例分析与计算机实现
思考与练习
第五章聚类分析
第一节引言
第二节相似性的量度
第三节系统聚类分析法
第四节K均值聚类分析
第五节有序样品的聚类分析法
第六节实例分析与计算机实现
思考与练习
第六章主成分分析
第一节引言
第二节主成分的几何意义及数学推导
第三节主成分的性质
第四节主成分方法应用中应注意的问题
第五节实例分析与计算机实现
思考与练习
第七章因子分析
第一节引言
第二节因子分析模型
第三节因子载荷矩阵求解
第四节公因子重要性的分析
第五节实例分析与计算机实现
思考与练习
第八章相应分析
第一节引言
第二节列联表
第三节相应分析的基本理论
第四节相应分析中应注意的问题
第五节实例分析与计算机实现
思考与练习
第九章典型相关分析
第一节引言
第二节典型相关的基本理论
第三节样本典型相关分析
第四节典型相关分析应用中的几个问题
第五节实例分析与计算机实现
思考与练习
第十章多维标度法
第一节引言
第二节古典多维标度法
第三节权重多维标度
第四节实例分析与计算机实现
思考与练习
第十一章多变量的可视化分析
第一节引言
第二节折线图分析法
第三节条形图分析法
第四节散点图分析法
第五节雷达图分析法
第六节星座图分析法
思考与练习
参考文献
附录常用统计表
附表1正态分布概率表
附表2t分布临界值表
附表3χ2分布临界值表
附表4F分布临界值表
第一章多元分析概述
第一节引言
多元统计分析是运用数理统计方法来研究解决多指标问题的理论和方法。近30年来,随着计算机应用技术的发展和科研生产的迫切需要,多元统计分析技术被广泛地应用于地质、气象、水文、医学、工业、农业和经济等许多领域,已经成为解决实际问题的有效方法。然而,随着电子计算的日益普及,各行各业都开始采用计算机及相应的信息技术进行管理和决策,这使得各企事业单位生成、收集、存储和处理数据的能力大大提高,数据量与日俱增,大量复杂信息层出不穷。在信息爆炸的今天,人们已经意识到数据最值钱的时代已经到来。显然,大量信息在给人们带来方便的同时也带来了一系列问题。例如,信息量过大,超过了人们掌握、消化的能力;一些信息真伪难辨,从而给信息的正确应用带来困难;信息组织形式的不一致性导致难以对信息进行有效统一的处理,等等,这种变化使传统的数据库技术和数据处理手段已经不能满足要求。Internet的迅猛发展,也使得网络上的各种资源信息异常丰富,在其中进行信息的查找真如大海捞针。这样又对多元统计分析理论的发展和方法的应用提出了新的挑战。
多元统计分析起源于20世纪初,1928年Wishart发表论文?多元正态总体样本协差阵的精确分布?,可以说是多元分析的开端。20世纪30年代R.A.Fisher、H.Hotelling、S.N.Roy、许宝?等人做了一系列的奠基性工作,使多元分析在理论上得到了迅速发展。40年代多元分析方法在心理、教育、生物等方面有不少应用,但由于计算量大,使其发展受到影响,甚至停滞了相当长的时间。50年代中期,随着电子计算机的出现和发展,多元分析方法在地质、气象、医学、社会学等方面得到广泛的应用。60年代通过应用和实践又完善、发展了理论,由于新的理论、新的方法不断涌现,又促使它的应用范围更加扩大。70年代初期多元统计分析在我国才受到各个领域的极大关注,并在理论研究和应用上也取得了很多显著成绩,有些研究工作已达到国际水平,并已形成一支科技队伍,活跃在各条战线上。在20世纪末与21世纪初,人们获得的数据正在以前所未有的速度急剧增加,产生了很多超大型数据库,遍及超级市场销售、银行存款、天文学、粒子物理、化学、医学以及政府统计等领域,多元统计与人工智能和数据库技术相结合,在经济、商业、金融、天文等领域得到了成功的应用。
为了让读者更好、更系统地掌握多元统计分析的理论与方法,本书重点介绍多元正态总体的参数估计和假设检验以及常用的统计方法。这些方法包括判别分析、聚类分析、主成分分析、因子分析、对应分析、典型相关分析、多维标度法以及多变量的可视化分析等。与此同时,我们将利用在我国广泛流行的SPSS统计软件来实现实证分析,做到在理论的学习中体会应用,在应用的分析中加深理论。
第二节应用背景
统计方法是科学研究的一种重要工具,其应用颇为广泛。特别地,多元统计分析方法常常被应用于自然科学、社会科学等领域的问题中。为了进一步体现多元统计分析方法的应用,我们首先从宏观的角度认识统计学应用的背景,然后从微观的角度显示多元统计分析应用的广泛性。
一、统计学的生命力在于应用
(一)统计学产生于应用统计学的发展过程可以看出统计学产生于应用,在应用的过程中发展,它的生命力在于应用。
300年前,威廉?配第(1623~1687)写的?政治算术?,从其研究方法看,被认为是一本统计学著作。政治算术学派的统计学家将统计方法应用于各自熟悉和感兴趣的研究领域,都还是把其应用对象当做肯定性事物之间的联系来进行研究的。
他们确信,事物现象存在着简单明了的数量关系,需要用定性与定量的方法将这种关系(规律)揭示或描述出来,使人们能够更具体、真切地认识世界。
数理统计学派的奠基人凯特勒在统计学中引入了概率论,把它应用于自然界和社会的许多方面,从而为人们认识和说明不确定现象及其相互之间的联系开辟出了一条道路。在自然科学和社会科学的许多领域,都留下凯特勒应用统计学研究的烙印。自从凯特勒把概率论引入了应用中的统计学,人们对客观世界的认识及描述更全面、更接近于实际了。他在广泛应用拉普拉斯等人概率论中的正态曲线、误差法则、大数法则等成果的过程中,为统计学增添了数理统计方法,进而又扩展了统计学的应用范围。
在应用中对发展统计方法贡献显著的当推生物统计学派的戈尔登(1822~1921)、皮尔逊(1857~1936)和农业实验学派的孟德尔(1822~1884)、戈塞特(1876~1937)等。戈尔登六年中测量了近万人的“身高、体重、阔度、呼吸力、拉力和压力、手击的速率、听力、视力、色觉及个人的其他资料”。在探究这些数据内在联系的过程中提出了今天在自然科学和社会科学领域中广泛应用的“相关”思想。
他将大量数据加以综合描述和比较,从而能使其遗传理论建立在比较精确的基础上,并为统计学引入了中位数、四分位数、分布、回归等极为重要的概念和方法。皮尔逊在检验他老师戈尔登的“祖先遗传法则”和自然选择中“淘汰”对器官的相关及变异的影响中,导入了复相关的概念和方法。在讨论生物退化、反祖、遗传、随机交配等问题中,展开了回归与相关的研究,并提出以χ2检验作为曲线配合适合度的一种量度的思想。
农业实验学派的孟德尔和戈塞特同样是在尝试回答各自应用领域中出现的新问题的过程中,发展了统计思想和统计分析方法。孟德尔及其后继者贝特森等人创建的遗传试验手段,比通过记录生命外部联系曲折反映事物内在本质的描述统计更加深刻。他们运用推断的理论与实验的方法,通常只用小样本来处理。戈塞特的t分布与小样本思想更是在由于“有些实验不能多次地进行”,从而“必须根据极少数的事例(小样本)来判断实验结果的正确性”的情况下产生的。今天,这些统计思想和分析推断方法已经成为了科学家们不可缺少的基本研究工具。
近现代,统计学已经空前广泛应用于最高级的运动形式――社会,其结果便是出现了一系列与其应用对象指导理论和其他相关学科交织在一起的边缘学科,如在社会经济方面的投入产出经济学、经济计量学、统计预测学、统计决策学等。在这些边缘学科中,统计学与其应用对象结合更紧密、更自然。这些学科的专家学者至少在两个或两个以上的专业领域里有比较深厚的学术造诣。统计学的应用帮助他们在各自的应用领域中取得辉煌的成就。
可见,统计学的发展一刻也离不开应用。它在应用中诞生,在应用中成熟、独立,在应用中扩充自身的方法内容,同时扩展了应用领域,又在应用中与其他学科紧密结合形成新的边缘学科。一部统计理论发展史同时又是一部应用统计发展史,正因如此,统计学的生命力在于应用。
(二)理论研究为统计学的应用奠定了基础
统计理论问题的研究和应用研究从总体看,如果理论不成熟,方法不完善,统计应用研究也很难达到较高的水平。因此,充分发挥统计学的生命力,必须建立在统计理论研究的基础之上。
从国际上看,近十几年来,统计分析技术的研究有了新的发展。这些研究的总体特征是,广泛吸收和融合相关学科的新理论,不断开发应用新技术和新方法,深化和丰富了统计学传统领域的理论与方法研究,并拓展了统计研究的新领域。这些都充分地体现了统计学强有力的生命力,其具体表现在:第一,统计学和计算机科学相互促进。通过计算机协助的电子通信、网络创新、资源及信息统计中的统计软件等,在统计信息搜集、存储和传递过程中利用计算机提高工作效能,使统计信息时空结构有了新的发展。在网络推断、统计软件包、统计建模中的计算机诊断等方面,提出了统计思想直接转化为计算机软件,通过软件对统计过程实行控制,以及利用计算机程序识别模型、改善估计量性质的新方法。这些研究成果使人们兴奋地看到计算机技术正在促使统计科研工作发生革命性变化。在软件的质量评估和统计程序及方法对软件可靠性的检验等方面也有了新的发展。
第二,统计理论与分析方法的新发展。近年来,统计方法成果丰硕,反映了统计理论与分析方法在不断的发展中趋于成熟和完善。在贝叶斯方法、非线性时间序列、多元分析、统计计算、线性模型、稳健估计、极值统计、混沌理论及统计检验等方面,内容广泛而翔实,可以归纳为三个方面:①理论上有新的开拓。如应用混沌理论提出混沌动态系统、混沌似然分析;引入数学中象分析、谱分析的方法,探讨象分析中同步模型化的方法,建立经验谱类函数的假设检验方法等;②不同的分析方法相互渗透、交叉结合运用,衍生新的分析方法。如马尔可夫链,蒙特卡罗方法在叶贝斯似然计算中的应用,参数估计方法的非参数校正,状态空间模型与月份时间序列的结合运用等;③借助现代计算机技术活跃新的研究领域。在计算机技术迅速发展的带动下,模拟计算理论和方法有了长足的发展,这给非线性模型等因计算烦琐而沉闷多时的研究领域注入了新的活力,提出了非线性结构方程模型的特征向量估计方法,非线性回归中的截面有效性逼近,带噪声的非线性时间序列的识别等富有见地的新思路。Logistic模型、向量时间序列模型的研究也因计算技术的解决而不乏新成果。
第三,统计调查方法与记述的创新。调查方法是统计方法论的重要组成部分,近年来,在抽样理论与方法、抽样调查、实验设计等方面如何改进调查技术、减少抽样误差等问题是人们十分关心的。在调查过程的综合管理、不等概率抽样设计、分层总体的样本分配、抽样比例的回归分析和实验设计正交数组的构造方法等方面也有了新见解。再抽样及随机加权方法、随机模型及连续调查报告的趋势计量、辅助信息和抽样方法等,则涉及多种统计分析和计算方法的应用,在转换样本调查设计等方面也取得了一定成果,计算机辅助调查也有了新的发展。
众所周知,理论来源于实践,反过来又服务于实践。统计理论的研究和分析技术的发展,无疑对统计的实践起到了一定的指导作用。从另一角度也显示出统计理论和分析技术的不断完善,为统计学的应用奠定了基础,确保了统计学强大的生命力。
二、多元统计分析方法的应用
这里我们要通过一些实际的问题,解释选择统计方法和研究目的之间的关系,这些问题以及本书中的大量案例能够使读者对多元统计分析方法在各个领域中的广泛应用有一定的了解。多元分析方法从研究问题的角度可以分为不同的类,相应有具体解决问题的方法,参看表1.1。
多元统计分析方法在经济管理、农业、医学、教育学、体育科学、生态学、地质学、社会学、考古学、环境保护、军事科学、文学等方面都有广泛的应用,这里我们列举一些实际问题,进一步了解多元统计分析的应用领域,让读者从感性上加深对多元统计分析的认识。
(1)城镇居民消费水平通常用八项指标来描述,如人均粮食支出、人均副食支出、人均烟酒茶支出、人均衣着商品支出、人均日用品支出、人均燃料支出、人均非商品支出。这八项指标存在一定的线性关系。为了研究城镇居民的消费结构,需要将相关强的指标归并到一起,这实际就是对指标进行聚类分析。
(2)在企业经济效益的评价中,涉及的指标往往很多,如百元固定资产原值实现产值、百元固定资产原值实现利税、百元资金实现利税、百元工业总产值实现利税、百元销售收入实现利税、每吨标准煤实现工业产值、每千瓦时电力实现工业产值、全员劳动生产率、百元流动资金实现产值。如何将这些具有错综复杂关系的指标综合成几个较少的因子,既有利于对问题进行分析和解释,又能便于抓住主要矛盾做出科学的评价,可用主成分分析和因子分析法。
(3)某一产品是用两种不同原料生产的,试问此两种原料生产的产品寿命有无显著差异?又比如,若考察某商业行业今年和去年的经营状况,这时需要看这两年经营指标的平均水平是否有显著差异以及经营指标之间的波动是否有显著差异。可用多元正态总体均值向量和协差阵的假设检验。
(4)按现行统计报表制度,农村家庭纯收入是指农村常住居民家庭总收入中扣除从事生产和非生产经营用支出、税款和上交承包集体任务金额以后剩余的、可直接用于进行生产、非生产性建设投资、生产性消费的那一部分收入。如果我们收集某年各个省、自治区、直辖市农民家庭人均纯收入的数据,可以用相应分析,揭示全国农民人均纯收入的特征以及各省、自治区、直辖市与各收入指标的关系。
(5)某医院已有100个分别患有胃炎、肝炎、冠心病、糖尿病等病的病人资料,分别记录了他们每个人的若干项症状指标数据。如果对于一个新病人也测得这若干项症状指标时,可以利用判别分析方法判定他患的是哪种病。
(6)有100种酒,品尝家可以对每两种酒进行品尝对比,给出一种相近程度的得分(越相近得分越高,相差越远得分越低),希望用这些得分数据来了解这100种酒之间的结构关系。这样的问题就可以用多维标度法来解决。
(7)在地质学中,常常要研究矿石中所含化学成分之间的关系。设在某矿体中采集了60个标本,对每个标本测得20个化学成分的含量。我们希望通过对这20个化学成分的分析,了解矿体的性质和矿体形成的主要原因。
(8)在生态学的研究中,对1000个类似的鱼类样本,我们可以利用聚类分析方法根据测量的特征如体重、身长、鳍数、鳍长、头宽等,将这类鱼分成几个不同品种。
(9)考古学家通过挖掘出来的人头盖骨的高、宽等特征来判断是男或女;根据挖掘出的动物牙齿的有关测试指标,判别它是属于哪一类动物牙齿,是哪一个时代的。
(10)在高考招生工作中,我们知道每个考生的基本情况,通过分析,我们不仅可以了解到学生喜欢学习的科目,还可以进一步从考生每门课程的成绩分析出学生的逻辑思维能力、形象思维能力和记忆力等因素对学习成绩的影响。
第三节计算机在统计分析中的应用
一、加强计算机统计应用教学
从统计学产生和发展的历史我们可以看到,统计数据的收集、整理、加工、分析的过程中,对统计学的繁荣发展起决定性作用的工具就是高速的计算工具――计