北航数据科学中心

统计教学面临的挑战

一、前言

2011年初,国务院学位委员会在新的研究生专业目录中将统计学上升为一级学科,为统计学科和统计教育的发展提供了更广阔的平台,同时也显示出统计对科学研究、经济增长和社会发展的重要性。随着统计知识的普及以及经济、社会的发展,特别是在信息化社会的今天,理、工、农、医、经济、管理以及人文社会科学对统计数据分析的需求在持续增加,需要处理大量的数据信息,而统计是有力的分析工具和决策方法。

目前,我国有接近一半的在校大学生,即近千万大学生都要学习统计学课程。无论作为统计系的专业基础课程还是其他院系的公共课程,统计学都越来越受到重视,特别是在经济与管理类专业,统计学是一门核心课程。不同院系的统计课程的最大区别在于所使用的数据和案例,而作为统计课程核心内容的统计方法是完全相同的。但是,目前我国统计教学过程中存在一些误区,这包括:(1)把统计课程完全按照纯粹数学的模式设计,过于重视数学公式和推导,对于基于数据的统计思想介绍得不很充分;(2)虽然也强调统计应用,但仅仅指出这些统计模型在什么假定下可用,而很少指出违背这些假定的后果,很少强调统计学家不能替代实际领域专家做决策的原则,也极少提到统计应用中一系列决策的主观性和任意性。

本文通过对统计、数学与科学研究关系的总结,探寻我国统计学教育改革和发展的方向。从统计学这一学科的本质出发,明确我国统计学教学中所存在的缺点和不足,提出加强统计教学建设的思考和建议,为我国统计学教学改革和统计学高等教育的开展提供参考。


二、统计、数学及科学研究

数学是以公理系统为基础, 以演绎为基本思想方法的逻辑体系。数学(至少纯粹数学)是封闭的、完美的理想世界,不同于真实世界。它属于少数可以和世界具体事物无关的自成体系的学科。在大前提下(公理系统之下),只要逻辑正确,不会犯错误,最多没有结果。对于结果的正确和错误,不会有争论(最多是争论该结果的意义有多大)。数学的研究可以完全脱离实际,不必要一定和具体的现实世界挂钩。因而,国外一般认为数学是艺术而不是科学,因为科学是面对具体研究对象的。

和数学相反,统计是一门科学,是以实际事物为对象的。按照不列颠百科全书中的定义,统计是“收集、分析、展示和解释数据的科学。” 它类似于物理学等其它科学,是以现实世界待解决的问题为目标的。所谓科学研究的方法,就是观测世界或进行试验得到数据,提出可以解释这些观测的假说或理论,试图尽可能地接近现实世界的规律,当出现理论或假说无法解释的现象(数据)时,就有可能需要对原有理论进行修正或者代之以新理论。所以,以归纳为主要思维方式的统计是描述现实世界的科学研究,是为各领域服务的。总结信息时会形成模型(假说/理论),统计需要建立各种数学模型来近似现实世界。但任何数学模型都不可能精确地描述现实世界或自然,也无法证明任何模型是正确的,正如没有科学理论(假说)能够等于真理一样。我们只能够说,在某些可能有争议的准则之下,某些模型比另外一些要更合适一些。和确定性的数学不同,统计的结论不可能是确定性的。数学是不能证伪的,而统计科学和其他科学的理论一样,必须是可以证伪的。在不断证伪的过程中,统计科学才得以发展。


三、统计教学中的问题

数理统计课程的教师多数是数学出身,很多人缺乏数据分析的经验,往往把以归纳为主的统计当成以演绎为主的数学,这对于不同背景的学生造成不同程度的不利影响。目前,我国统计教学存在以下误区:

(1)很多人认为统计学是“数学的一个分支”。

我们认为,如果脱离统计的应用背景而把统计作为纯粹数学的一部分,那么,统计学没有存在的必要。原因在于,第一,统计学的方法都是在应用的推动下产生的,如果没有应用,它们不会出现。其次,如果以应用为目的而产生的统计方法不能满足应用的要求,再漂亮的数学表达也不能保证其存在,脱离应用背景的统计方法是没有生命力的。第三,统计中的数学本身不能形成一个完整的逻辑体系(贝叶斯统计可能被认为是例外),其中有大量的人为或主观因素在起作用,这是不符合纯粹数学的本质的。因此,到底统计是不是数学,我们没有必要进行争论。在不同定义和前提下面,可能有各种结论;但统计为应用服务的本质,是没有人争论的。而统计的基础是实际领域产生的数据,也是被广泛接受的统计定义所确定的。评价统计方法的最终标准就是看该方法能否解决实际问题。

(2)过于重视数学公式和推导,轻视对统计思维的培养。

由于统计发展历史中的数学背景,上个世纪中期基本定型的数理统计教材充满了数学味极强的定义、引理、定理、推论,以及贯穿其中的纯粹数学推导和证明。但是,和确定性的数学不同,以归纳为主要思维方式的统计是描述现实世界的,统计的结论不可能是确定性的。数学是不能证伪的,而统计科学和其他科学的理论一样,必须是可以证伪的。在不断证伪的过程中,统计科学才得以发展。因此,这样的统计教材往往对于背后的基于数据的统计思想介绍得不很充分,也不强调这些充满假定的数学模型都是对现实世界的不同程度的简化。几乎没有人告诉学生,所有统计教材中对数据(或其总体)的数学假定都是无法用数据验证的。大多数教材仅仅指出这些模型在什么假定下可用,而很少指出违背这些假定的后果。

(3)虽然强调应用,但是忽略统计方法的软件使用。

很多统计教材的所谓应用,往往就是给出几个例子,而且这些例子很多时候并没有说明如何根据软件操作得到,从而导致学生面对实际数据恐惧而束手无策。虽然可以通过软件操作手册掌握软件的使用,但这增加了学生学习的负担。而且,专门按照手册式的软件书学习软件是事倍功半,因为这些操作手册往往过于强调操作过程和技巧,忽视对软件输出的统计结果的解释,导致学生不能正确解读统计分析结果,从而面对一堆输出而束手无策。

 

四、统计教学的思考

(一)应该教什么?

统计是数据的科学。但是目前的统计教学中有很强的数学烙印。由于很多基本上由数学老师教授的数理统计课程是完全按照纯粹数学的模式设计的,把统计当成数学来教,对于背后的基于数据的统计思想介绍得不很充分,也不强调这些充满假定的数学模型都是对现实世界的不同程度的简化。

几乎没有人告诉学生,所有统计教科书中对数据(或其总体)的数学假定都是无法用数据验证的。所能够做到的,仅仅是希望找不到否定这些假定的证据而已。就像我们只能说用已知手段没有发现航天飞机有问题,而永远不能证明它没有问题一样。因此,大多数教科书仅仅指出这些模型在什么假定下可用,而很少指出违背这些假定的后果。统计教科书往往在给出统计方法结论的同时,不指出根据这些结论所作出决策的风险,也很少强调统计学家不能替代实际领域专家做决策的原则。数学化的统计教科书极少提到统计应用中一系列决策的主观性和任意性。

人们可能会说,在某些假定条件下,某某统计结果很漂亮或者很精确。但是人们往往有意无意地忽略这些假定对实际世界的偏离可能使得这些貌似漂亮的结果毫无意义。

(二)教学中的统计思维

对于物理课的讲授,需要直观教学,没有直观是不行的。统计课的讲授也是一样,需要让学生在头脑中形成空间或图形的直观感受。由于统计与数学的不同,要突出统计思维的训练,统计教学需要解决以下问题。

首先,教师要明确不需要数学公式一样可以熟练掌握统计方法。在课堂上不一定讲数学推导,对统计概念的充分理解也可以不需要数学公式。当然,对于数学基础好的学生,数学推导可能有助于理解方法本身。对于其它专业的学生,他们需要的是如何使用统计方法来解决实际问题,而对于方法的理解,就需要与实例相结合的直观印象。实际上,对于数学背景的学生也需要直观的理解。因为,如果无法讲出直观意义,即使在黑板上演示的数学推导的手法再熟练,也可能不完全理解在数学后面的直观意义。因此,在统计教学中要强调应用、尝试去概念化教学。以大量实际数据运用为基础,在数据分析和实际问题的解决中介绍统计方法,帮助学生理解哪种统计方法适合于面对的实际问题,突出统计应用的特点,强调学生的动手能力,使得学生能深入领会统计思维和应用价值。现在已有很多统计教材对此进行了探索,代表性的教材有吴喜之的《统计学:从数据到结论(第三版)》[2]、袁卫和刘超的《统计学:思想、方法与应用》[3]。

其次,统计教学的内容与时俱进。比如,假设检验着重介绍基本原理、两类错误和P值,而不再花很多精力讨论经典方法的步骤,如事先确定α值,确定临界值等。因为P值的计算越来越方便(计算机所有程序全部给出P值),只要用P值与要检验的α值比较即可做出检验决策。而且教师要多关注社会上出现的新鲜事物,将统计方法应用在这些对象的描述上。比如,微博(MicroBlog)是目前很流行的交流平台,微博的市场竞争比较激烈。在讲授统计图方法时,教师就可以对国内几大微博平台的有关数据进行分析,比如,针对按照用户浏览时间和活跃用户数分别计算这几大平台的市场份额,用饼图或条形图展现计算结果。将学生经常使用或熟悉的事物作为统计教学的对象,不仅有助于培养学生对方法的兴趣,而且可以激发学生关注新鲜事物的热情和学习应用的动力。

(三)公共课教学

对非统计专业(是统计学以外其他专业,如经济学、管理学、社会学、人口学、教育学、法学、物理学、生物学、医学等)学生讲统计,主要是普及统计知识,而不是强度理论深度,应该让他们有尽可能广泛的统计方法的知识。因此,对非统计专业的学生,不应要求做数学推导,要尽量回避方法的证明和过程的推导。即使有,也仅仅是为了理解概念,而不是记住推导本身。非统计专业学生需要的是熟悉各种不同的数据以及对于各种不同特点的数据的处理方法,教学中要使用大量的应用案例,使学生能够学会正确应用统计方法解决本专业领域的数量分析,特别是和计算机相结合,让他们理解方法的直观意义,理解和解释计算机输出的结果。非统计专业教材所使用的应用统计教材,应该强调的是应用背景、条件、统计思想和科学解释等。

(四)和各学科交叉

统计应该和各个学科交叉,应该开放。既然统计是围绕数据转的,任何处理数据的理论或方法都应该引起统计学家和统计教学的关注。但是,统计学家容易自我封闭,把统计学科定义为他们自己熟悉的狭窄范围,比如必需有总体、概率、分布等术语或概念者才是统计。封闭只能导致统计失去了大量有价值的领域和人才,目前有广阔市场的数据挖掘的一些方法,就是搞计算机的人和少数年轻统计学家发展的。统计不为实际服务,是没有出路的。

(五)统计要和软件密切结合

采用计算机化教学、突出统计软件的使用是统计教学的趋势。计算机的使用是学会统计的必要条件。统计离不开计算机,讲应用统计的教师不仅自己要对计算机处理数据得心应手,而且要让学生也通过计算机实践来掌握统计方法。对统计软件(比如SPSS、R)的学习应该主要是在使用中学,专门按照手册式的软件书学习软件是事倍功半。只有在需要时学,才能够尽快地学会。其实这对于任何学科的非基础课课程都适用。在大学三四年级的统计方法课程,比如多元分析,回归分析,非参数统计,时间序列等课程中都要求使用计算机处理数据,会比专修一两门专门的软件课程要有效得多。不会计算机,是不可能学会、更不可能理解现代统计的。但是教师应该提醒学生需要特别留神,在应用软件分析数据的时候,要明确自己的目的,不要在得到一堆毫无意义的“垃圾”之后还沾沾自喜。


五、教学体会和建议

统计教师必须紧跟统计的最新发展。教师教学都有一个体会,往往越初等的内容,越难以解释。因此,了解尽可能多的统计实践的前沿有助于对初等内容的充分理解,也有助于认识原先一些“权威”课本的片面、不完全、甚至是错误的信息。因此,面对当今统计的发展相当迅速的情况,高校教师不能固步自封,必须紧跟统计的最新发展,应该不断学习新的知识,特别是和数据及应用有关的模型和方法。只有对统计实践的最新进展予以了解才有可能理解目前教学的意义,才可能充实和提高教学水平。

统计教师还要加强交流。由于中国大学普遍存在的近亲繁殖,学生很难在一个学校中得到全面的训练。请国外学者来做讲座是很有必要的,但要注意效果,可能需要避免炒作。而且要注意的是,我们没有那么多钱频繁请国外学者,因此国内学者应该加强交流,互通有无,共享资源。

统计是数据的科学,统计教师要讲对学生学得会的最有用的东西,而不是所谓“应该讲”的或者自己感兴趣的东西。以下提出一些教学体会(不限于统计课程):

(1)注意启发式教学。多提问题,让学生自己思考。

(2)需要让学生动手做练习、处理数据等等。不会动手的学生的知识是死的。

(3)鼓励提问题。安静无声的课堂绝对不是理想的课堂。

(4)忌讳鼓励死记硬背的考试。

(5)课堂上要注意学生的目光,学生的表情是讲课状况的一面镜子。

(6)如果发现不对劲,停下来,听听学生怎么说。

(7)只要发现学生有疑惑的眼光,举例子!

(8)举不出例子的理论是垃圾。

作为一名统计教师,如果学生能够明白你所讲的,仅仅是成功的一半.如果学生能够对你没有讲到的产生更多的问题,才是你讲课最大的成功。我们的目的不仅仅是传授知识,更重要的是启发学生的独立思考能力、提出问题的能力、以及应对挑战及处理实际问题的能力。


参考文献

[1] 吴喜之,统计与数学[J],北京统计,2003,总第163期:40-41

[2] 吴喜之,统计学:从数据到结论(第三版)[M],中国统计出版社,2009

[3] 袁卫,刘超,统计学:思想、方法与应用[M],中国人民大学出版社,2011

[4] 刘超,简明应用统计学[M],中国人民大学出版社,2010

 


关于我们

我们依托北京航空航天大学数学与系统科学学院优秀的师资力量,以北京航空航天大学的学生为主体,面向广大的统计和数据挖掘爱好者,围绕数据挖掘以及机器学习等问题开展定期的研究、探讨,交流和分享