2019年4月29日上午,台湾大学洪永泰教授做客我校“珞珈政治学论坛”,在学院332会议室作了题为“量化数据的描述与比较”的学术报告,论坛由刘伟老师主持。众多老师和同学踊跃参与到本次论坛,其中包括倪星院长,孟颖颖、钟兆真、姚强、黄菁、陈刚、朱海英、陈柏奇等老师及相关专业的博士生、硕士生和本科生。
洪教授首先介绍了数据的两大类型。其一,类别资料:名义尺度和等第尺度。名义尺度是纯分类,无大小和强弱的区别;等第尺度有大小和强弱的却别,但无确定的“量”;其二,数字资料:区间尺度和比率尺度。区间尺度的“0”没有定义、无共同的计量基础点;比率尺度的“0”有明确的定义,表示“没有”的意思,可进行数学的四则运算。
数据的描述方式主要分为:图表和数据。关于图表描述,洪教授介绍到类别资料可采用的图表类型为:次数分配表、饼状图、条状图、地图;数字资料可采用的图表类型为:直方图、次数分布曲线、累计百分比(次数)分布曲线、箱型图、枝干法。其中,累计百分比分布曲线,特别是双累积百分比分布曲线对数据具有强大的解释力,可将许多资料浓缩于一个图中。而关于数据的描述,类别资料可使用众数描述数据中心趋势,IQV描述数据离散趋势;数字资料可使用平均数、中位数、众数描述数据中心趋势,百分位描述数据位置,全距、四分距、均差、标准差、方差、标准化、离差系数描述数据离散趋势。洪教授指出:一般数据越集中,越没有分析的价值;数据越分散,越有分析的价值。其中,均差可以表示数据最真实的平均距离。因为柴式不等式,所以确立了平均数和标准差一直以来在量化数据分析中的重要地位。柴式不等式表示的是,任何资料以平均数为中心左右k个标准偏差,包括了至少(1-1/k2)的个案数(k>1)。从而间接地反映出正态分布,即以平均数为中心,左右1个标准偏差包括了68%的个案数,左右2个标准差包括了95%的个案数,左右3个标准偏差包含了99.7%的个案数。洪教授介绍了描述类别资料的离散程度的数据——IQV(Index of Qualitative Variation),IQV越大,表示离散程度越大,IQV=1时最分散,IQV=0时最集中。各组的分类数不同时亦可比较,但其缺点是不够敏感。在这里,洪教授以消费金额、学生考试成绩等数据为例进行了分析。
洪教授着重介绍了数据的比较。通过总量、平均数、百分比、百分位、四分距、成长率、标准化、交叉标准化、跨年度的标准化数据、两两相比等方法进行数据比较分析。抽样调查百分比的比较方式分为三类:其一,不同的调查;其二,同一次调查,同一问题,不同选项的比较;其三,同一次调查,不同问题的比较。洪老师指出,受到比较基期的影响,成长率计较是很容易“作弊”的比较方式。标准化,即去除计算单位,简化数据成为相对位置。转换成标准值和内插法转换是标准化的两种方法。标准值是把原始数据转化成为“每个观察值在平均数以上或以下几个标准偏差的位置”,受到极端值、平均数及标准偏差数值的影响,比较容易失真,而好处是可以猜测每笔数据的百分位。内插法转换是在新设定的数据范围内将原始数据等比例缩小或放大,完全保持原始数据的信息,只是去除单位,不会失真,也不会引起争议。交叉标准化过程中,两组数据相互交叉标准化所得到的结论可能会不一致,可引入第三组真实或者构建一组虚拟数据作为标准,进行统一标准化。由于两组数据结构不同,各单项所占的比重不一样,致使辛普森吊诡的发生,其解决方法亦为统一标准化。期间,洪教授利用甲乙两班的教学效果、甲乙两厂产品不良率、AB两所大学各学院教师发表论文的数据、某杂志续订情形数据以及企业高管的选任等案例进行比较分析。
洪教授的精彩报告引起了在场师生的浓厚兴趣。在问答互动环节,洪教授同到场师生进行了深入交流。有老师与洪教授交流两岸清廉指数调查的调研方法。围绕“两两相比”是否有比较标准的问题,洪教授回应道,两两比较需要的是最终结果,是最好执行的,只需受访者在二者间选其一即可,无需特别的标准;针对标准化中的“第三方”标准数据是如何确立的问题,洪教授回答道,该数据只需管理当局事前设置一个虚拟标准。
论坛最后,刘伟老师作总结发言。他认为,学习量化研究方法最重要的是运用,研究者通过运用数据分析,可以增强社会科学研究的科学性;实证研究是当前社会科学领域的主导取向,而量化研究又是实证研究的主流做法,因此,为更为全面地把握学术前沿,并推进相关研究的实体性进展,政治学的学生除了接受规范研究的训练,也应加强量化研究的相关训练,借助统计工具对数据做好描述、比较和分析,以增强学术研究的可靠性和说服力。(政治学与行政学系汪昱均、刘远雯供稿)