邵志芳唐一鹏张静 | 中国青少年社会与情感能力第二轮测评技术报告

原创邵志芳等华东师范大学学报教育科学版

本期精彩

新刊速递 | 华东师范大学学报（教育科学版）2024年第5期目录

专题：2024 年社会与情感能力研究（SSES）国际测评报告

袁振国黄忠敬王纮王翔宇张静 | 中国青少年社会与情感能力发展水平报告——基于第二轮SSES测评数据

黄忠敬唐一鹏王娟 | 学生社会与情感能力：国际比较与中国表现

中国青少年社会与情感能力第二轮测评技术报告

邵志芳¹, 唐一鹏², 张静³

1. 华东师范大学心理与认知科学学院

2. 华东师范大学教育学部教育学系

3. 华东师范大学教育学部教育心理学系

摘要

本技术报告基于中国济南参加2023年社会与情感能力（Survey on Social and Emotional Skills，SSES）的测评数据，对第二轮测评工具在中国文化下的心理测量学特征进行分析。本报告简要介绍了学生问卷的开发和实施过程、社会与情感能力指标体系、问卷主要组成部分、数据集的主要内容，并对数据质量进行了分析。分析结果表明，济南参试学生参试态度认真积极，参试率和有效应答率高，但是10岁组产生了高分翘尾现象；采用ω系数和α系数来衡量分量表的信度，结果表明绝大多数分量表信度良好；运用验证性因子分析逐一检验社会与情感能力各个分量表的效度，发现拟合度较为满意；多组验证性因子分析表明，这些分量表跨性别测量等值性好于跨年龄组等值性，故在考察青少年社会与情感子能力的年龄差异时，对于等值性较差的分量表数据应慎重使用。

关键词：青少年 ; 社会与情感能力 ; 信度 ; 验证性因子分析 ; 测量等值

本文发表在《华东师范大学学报（教育科学版）》2024年第5期 #专题：2024 年社会与情感能力研究（SSES）国际测评报告栏目

作者简介

邵志芳，长期从事认知心理学研究，并讲授心理统计学、认知心理学等课程。在经济合作与发展组织开展的第一轮和第二轮社会与情感能力测评工作中，主持中国城市的抽样工作。

目录概览

一、学生问卷测评概述

二、数据质量分析

三、结语

2023年5月，经济合作与发展组织（OECD）开展了第二轮关于青少年社会与情感能力的测评（Survey on Social and Emotional Skills，SSES）。我国济南市参加了本轮测评。济南市所在的山东省是中国儒家文化重要发源地之一，目前更是中国的人口和经济大省，故济南市的测试结果及其揭示的问题带有典型性，对我国进一步深化推进全面素质教育具有借鉴价值。

为便于读者阅读同期发布的测评结果和利用数据做进一步研究，本报告介绍本轮测评学生问卷的主要研制和实施过程、问卷的指标体系、主要变量、应答情况和信效度检验结果等内容。

一、学生问卷测评概述

（一）测评的主要过程

本次测评的对象仍为10岁组和15岁组的青少年。根据OECD（2021a）的意图，研究10岁组青少年可以了解青少年社会与情感能力的发展现状，及其在之后的学习生活中的教育需求；而15岁组青少年已经结束或接近结束义务教育，可以了解学校教育对他们的社会与情感能力培养的成就。

SSES以问卷形式进行。第一轮研究的问卷编制工作始于2016年。研究人员在广泛查阅文献的基础上，于2017年12月在美国对部分10—11岁儿童开展了认知访谈（Cognitive interview），并于2018年2月开展了在线调查。2018年4—5月，研究人员在6个参试城市对两个年龄组的青少年进行题项试测（Item trial）。2018年接近年底时，各个参试城市进行了现场测试（Field test），进一步优化题项，最后在2019年接近年底时开展了正式测评（Main Survey）。本轮研究在第一轮问卷的基础上，继续增删、优化题项，问卷时间则改在上半年举行。2022年5月前后开展了现场测试，2023年5月前后开展了正式测评。

（二）测评问卷的主体内容

学生问卷的主要内容分三个方面：社会与情感能力问卷、发展环境问卷和生活结果问卷。

（1）社会与情感能力问卷

社会与情感能力问卷是测评的核心。其指标体系源自大五人格理论（Costa & McCrae，1992），该理论将人格分为五大维度和数十个子维度。相比其他人格理论，大五人格理论对人格特质的划分和解释更贴近生活中对性格特征的描述，从而更易理解，且这些性格特征对人适应未来社会起重要作用。

OECD开展第一轮测评时，工具开发团队分别为五大维度精选了3个子维度（或称“子能力”），形成了社会与情感能力的指标体系。选择的标准（Kankaraš & Suarez-Alvarez，2019）是：

● 完整性：能全面反映大五人格的各个主维度；

● 预测价值：能预测包括教育成就、经济结果、健康和生活质量等的生活结果；

● 敏感性：容易受干预和政策措施的影响；

● 适切性：同时适合10岁组和15岁组学生；

● 可比性：不同文化和国家的测评结果可以相互比较；

● 前瞻性：考虑未来世界对人格的要求，而不是仅仅考虑现状；

● 研究积累：有丰富的研究作为基础。

本轮测评在“任务能力”维度下增加了“成就动机”子维度，社会情感能力包括16个指标（表1）。

OECD测评团队为每个子能力设计了一个分问卷，每个分问卷包含多个题项，要求参试者根据题项中的陈述做出自我报告。本轮测评中每个分问卷的题项由8个增加到9个。第一轮的题项被部分保留，但也替换了部分题项。

在数据文件中，所有用于16个子能力测评的题项都根据各个子维度的英文前三个字母命名为STA_XXX+两位数编号。例如，子能力“果敢”英文“Assertiveness”前三个字母为ASS，故“果敢”分问卷的第1题在数据文件中的变量名就是STA_ASS01，余类推。由于第一轮部分题项被新题项取代，故编号并非连续地从01—09，大多数分问卷都有10以上的编号出现。

（2）问卷结果为主观反应

与第一轮测评相同，本轮测评仍采用李克特5点量表，要求学生对题项中的陈述表示自己同意的程度（5个选项依次为“强烈反对”“反对”“既不同意也不反对”“同意”“强烈同意”，分值依次为1，2，3，4，5），这些陈述涉及学生日常生活中的经常性的态度或行为，例如：

● 我愿意帮助他人

● 我喜欢探究事物的原理

● 我能控制自己的情绪

● 我充满活力

● ……

由于自我报告问卷得到的是参试者的主观反应，因此OECD（2019，2021a）将问卷结果定位为学生关于自身社会与情感能力的自我概念或自我知觉。这种测量有别于认知能力测验，后者得到的是参试者最高成就水平。

（3）社会与情感能力分量表的计分方法

对学生的应答，要通过赋分、反应风格校正、模型估计、标准化这四个步骤来获得最终能力值。

第一步：对题项（item）的原始选项（response）进行赋分（0—4分），对于逆向计分题，赋分方式为（4—0）；

第二步：利用IRT理论中的GPCM模型对合并样本（所有城市的10岁组和15岁组学生）进行参数估计，并基于WLE算法获得能力初始值；

第三步：校正默许反应风格所带来的估计偏误，获得能力校正值；

第四步：将能力校正值通过线性变换转化为均值500分（所有城市10岁组均值）、标准差100分（所有城市10岁组标准差）的标准分，也即最终能力得分。

最终能力得分的变量名都以“_WLE_ADJ”结尾，如ASS_WLE_ADJ表示子能力“果敢”的最终能力得分。

如需了解以上计分方法的技术细节，可参考第一轮测评的技术报告（张静等，2021）。

（4）生活环境和生活结果问卷

为了考察可能影响青少年社会与情感能力的因素，以及不同能力水平可能导致的结果，测评中加入了关于学生生活环境和生活结果问卷，其中重要的指标见表2。

此外，问卷中还包括课外活动、学业期望、职业发展、父母工作情况、父母受教育情况等诸多题项和指标。

在题项遴选过程中，考虑到中国文化背景下学生的实际情况，经华东师范大学测评团队与测评主办方认真探讨和协商，在中国问卷中剔除了部分不适宜中国学生回答的问题，进一步提高了中国问卷的质量。

（三）抽样和参试情况

参加问卷调查的学生通过两阶段抽样抽取。第一阶段对学校进行分层抽样，第二阶段在抽中的学校中以随机方式抽取学生参试者。

第一阶段，从全市中小学（含职校，但不含特殊教育学校）中根据学校经费来源（公办/民办）、学校所在地区经济水平、学校类型（初中、高中、职校）等分层变量，抽取了77所小学（或一贯制学校的小学部）作为10岁组参试者来源学校，以及75所中学（或一贯制学校的中学部）作为15岁组参试者来源学校。另外，参加2022年现场测试但正式测评未被抽中的参试学校也作为参试者来源学校，但其数据不进入国际版数据集。

第二阶段，从上述各个抽中的学校随机抽取50名适龄学生。如抽中学校的适龄学生不超过50名，则全体适龄学生都被抽中。10岁组共抽中3771名参试者，15岁组抽中3671名参试者。另外，正式测评未抽中的2022现场测试校也被抽中1000名参试者，10岁组550名，15岁组450名。被抽中的学生合计8442人。

济南市参加了两个年龄组的现场测试和正式测评。各参试学校的校长、被随机抽中的教师和学生参与了问卷调查。本轮正式测评中，被抽中的8442名济南学生中有7963人参试，参试率超过94%，高居各参试城市之首。

本轮研究未将济南市参试学生家长纳入研究对象，教师问卷也没有要求对相关学生的社会与情感能力进行评价，因此，本轮研究不存在对于学生社会与情感能力测评的三角（学生、家长、教师）互证。虽然根据OECD的研究设计意图（OECD，2021b；Kankaraš, Feron, & Renbarger，2019），三角互证可以更全面地了解学生在不同情境（学习、家庭等）中的不同表现，而且可以在一定程度上减少自我报告中容易出现的社会期许偏差和不切实际的自我知觉，但是三角互证需要严密组织，教师和家长方面认真配合、客观作答，这在超大规模的测评研究中较难做到。

（四）数据集的组成

（1）个案数

本轮正式测评中，济南市数据有效的人数为7648，有效率高达90.59%。济南的数据集包含了这7648名参试学生的数据。

在正式测评中，济南市被抽中了77所小学（或一贯制学校的小学部）、42所初中（或初中部）、26所普通高中（或高中部）和7所职业高中，这些学校中的6737名学生参与了此次正式测评，其中10岁组学生3454人，15岁组学生3283人，其数据被纳入国际版数据集，这些学校的编号（SchID）为001—077。

2022年现场测试被抽中但2023年正式测评未被抽中的20所学校的911名学生（10岁组495人，15岁组416人）也参加了正式测评，但数据未纳入国际版数据集，这些学校的编号以9开头，如901，902等。

10岁组学生绝大多数就读小学四五年级，15岁组的学生则分布在初三、高一和职校。为方便同行研究者比较不同类型学校学生的情况，表3列出了15岁组各个学校对应的学校类型。

（2）权重变量

OECD发布的官方数据集中有三类权重。第一类是总体权重（WT2023），该权重用于将抽样学生赋权到参测国家/城市的全部适龄人口，在针对国家/城市层面进行描述统计分析的时候需要使用该权重才能代表整体情况。第二类是复合权重（SEN1000），该权重将一个国家/城市所有的入样学生调整为1000人的样本，适合在对所有国家/城市进行建模时使用，以平衡不同国家/城市的样本数量差异。第三类权重是模拟抽样权重（rwgt1 — rwgt80）。由于国际测评数据来自两步抽样（学校的随机抽样和校内学生的随机抽样），统计学上认为抽样得到的并非简单随机样本，在计算总体估计量的抽样误差时应采取措施做出校正。OECD运用费方法（Fay’s method）计算总体平均数、百分率、回归系数等统计量的标准误（standard errors），计算公式是

式中

𝑋_𝑡^∗表示第t个重复样本（权重rwgt_t）的统计量估计值；

X^*表示全样本（权重WT2023）的统计量估计值。

OECD介绍了相关的软件和方法，包括：

● R软件（采用Rrepest包）

● STATA软件（采用Repest函数）

● SSES R Shiny应用（链接：https://oecd-main.shinyapps.io/SSES_R2_shiny_app/）

● SAS软件（采用procedures PROC SURVEYMEANS, SURVEYFREQ, SURVEYREG）

● 用于PISA研究的SPSS宏（链接：https://www.oecd.org/pisa/pisaproducts/42628268.zip）。

二、数据质量分析

虽然正式测评未被抽中的20所学校的911名学生未被纳入国际数据集，但是本报告仍以全部7648名有效参试学生的数据作为对象开展分析。

（一）应答情况分析

为了提高数据质量，两轮测评除了先对学校进行分层抽样，再从各抽中学校随机抽取参试者之外，还明确告知被抽中的学生及家长，参试自愿，数据匿名，各个答案无对错之分，等等，务求参试学生按照自己的真实想法应答。以上做法得到了较好的效果，但也未能排除全部可能污染结果的因素。本节从参试学生应答情况来考察数据的质量。

（1）应答率、默许反应风格偏差与用时情况

本轮测评中，济南学生的参试应答率较高，默许反应风格偏差较小。参试的7648名学生中，社会与情感能力问卷（变量名以STA开头）的有效反应率几乎为100%，只有3名学生有缺失值。其他方面问卷（变量名以STQ开头）的有效反应率高达91.65%，有效应答率不高于80.42%的被试仅占2.7%。

默许反应风格偏差指的是参试者在回答李克特类型题项时反应的倾向程度。强烈的反应倾向（如都回答“同意”“强烈同意”）可能导致较大的测量偏差，但可以做出校正（Primi et al.，2020）。OECD计算了参试者的上述倾向值，并且已经建议将默认反应集（ARS）的计算作为对李克特型项目的这种反应倾向进行建模的方法。

被试在社会与情感能力问卷上的默许反应风格偏差较小，为–0.11，即每个应答应向下修正0.11。这说明绝大多数参试者认真阅读和理解题项内容，不是乱答一通。

参试者完成问卷平均用时53分钟，与预计时间大体相当。但标准差较大，为43.49分钟，原因是部分学生可能不是一次性完成答题（如图1所示）。

（2）10岁组的高分翘尾现象

本轮测评10岁组（绝大多数是四五年级小学生）表现出明显的高分翘尾现象，可能是许多小学生将自己评为最高分。图2为小学生的两项子能力（毅力、乐观）最终得分的次数分布图，可以发现其高分段有较高的一个突起，本文暂称其为“高分翘尾现象”。图3为15岁组相同子能力的次数分布，这种情况不严重。10岁组得分明显的高分翘尾现象，一定程度上拉高了小学生的平均得分。

实际上，第一轮测评中苏州市10岁组学生得分也有明显的高分翘尾现象（邵志芳等，2021）。两轮测评中，15岁组学生的社会与情感能力各分量表得分几乎都低于小学生，与此不无关系。其实，在人格测量结果中，随着年龄增长而得分下降的现象屡见不鲜（Soto，John，Gosling，& Potter，2011；de Haan，De Pauw，van den Akk，Dekovic，& Prinzie，2017）。这与问卷研究本身的特点有关。小学生得分高，可能是因为他们容易受暗示、受鼓励较多、参照点较低从而容易高估自己，以及部分小学生仍以“父母老师喜欢的答案”作为他们的反应（社会期许偏差）。因此，谨慎而言，可以说10岁组平均得分高于15岁组，但不宜解释为10岁组的实际能力高于15岁组。如果研究者使用济南数据时不希望受高分翘尾现象的影响，可以考虑剔除翘尾段的数据。但是本报告后面的分析仍使用这些数据。

综合以上结果可以判断，本轮测评济南的参试学生答题踊跃、认真。10岁组虽然出现了高分翘尾现象，但这应当看作是正常的年龄特征。总之，济南的数据值得做进一步的分析。

（二）信度分析

测评的信度是测评工具可靠性的重要指标。大规模的研究很难实施重复测量进而获得重测信度或复本信度，故采用ω系数（McDonald，2013）和克隆巴赫α系数（Cronbach，1951）为信度指标。一般来说，这两种系数高于0.70则说明信度较满意，0.60—0.70 为可接受信度，低于0.60表明信度低。表4列出了社会与情感16项子能力量表的ω系数和α系数。

从表4结果可见，在大样本情况下，ω系数α系数相差不大。10岁组和15岁组的结果也相差不大。表5列出了部分重要的生活环境和生活结果量表的信度系数，这里仅列出α系数，也不再区分年龄组。从表5可以看到，测评中主要分量表都有较高的信度，仅“性别偏见”“不良行为”和“健康行为”信度偏低，使用时应慎重。

（三）效度分析

（1）对社会与情感能力分量表的验证性因子分析

对于社会与情感能力16个分量表的数据进行验证性因子分析，可以考察测评结果能否体现16项子能力的理论构想。本节报告采用验证性因子分析（Confirmatory Factor Analysis，CFA）逐一考察各个分量表得到的拟合度，结果分为全样本、10岁子样本15岁子样本来呈现。鉴于OECD在进行CFA时剔除了部分难以有效表现对应子能力的题项（见表6），并对每个参试者的反应做了默许反应风格校正，对济南学生的数据也做了相应预处理。

判断各测量模型是否达到心理测量学可接受标准，主要依据以下指标（Beauducel & Wittmann，2005；Heene，Hilbert，Draxler，Ziegler，& Bühner，2011；Hu & Bentler，1999）：

● 卡方自由度比（χ² / df），若小于2表示拟合度较好，但是该指标容易受样本量影响，大样本情况下难以达到要求。

● CFI（比较拟合指数）和TFI（Tucker-Lewis指数），其值大于0.90表示拟合度好。

● RMSEA（近似误差均方根），其值大于0.10表示拟合度较差，0.08—0.10拟合度一般，小于0.08拟合度较好。

● SRMR（标准化残差均方根），其值大于0.08表示拟合度较差，0.06—0.08拟合度一般，小于0.06 拟合度较好。

如果测量模型拟合指标无法达标，即说明所有的测量项并不应该属于同一个因子。此时，可以考虑根据模型修正指数（Model Indices，MI）修正模型。如果测量题项因子负荷系数较低，也可考虑删除该量项。表6中删除的题项，多数就是因为因子负荷达不到要求。

表7—表9分别呈现基于学生全样本、10岁组和15岁组学生子样本的拟合指标。结果显示，最终量表的测量模型几乎所有拟合度都达到了测量学可接受水平，标准化因子负荷（各因子与题项得分之间的系数）都显著，绝大多数大于0.40，说明每项社会与情感子能力都得到了对应题项的良好表达。

（2）测量等值性分析

为了比较不同年龄组或不同性别学生社会与情感能力的发展水平差异，测评工具具备跨年龄、跨性别的等值性（invariance），是组间比较的前提条件（French & Finch，2006）。本节报告社会与情感能力各个分量表在跨年龄和跨性别上的三种等值检验（形态等值、弱等值和强等值）的结果。

形态等值（configural invariance）约束最少，拟合度指标RMSEA ≤ 0.08，SRMR ≤ 0.06，CFI ≥ 0.90即可达到要求。

弱等值（metric invariance）是在形态等值的基础上，因子负荷亦等值。拟合度指标变化量可用于衡量其结果，ΔRMSEA ≤ 0.015，ΔSRMR ≤ 0.03，ΔCFI ≤ 0.01可达到要求。

强等值（metric invariance）是在弱等值的基础上，截距亦须等值。在弱等值基础上，ΔRMSEA ≤ 0.015，ΔSRMR ≤ 0.03，ΔCFI ≤ 0.01可达到要求。

表10为16个分量表的跨年龄测量等值性检验结果。由于以上拟合度指标并不等价，实际使用中可能出现相互矛盾，应综合考虑后做出评价。表10和表11中虽然用“*”表示部分分量表等值检验结果不理想，但也不是绝对的判断。

注：（1）计算拟合度的数据集已经过默许反应风格校正，并剔除了OECD给出的部分题项。
（2）*表示该分量表等值检验结果不够理想。

注：（1）计算拟合度的数据集已经过默许反应风格校正，并剔除了OECD给出的部分题项。
　　（2）*表示该分量表等值检验结果不够理想。

根据表10和表11的拟合度结果，可知大部分分量表不同程度上达到了等值要求，但也有少数分量表没有达到较高水平的等值。其中，跨年龄组等值不够理想的分量表较多，跨性别等值的较少。

事实上，在第一轮测评中，OECD（2021a）也报告，跨年龄组达到强等值分量表较少（17个中有11个），跨性别达到强等值的分量表较多（17个中有14个），而跨城市（本报告不涉及城市间等值）只有15个达到弱等值，另有2个仅达到形态等值。所以，用SSES数据比较10岁组和15岁组，以及不同城市青少年社会与情感能力之间的差异，还需谨慎从事。

即使对于达到强等值的分量表，比较时也应慎重解释。因为问卷研究得到的自我报告经常受个体自我概念和性格特征的影响。例如，我国男生的学业效能感显著高于女生（张敏等，2005；高丙成，2014），但是实际考试成绩往往相反。

三、结语

综观我国山东省济南市的学生测评数据，可以看到济南参试学生态度认真积极，参试率和有效应答率高，默许反应风格造成的偏差也不明显。尽管10岁组产生了高分翘尾现象，但可视为年龄特征。信度分析表明，绝大多数重要分问卷信度良好。验证性因子分析表明，各个社会与情感能力各个分量表的效度较为满意，分量表跨性别测量等值性较好。综合以上结果可以得出结论，济南市的数据具备极高研究价值。

鉴于少数分量表跨年龄组测量等值性不够理想，本报告建议，研究者在考察青少年社会与情感子能力的年龄差异时，应慎重使用这几个分量表的数据。

撰写本报告时，OECD国际版技术报告尚未出炉，许多处理是根据第一轮的技术分析经验进行的，疏漏错误之处在所难免，敬请同行不吝指正。

（邵志芳工作邮箱：zfshao@psy.ecnu.edu.cn）

为适应微信排版已删除注释和参考文献，请见谅，如需阅读全文，请点击左下角“阅读原文”获取。

上期回顾