小学科学表现性测评的设计与应用

作者:林静

摘要:表现性测评能创设联系实际的、问题丰富的任务情境,能有效考查学生学习过程和多维度的学习结果,是测评科学素养的有效方式。表现性测评的设计,首先要构建多维度测评指标,预设相应的可观察的学生学习行为;其次要联系实际来创设任务情境,检查测评指标、预期行为及任务情境之间的一致性;最后编写具体任务和评分标准来研制任务手册。在具体应用中,要正确理解与体现表现性测评的价值,制定合理可行的评分标准并及时反馈评价结果,以有效评价促进学生发展。

关键词:表现性测评;科学素养;预期表现;学习行为

 

自本世纪初以来,各国都在积极探索适应未来高科技高智能时代的人才培养路径与策略。《国家中长期教育改革和发展规划纲要(2010-2020年)》中明确提出:素质教育是教育改革发展的战略主题,培养学生的社会责任感、创新精神和实践能力是教育立德树人的工作重点;要改进教育教学评价,根据培养目标和人才理念,探索多种评价方式,完善综合素质评价[1]。小学科学是启蒙儿童青少年科学素养的重要课程,小学科学教育质量关系着我国未来科技人才的储备与国际竞争力。如何突破单一的纸笔评价方式,以多样化的评价促进小学生科学素养的发展,是“十四五”时期提升小学科学教育质量、落实立德树人根本目标亟待解决的重大问题。

本文聚焦表现性测评来探讨这一问题,是鉴于以下的几点考虑:

一是小学生在识字量、文字表达、科学术语的积累和科学概念的理解等方面,都有一定的局限性,以书面表达为主的纸笔评价不适合作为诊断小学生科学学习的主要方式,尤其是小学低年段学生。

二是要评价学生科学素养,不能局限于考查学生的科学知识理解与运用,还要考查学生的科学推理、科学论证、科学建模等高阶科学思维和实践能力,以及科学情感态度价值观;拓展评价方式,通过表现性测评来观察与诊断小学生在科学学习中的知情意行,是必要的举措。

三是诸多研究表明,表现性测评能够有效地评价学生高阶思维、复杂认知能力和在新情境中解决问题的能力,从而锻炼学生创造性思维、批判性思维等高阶思维与能力[2,3];同时还能帮助教师更好地明确教学目标、更全面地了解学生学习状况,从而更好地转向以学生探究为中心的教学方式与教学策略变革[4]。由此,本文侧重于探讨表现性测评的内涵和命题技术,抛砖引玉,以期助推小学科学教育工作者在实践中积极实施表现性测评,基于数据、基于证据来提升小学生科学素养。

 1.表现性测评的内涵解读

表现性测评兴起于20世纪80-90年代的美国,源于建构主义学习理论的推广。美国近代的教育评价,在20世纪80年代之前一直以标准化纸笔考试为主导。进入20世纪80年代以后,开始强调学习者的主动性,认为学习是学习者主动构建意义过程的建构主义理论逐渐被大众接受,推动了评价从侧重于诊断学习结果转向深入考查学习过程和学习结果。由此,表现性测评(Performance-Based Assessment),也被译为“实作评价”。

1.1何谓“表现”

“表现”(Performance)一词,是学习者表现出来的行为或者言论等。在已有表现性测评的文献中,不同学者对“表现”的解读各有侧重。有的强调“表现”是学习者在真实情境中处理任务的展现,强调环境的真实性[5];有的强调“表现”不同于简单操作,指学习者产生的一系列反应[6],包括语言、行为和创造产品等;还有的观点强调“表现”是由学习者的学习成果或产品来呈现的[7],包括实验报告、调查报告、作文、演讲、演示、手抄报和作品展示等等。

1.2表现性测评的概念界定

较早的表现性测评的定义,指对学生运用已有知识解决新问题或完成特定任务的能力的一系列测评[8]。具体来说,就是在联系实际的真实情境下,由评价者按照一定标准直接观察和评判被试的系列表现。美国国会技术评价办公室(The Office of Technology Assessment, OTA)也给出了相似涵义的界定:表现性测评要求学生给出具有创造力的答案或成果,用以展示其获得的知识或(和)技能[9]

进入21世纪,表现性测评进一步得以重视和发展,其内涵也被进一步拓展。国际教育成就评价协会(International Association for the Evaluation of Educational Achievement,IEA)把表现性测评定义为:“利用综合实践任务考查学生对内容性知识(Content knowledge)和程序性知识(Procedural knowledge)的掌握情况,并评价学生运用以上知识去论证和解决问题的能力。”[10]有学者强调,表现性测评是基于学生的表现或产品以及既定的标准而作出的直接、系统的观察和评价[11]。也有学者指出,表现性测评就是在具体和真实的任务中,要求学生运用知识和技能完成一些任务,如开展活动、当众展示介绍或撰写报告等[12]。也有学者指出,在尽量合乎真实的情境中,遵循一定的评分规则,对学生完成复杂任务的过程表现或结果作出评价的,都可谓是表现性测评[13]

尽管不同的定义界定的表现性测评的内涵与外延略有不同,但都包含了各自对评价目的、方式、内容和场域的理解。由此,可以概括表现性测评的关键特征有以下三点:

第一,真实情境。真实情境下的复杂问题能让学生参与到解决现实问题之中。表现性测评需要学生完成一个活动或制作一个作品,以证明其获得的知识与技能,从而让学生在真实情境去表现其所知与所能[14]。因此,表现性测评注重考查学生在真实情境下解决实际问题的能力[15],需要为学生设计真实的问题情境,让学生通过具体实践来自由、灵活地表达其所学,从而也锻炼他们解决现实问题的能力[16]

第二,开放性任务。表现性测评的任务是开放的,而不是封闭的[17]。测评任务是没有固定或唯一正确答案的。任务的开放性一方面允许学生多维度地展示学习成果和产品;另一方面实则也是要求学生进一步发挥个体主观能动性,能够基于自己的独到见解和策略解决相关问题,从而进一步拓展学生的发散思维和创造能力。有学者提出,表现性测评需要学生完成具体、有意义的任务,评分标准要基于完成任务过程的合理性,而不是仅要求学生得到令人满意的结果[18]

第三,聚焦素养。表现性测评是能力立意的测试,不仅能测评学生对知识的理解与运用能力,还力求还能测评学生情感态度价值观。①真实情境下,需要学生综合应用各种知识与策略去解决问题,能考查学生科学知识的理解与应用能力[19];②对于开放性的问题解决,能考查学生批判性思维、抽象概括、科学论证、科学推理与科学建模等高阶思维与能力[20];③观察和评价学生在完成任务过程中的专注和投入程度、与他人的合作交流效果等,可以考查学生科学学习态度、兴趣倾向以及价值观等[21]

综上所述,表现性测评可界定为在真实或模拟的情境中,评价者要求学生给出具有创造力的答案或成果,并对学生在任务完成中的过程表现或结果作出评价。

 2.表现性测评的设计

表现性测评需要测评学生多维度的科学素养,其测评任务应是问题丰富、联系实际的科学实践类任务,是要求学生既动脑又动手的任务[22]。任务的设计,即表现性测评的命题,可遵循“以证据为中心的设计”(Evidence-centered design,ECD)理论来操作,准确收集学生在测评中的行为表现,作为证据以合理地推论要测评的科学知识、能力和情感态度价值观方面的水平。

2.1基本环节

根据ECD强调的系列设计模式[23],结合表现性测评的关键特征,建议小学科学表现性测评的命题工作首先要构建多维度的测评指标,预设相应的可观察的学生的学习行为;其次要联系实际来创设任务情境,检查测评指标、预期行为以及任务情境之间的一致性;最后编写具体任务和评分标准来研制任务手册(见图1)。

小学科学表现性测评的设计与应用插图

图1 小学科学表现性测评以证据为中心的命题环节

2.2关键技术

2.2.1确定任务目标

任务目标的确定包括理清表现性测评任务涉及的学科领域、适用年级以及被试的认知水平。由于表现性测评是基于真实情境的评价,因此真实问题的复杂性要求评价者要联系并明确学科的具体要求和评分标准,避免任务离题或考偏。同时,结合被试所在的年级与学生的年龄特征,设想任务目标对应的学生能被观察到的学习行为。

例如,美国教育进步评价项目(National Assessment of Educational Progress, NAEP)在2009年科学测评中的一个表现性测评任务,任务目标是探究电路,被试是4年级学生[24]。结合《义务教育小学科学课程标准(2017版)》(下文简称课标)[25]来分析其任务目标,可知:在知识方面是测评学生对电路与导体的概念的理解;在能力方面是测评学生实验探究能力。若将此题用于测评我国4年级学生,则要根据课标中对3~4年级学生在电路、导体和探究能力等方面的具体要求来核对任务目标是否适宜。

2.2.2制定测评指标

测评指标是基于任务目标而确定的,是分解任务目标以达成测评可操作化的结果,是在命题时每一道具体试题或任务的测评依据。或者说,测评指标是试题或任务的采分点。测评指标一般包括测评的学科内容指标、能力指标和认知要求等,呈现方式一般包括一个名词与对应的预期表现。在NAEP探究电路任务对应课标可以发现:有2个内容指标,分别检测学生对简单电路、常见导体的认识;有3个能力指标,分别测评学生分析解释实验现象、作图表达实验原理、基于实验现象推出结论等能力;认知要求有低、中、高三个不同水平:低水平要求学生回答简单问题,中水平要求学生回答相对复杂的封闭性问题,高水平要求学生回答开放性问题。

2.2.3描述预期行为

描述预期行为是围绕测评指标,预期学生在任务中的学习行为,从而为任务设计提供具象的评判依据。学生的每个学习行为都是完成任务过程中呈现预期表现的重要部分,一系列的学习行为提供的详细信息,能够帮助评价者创建一套连贯的学习任务,从而构建学生达到符合预期表现的评价标准。

以NAEP探究电路任务中的电路概念理解和实验现象解释的测评指标为例,根据课标分析其任务预期表现,学生的学习行为是在实物电路操作中观察、描述和解释实验现象(见图2)。

小学科学表现性测评的设计与应用插图1

图2  NAEP电路探究中“电路”学生预期行为

2.2.4创设任务情境

根据测评指标和预期行为,联系现实,创设相关问题情境来设计系列测评任务。NAEP探究电路任务中,提供给学生一套实验材料,包括2个灯泡、2个灯泡固定夹、1节电池、几根电线、1根吸管、1个回形针、1根牙签和2个带有电线的密封盒子。测试时间是40min。

测评任务共有4个,分别列举如下:

A连接电路:学生检查实验材料是否齐全,根据要求连接简单电路(见图3),观察灯泡是否发亮,在实验单上回答两个问题:什么是完整电路?如何判断图3表示的是一个完整电路?

B设计电路:有三步操作要求,第一步要求学生设计电路并测试吸管、回形针和牙签能否导电,并谈谈对不同材料导电的认识;第二步要求学生画一个测量物体导电性的电路图;第三步要求学生将吸管、回形针和牙签导电性实验观察结果记录在表格中。

C设计不同的电路:要求学生在电路中加入一个灯泡(见图4),回答加入之后原来的灯泡亮度发生的变化情况。对其变化作出解释。

D探究密封盒:要求学生分别将两个密封盒连入电路,画出电路图,再判断哪个密封盒里有灯泡,并作出解释。

可见,表现性测评任务都有具体问题情境,被试完成测评任务的过程就是在解决系列问题的过程。

小学科学表现性测评的设计与应用插图2

2.2.5研制评分标准

评分标准是指向具体学习行为的,使得评价者可观察、可评价,表现性测评任务中开放性问题评分标准的制定是难点。如在NAEP的探究电路任务的任务A中要求学生解释一个完整电路的评分标准如下:

  • 满分——学生既能说出一个完整电路在闭合时能产生电流的必需元件,又能描述完整电路闭合时灯泡亮了这一现象。
  • 部分给分——学生只说出一个完整电路在闭合时能产生电流的必需元件,或只描述完整电路中灯泡亮了这一现象。
  • 不给分——学生回答错误或者离题。

任务C中要求学生解释串联电路灯泡亮度变化情况的评分标准如下:

  • 满分——学生能提供以下两个方面的正确解释。一是关于灯泡的亮度变化,能指出当在灯泡1的电路中加入灯泡2时,灯泡1变暗;二是谈及电流的变化,能指出通过两个灯泡(串联)的电路电流要小于只有一个灯泡的电路。
  • 部分给分——学生只描述某一方面的现象。
  • 不给分——学生描述现象错误或者描述无关现象。

以上两个评分标准给予了评价者评分的基本准则,具体应用时,评价者需分析学生的具体回答来把握其给分要点。每一位学生的表现或每一个作品都会收到多个评分者的分数,不同评分之间的差异(Variance)是产生测评误差的重要原因之一。要确保不同评分者基于同一标准的评分的内在一致性信度,首先要通过预试、访谈和收集专家的审读修改意见来确保评分标准的信效度,其次要对评分者进行一定的培训与交流,确保其能正确理解与和运用评分标准。

 3.表现性测评的实施难点

表现性测评非常适用于基础素养的测评。但在我国基础教育实践中,表现性测评未得以进一步的推广与应用。表现性测评的实施首先要正确理解其特征与价值其次要解决命题技术的问题。任何一种评价方式都有优势和局限性,目前表现性测评实施中存在的主要问题有以下几点。

3.1观念偏差

表现性测评任务越开放,越依赖评价者的“主观”评分。公众对表现性测评持有“不客观”的偏见,教育管理者也因此有所顾忌,这都阻碍了表现性测评的推广应用。解决方案是开展对评价者的相关培训,让评价者“执证上岗”。如新西兰采用表现性测评方式开展全国中小学生科学素养测评工作[26],每年挑选一批教师进行集中培训,经考核后派往全国各地开展为期一个月的测评工作,所有的测评过程都有录像记录,可供督导者抽查。经过培训的教师不仅胜任测评工作,同时对科学教育理念和测评的了解更加深入。

3.2标准模糊

在教育界内,表现性测评被诟病的主要原因在于评分标准。

一是存在评价权威性不足的现象。从设计表现性测评任务,到编制评分标准,再到收集反馈的过程,都对评价者有着较高的素养要求。许多教师目前尚不熟悉表现性测评方式与技术,因此其测评设计需要一定范围的专业论证和预试,以提升其测评任务的信效度,增强评价的权威性。

二是出现评分标准缺乏弹性的现象。表现性测评的评分标准既要明确规定其评分原则和要点,又要给予学生思维发散和个性化作答的空间。这要求每一个任务的评分标准都应有足量的、具有代表性的预试样本作答数据,尽可能在每一个问题的评分标准之下提供被试的典型作答,供评分者可以更准确地把握尺度。

三是有些表现性测评重点失衡。如测评的采分点过于偏重对基础知识和基本技能的考查,忽视学生高层次思维能力、独立解决问题的能力等的考查。由此,在设计测评任务时,应根据ECD理论逐步论证测评指标、预期行为、任务内容的合理性及三者之间的匹配性,确保测评的高效度。

四是存在评分标准过细或冗长,不好操作的现象。例如,满分为3分的作答,设置了6个评分细则,0.5分就有一个给分标准。若一个任务确实需要6个评分细则,说明这个任务具有一定的区分功能,应该调整满分的分值为6分或以上;若一个任务只需要3分的分值,过细的评分标准浪费时间和人力。冗长的评分标准容易使评分者的注意点分散,既不好操作,还会引发误判。

3.3反馈滞后

表现性测评不仅供教师更深入全面地了解学生的学习状况,同时也能及时有效地反馈评价结果给学生,以评价反馈促进学生的学习反思和自我监控。目前,表现性测评普遍缺乏有效的反馈机制,导致测评功效大打折扣。小样本的表现性测评,建议教师在施测时预留出时间,以便与学生及时反馈。若能与每一名学生单独交流,则在学生完成测评后立即进行,时间可为2-3min;或3-5人一个小组,每组学生完成测评后,用时7-8min,教师集中向小组反馈学生测评中的共性与个性问题。大样本的表现性测评在测评设计时就要设计反馈方式,在测评完成后尽快以书面、语音和图像等方式反馈测评结果。

4.结语

由于表现性测评联系真实情境,允许学生多方式地表现自己的学习结果,既能考查学生的学习过程,也能检测多维度的科学学习结果,故在小学生的科学学习中具有重要的价值。广大小学科学教育工作者应尽可能多地采用表现性测评进行小学生科学学习的过程性评价与终结性评价,收集有效证据促进学生发展与教师自我发展。

表现性测评的推广应用需要诸多方面的合力。各级教育行政部门在小学科学教师培训中应该有意识地发展教师的表现性测评能力;学校应该进一步激励、引导和帮助教师开展表现性测评;教师个体之间应该加强表现性测评的合作研究,及时相互研讨,提升教育评价素养,以发展性评价推进小学科学教育立德树人目标的落实。

 

参考文献

  • 国务院办公室. 国家中长期教育改革和发展规划纲要(2010-2020年)[EB/OL]. 2010. http://jw.tust.edu.cn/docs/20150109154819444759.pdf.
  • Hild, P., Gut, C., & Brückmann, M. Validating performance assessments: measures that may help to evaluate students’ expertise in ‘doing science’[J]. Research in Science & Technological Education, 2019, 37(4), 419-445.
  • Abrahams, I., Reiss, M.J., & Sharpe, R. M. The assessment of practical work in school science[J]. Studies in Science Education, 2013, 49(2), 209-251.
  • Metin, M., & Özmen, H. Investigation of teacher opinions about performance assessment with respect to the gender and branch variables[J]. Journal of Turkish Science Education, 2011, 8(4), 3-17.
  • Wiggins, G.P. Assessing student performance[M]. San Francisco: Jossey-Bass Publishers, 1993.
  • Fitzpatrick, R. & Morrison, E.J. Performance and product evaluation[M]. In R.L. Thodick (Ed.), Educational measurement. Washington, DC: American Council on Education, 1971.
  • Stiggins, R.J. Facing the challenges of a new era of educational assessment[J]. Applied Measurement in Education, 1991, 4(4), 263-273.
  • Stiggins, R.J. Design and development of performance assessments[J]. Educational Measurement Issues and Practices, 1987, 6(3), 33-42.
  • OTA, US. Testing in American schools: asking the right questions[M]. United States Govt Printing Office, 1992.
  • Wolf, R.M. Performance assessment in IEA studies[J]. International Journal of Educational Research, 1994, 21(3), 239-245.
  • 哈特. 真实性评价——教师指导手册[M]. 国家基础教育课程改革“促进教师发展与学生成长的评价研究”项目组译. 北京:中国轻工业出版社, 2004.
  • Colley, K. Performance-based assessment. The Science Teacher, 2008, 75(8), 68-72.
  • 周文叶. 学生表现性评价研究[D]. 华东师范大学博士学位论文, 2009.
  • Chidsey, J.L., Yore, L.D., & Jorgensen, M. Performance assessment in science as a tool to enhance the picture of student learning[J]. School Science and Mathematics, 1997, 97(4), 172-183.
  • Linn, R.L., & Gronlund, N.E. Measurement and assessment in teaching (8th) [M]. Upper Saddle River, New York: Prentice-Hall, Inc., 2000.
  • Anastasiu, I. Performance management and the issue of diversity-a psychosociological approach[J]. Euromentor Journal, 2015, VI(4), 54-62.
  • Ernst, J.V, & Glennie, E. Redesigned high schools for transformed STEM learning: performance assessment pilot outcome[J]. Journal of STEM Education: Innovation and Research, 2015, 16(4), 27-35.
  • Shavelson, R.J., Baxter, G.P., & Pine, J. Performance assessments: political rhetoric and measurement reality[J]. Educational Researcher, 1992, 21(4), 22-27.
  • Abrahams, I., Reiss, M.J., & Sharpe, R.M. The assessment of practical work in school science[J]. Studies in Science Education, 2013, 49(2), 209-251.
  • Maker, C.J. Identifying exceptional talent in science, technology, engineering, and mathematics: increasing diversity and assessing creative problem-solving[J]. Journal of Advanced Academics, 2020, 31(3), 161-210.
  • Parker, V.A., & Gerber, B.L. Performance-based assessment, science festival exhibit presentations, and elementary science achievement[J]. Journal of Elementary Science Education, 2002, 14(1), 59-67.
  • 林静. CAT:科学概念的教与学[M]. 北京:高等教育出版社,
  • 袁婷, 林静. 证据中心设计理论在PISA2021创造性思维测评中的应用及启示[J]. 中国考试,2021, (3), 56-62, 73.
  • Grade 4 electrical circuits task: administration and scoring materials[EB/OL]. 2015. https://www.nationsreportcard.gov/science_2009/hot_g4_scoring.aspx?tab_id=tab2&subtab_id=Tab_1#tabsContainer.
  • 教育部. 义务教育小学科学课程标准[EB/OL]. 2017. http://www.moe.gov.cn/srcsite/A26/s8001/201702/t20170215_296305.html.
  • Crooks, T., Smith, J., & Flockton, L. National education monitoring project-science assessment results 2007[R]. EARU: National Education Monitoring Report 44., 2008.

 

原文刊登于《儿童大世界——科学教学》2021年10月上第2期