2025年8月1日中文

探索评量与测验的原则，包括其类型、目的、最佳实践及全球伦理考量。本指南面向教育工作者、管理者及对教育测量感兴趣的人士。

理解评量与测验：全球教育工作者综合指南

评量与测验是教育过程的基本组成部分。它们为学生学习提供宝贵信息，为教学决策提供依据，并有助于课程评估。然而，“评量”和“测验”这两个术语经常被互换使用，导致混淆。本指南旨在厘清这些概念，探讨不同类型的评量与测验，讨论其目的，并为在全球背景下进行有效和合乎伦理的实践提供最佳范例。

什么是评量？

评量是一个广义术语，涵盖了所有用于收集学生学习与发展信息的方法。它是一个持续的过程，涉及收集、分析和解释证据，以了解学生知道什么、理解什么以及能做什么。评量不限于正式测验；它包括用于监控学生进步和为教学提供信息的各种方法。

评量的主要特点：

持续性：评量不是一次性事件，而是一个连续的过程。
综合性：它涉及从多种来源收集信息。
信息性：它为学生和教师提供反馈，以改进学习和教学。
目的性：它与学习目标和教学目标保持一致。

什么是测验？

测验是一种特定类型的评量，通常涉及使用标准化的工具或程序来衡量知识、技能或能力。测验常用于评定成绩、做出分班决策或评估课程效果。虽然测验可以是宝贵的信息来源，但它们仅代表了更广泛的评量过程的一个方面。

测验的主要特点：

标准化：测验通常遵循特定的格式和施测程序。
可衡量性：测验产生可量化的数据，可用于比较学生的表现。
评估性：测验常用于对学生的成就或课程效果做出判断。
正式性：测验通常在受控的环境中进行。

评量的类型

评量可以通过多种方式进行分类，包括形成性与总结性、正式与非正式，以及标准参照与常模参照。

形成性评量

形成性评量旨在学习过程中向学生和教师提供反馈。它用于监控学生的进步，识别优势和劣势领域，并相应地调整教学。形成性评量通常是低风险的，不用于评分目的。

形成性评量的例子：

快速测验：简短的、不计分的测验，用于检查对关键概念的理解。
出门条：在课程结束时收集的简短回应，以衡量学生的学习情况。
课堂讨论：让学生参与讨论，以评估他们的理解和批判性思维能力。
同伴互评：学生就彼此的作业提供反馈。
自我评量：学生反思自己的学习并确定需要改进的领域。
一分钟报告：学生回答两个问题：“今天你学到的最重要的事情是什么？”以及“在课程结束时，你心中最重要的问题是什么？”

总结性评量

总结性评量用于在一个单元、课程或项目结束时评估学生的学习情况。它旨在衡量整体成就并评定成绩。总结性评量通常是高风险的，对学生的最终成绩有重要影响。

总结性评量的例子：

期末考试：涵盖课程中所有教学内容的综合性考试。
学期论文：展示学生对某一主题理解的深度研究论文。
项目：要求学生运用其知识和技能来解决问题或创造产品的复杂任务。
标准化测验：用于衡量学生相对于共同标准的成就的标准化评量（例如，国际学生能力评估计划（PISA）、国际数学与科学趋势研究（TIMSS）或国际阅读素养进展研究（PIRLS））。
学习档案：展示学生在一段时间内成长和成就的作品集。

正式评量

正式评量是收集学生学习信息的结构化、系统化方法。它们通常涉及标准化的工具、评分标准和预定的评估准则。

非正式评量

非正式评量是收集学生学习信息的非结构化、更灵活的方法。它们通常涉及观察、提问和非正式反馈。

标准参照评量

标准参照评量根据一套预定的标准或准则来衡量学生的表现。重点在于学生是否掌握了特定的技能或知识。

例如：一份详细说明评估写作任务标准的评分量规。

常模参照评量

常模参照评量将学生的表现与一个更大的群体或常模进行比较。重点在于将学生与其同龄人进行排名。

例如：一项标准化测验，其中学生的分数与全国样本的分数进行比较。

评量与测验的目的

评量与测验在教育中服务于几个重要目的：

监控学生进步：评量帮助教师跟踪学生的学习情况，并识别学生可能遇到困难的领域。
为教学提供信息：评量数据可用于调整教学策略，并根据个别学生的需求量身定制课程。
向学生提供反馈：评量反馈帮助学生了解自己的优势和劣势，并确定需要改进的领域。
评定成绩：评量结果常用于评定成绩，这是对学生成就的总结。
做出分班决策：评量数据可用于将学生安排到合适的课程或项目中。
评估课程效果：评量数据可用于评估教育项目的效果，并确定需要改进的领域。
问责制：评量常用于要求学校和教师对学生的学习负责。在一些国家，全国性的标准化测验在学校资金分配和教师评估中扮演着重要角色。

有效评量与测验的最佳实践

为确保评量与测验的有效性和公平性，遵循最佳实践至关重要：

将评量与学习目标对齐：评量的设计应旨在衡量学生应学习的特定知识、技能和能力。
使用多种评量方法：采用多种评量方法，以全面了解学生的学习情况。
提供清晰具体的反馈：反馈应及时、具体且可操作。
使用评分量规和评分指南：评分量规和评分指南为评估学生作业提供了明确的标准。
确保效度和信度：评量应具有效度（衡量其意图衡量的东西）和信度（其结果具有一致性）。
考虑文化和语言多样性：评量应对所有学生公平公正，无论其文化或语言背景如何。
为残障学生提供便利措施：残障学生可能需要便利措施，以确保他们能够公平地参与评量。
使用评量数据为教学提供信息：评量数据应用于调整教学策略，并根据个别学生的需求量身定制课程。
有效沟通评量结果：应以清晰易懂的方式向学生、家长和其他利益相关者传达评量结果。

处理评量中的偏差

评量中的偏差指的是系统性错误，这些错误不公平地使某些学生群体受益或处于不利地位。偏差可能源于多种因素，包括测验内容、施测程序和评分实践。处理评量中的偏差对于确保教育的公平和公正至关重要。

评量中的偏差类型：

内容偏差：当测验内容对某些学生群体比对其他群体更熟悉或更相关时。例如，一个包含特定文化事件或历史人物引用的测验可能会让不熟悉这些引用的学生处于不利地位。
语言偏差：当测验中使用的语言对某些学生群体来说更难理解时。例如，用正式英语编写的测验可能会让说不同方言或英语学习者处于不利地位。
格式偏差：当测验的格式对某些学生群体比对其他群体更熟悉或更舒适时。例如，选择题测验可能会让更擅长以书面形式表达知识的学生处于不利地位。
评分偏差：当测验的评分受到评分者偏见或刻板印象的影响时。例如，评分者可能会无意识地给来自某些种族或族裔群体的学生打较低的分数。

减少评量偏差的策略：

审查测验内容的文化和语言偏差：仔细检查测验内容，以识别任何可能存在偏差的项目。
使用多种评量方法：采用多种评量方法，以全面了解学生的学习情况。
为残障学生提供便利措施：残障学生可能需要便利措施，以确保他们能够公平地参与评量。
培训评分员意识到自己的偏见：为评分员提供培训，教他们如何在评分实践中识别和避免偏差。
使用多名评分员：让多名评分员评估学生作业，以减少个人偏见的影响。
分析评量数据以发现偏差：检查评量数据，以识别任何偏差模式。

评量与测验中的伦理考量

伦理考量在评量与测验中至关重要。教育工作者有责任确保评量是公平、有效和可靠的，并且其使用方式能够促进学生的学习和福祉。

评量与测验中的关键伦理原则：

公平性：评量应对所有学生公平公正，无论其背景或情况如何。
效度：评量应衡量其意图衡量的东西。
信度：评量应在其结果中保持一致。
保密性：学生的评量结果应予以保密，并仅用于合法的教育目的。
透明度：应告知学生和家长评量的目的、格式和评分方式。
尊重学生尊严：评量应以尊重学生尊严的方式进行，避免造成不必要的压力或焦虑。
避免仅根据单一评量做出高风险决策：仅凭一次测验的结果就对学生做出关键决定（例如升级、毕业）是不道德的。应考虑多种证据来源。

全球背景下的评量

在一个日益互联的世界中，考虑评量与测验的全球背景非常重要。世界各地的教育系统使用多种评量方法来衡量学生的学习情况和评估课程效果。像PISA和TIMSS这样的国际评量，为不同国家的学生成就提供了宝贵数据，并可用于为教育政策和实践提供信息。

全球背景下评量的挑战：

文化差异：在一种文化背景下适用的评量方法在另一种文化背景下可能不适用。
语言多样性：来自不同语言背景的学生在理解和回答评量项目时可能面临挑战。
教育系统的差异：世界各地的教育系统在结构、课程和教学实践上各不相同。
数据可比性：由于评量方法和评分实践的差异，跨国比较评量数据可能很困难。

应对这些挑战的策略：

开发具有文化响应性的评量：设计对文化和语言多样性敏感的评量。
使用多种评量方法：采用多种评量方法，以全面了解学生的学习情况。
与国际教育工作者合作：与来自不同国家的教育工作者合作，分享评量方面的最佳实践。
提升数据素养：教育利益相关者了解国际评量数据的局限性以及如何恰当地解释这些数据。

评量的未来

评量正在不断发展，以满足教育不断变化的需求。一些新兴的评量趋势包括：

个性化评量：量身定制评量以满足学生的个性化需求。这可能涉及使用适应性测验（根据学生表现调整题目难度），或允许学生选择符合其兴趣和学习风格的评量任务。
技术增强型评量：利用技术创造更具吸引力和互动性的评量。这可能涉及使用模拟、游戏或虚拟现实在真实情境中评估学生的学习。
真实性评量：在现实世界情境中评估学生的学习。这可能包括让学生完成与其生活和社区相关的项目、解决问题或创造产品。
能力本位评量：根据学生在大学、职业和生活中取得成功所需的技能和知识来衡量学生的学习。这可能涉及使用学习档案、表现评量或其他方法来证明学生对特定能力的掌握。
强调软技能：评估如批判性思维、协作、创造力和沟通等技能。这些技能被越来越认为是21世纪职场成功的关键。

结论

评量与测验是有效教育的重要组成部分。通过理解评量的原则，使用多种评量方法，并遵循最佳实践，教育工作者可以收集有关学生学习的宝贵信息，为教学决策提供依据，并促进学生的成功。在全球背景下，重要的是要意识到文化和语言的多样性，并开发对所有学生都公平公正的评量。随着评量的不断发展，教育工作者必须随时了解新兴趋势，并调整其实践以满足教育不断变化的需求。

通过采用一种全面且合乎伦理的评量方法，我们可以创造一个能够赋能学生发挥其全部潜能的学习环境。