如何促进教师发展与评价:一套精准提高教师专业成长的马扎诺实操系统
上QQ阅读APP看书,第一时间看更新

引言

本书面向教师、督导和教育领导者,他们有志趣将教师发展与教师评价的过程,在教师个体层面转化为推动教师发展的动力,并在学校层面转化为加强制度有效性的动力。

理想情况下,教育者应以内在共生关系来看待教师发展和教师评价这两个问题。教师评价向我们展示教师的优势领域,也阐明了其改进和提升的可能性。而就教师发展方面所做的努力则直接并积极地影响教师的教学技能,尤其在教师真正需要提升的领域。近些年,随着教师技能的持续发展,教师评价分数得以提高,教师队伍也得到整体改善。当然,教师技能的发展也直接促进了学生的学习。

提高教师技能可以促进学生学习,其背后的逻辑是不言而喻的。学生的知识获得与教师的品质素养直接相关。虽然多数人目前都很容易接受以上观点且不会提出任何质疑,但情况并非总是如此。

直到20世纪70年代,研究人员才开始认识到来自不同教师课堂的学生存在着巨大的成绩差异。之后几十年的研究则证实了“教师个体对学生的成绩有重要的影响”。其中,许多研究的研究者来自经济学领域。最终,这一系列研究推广了这样一种观念,即教师个体是决定学生成绩最重要的可变因素。


教师发展、督导和评价简史


尽管一直没有很明确的说明,但是在美国,教师发展这个主题始终都是教育的构成部分。在美国教育早期,教师发展是教师督导工作中的一个隐性部分。从这个角度来说,教师发展工作可以向前追溯三个世纪。

在18世纪和19世纪早期,学校教育基本上是一种教会活动,因为当时学校与当地教会和社区紧密联系并受其控制。教师和学校管理者通常都是当地社区的神职人员,或是受神职人员监督的外行人。

当市区学校规模发展壮大且日趋复杂时,教学工作也随之变得更加复杂,首席教师开始承担督导的角色。到19世纪中期,在规模较大的学校里,首席教师转变成了管理者。此时,人们意识到教学技能的重要性,并开始将其作为有效教学的组成部分。

在19世纪晚期和20世纪早期,一种更加科学的教育方法开始盛行。人们认为,以科学为基础的管理策略可以应用到任何复杂的系统中,包括学校。作为科学管理学校的一部分,管理者向教师提供期望他们做或不做特定事情的反馈。随着工业革命的兴起,这种方法已在教师评价领域深深扎根。

早期的教师评价是一种“权威的、检查型的监督”(Glanz, 2018, p.7)。督导会在课堂上发现具体的教学要素,当要素没有出现时,督导就会去纠正教师。也许有人会认为,这种早期监督和评价采取的是纠错模式。督导审查是为了确定教师遗漏或做错的事情,并采取纠正措施。



现代督导模式的兴起

到20世纪中期,纠错模式已经衰落,取而代之的是一种互动性更强的方法。具体来说,在20世纪60年代晚期和70年代早期,“临床督导”是教师管理的主导模式。这种模式在以下两本书里得到详细阐述:罗伯特·古德海默的著作《临床督导:教师管理的专门方法》和莫瑞斯·科根的著作《临床督导》(1973)1。临床督导模式阐明了教师与督导者之间高度合作的方法。古德海默(1969)确定了临床督导模式的5个步骤。

1. 预观察会议以安排观察活动

2. 观察活动

3. 从观察和分析中整理数据

4. 后观察会议以讨论和反思课程

5. 督导的案例分析

“临床督导”的目的是让教师和督导参与到促进教师发展的共同对话中来。尽管督导工作是重点,但是评估却是督导过程的总结。

这种方法的一个显性原则是,督导不应以任何先入为主的、有关优质教学的观念来进行督导或评价。正如爱德华·帕雅克所说,临床评价将会是一种“培养具有专业责任感的教师的工具,这些教师特别关注反思性问题的解决,从而能够分析自身的表现”。尽管临床督导模式的目的是通过督导和教师合作进行集体性、反思性对话来改善教学,但实际上,临床督导并没有发挥这样的作用。随着临床督导模式及其所包含的五个步骤的迅速传播,督导开始将这五个步骤本身视为评价过程的结果。只要完成这些步骤就意味着评价得当。这种现实状况与临床督导模式的开创者所设想的完全不同。尽管如此,临床督导五步骤持续地影响了许多常见评价过程的形成。

20世纪80年代,替代式督导和评估模式兴起,这其中包括指导、同伴互助和行动研究。艾伦·A. 格拉索恩2(1984)在他的《差异化督导》一书中提出,教师应该对自己的监督和评价有一定的控制权,并对自己的工作有发言权。另外,卡尔·D. 格利克曼3在他的《教学督导学:一种发展性视角》一书中提出,评估最重要的目标是帮助教师发展。这个时代以发展式督导著称。

20世纪80年代,玛德琳·亨特4提出了经典七步教学模式。具体步骤如下:

1. 预期设定

2. 陈述目标

3. 输入建模

4. 检查理解

5. 指导练习

6. 独立实践

7. 总结—结束—重启

这种课程设计的方法非常流行,并很快成为评价者在观察课堂时的参照内容。亨特的七步教学法是教育领域第一个被广泛使用的教学模式。

也正是在这个时候,督导更加明确地与评价相关联。到了20世纪90年代,教师评价已经变得公开,这在很大程度上归功于夏洛特·丹尼尔森的开创性著作《教学的框架:一个新教学体系的作用》5。丹尼尔森把教学框架和评估框架结合起来。该框架结构包括以下4个领域:

1. 教学计划和备课

2. 课堂环境

3. 课堂教学

4. 专业职责

每个领域都有几个组成部分(总共76个)以及相应的、用以解释各组成部分的评价准则。该教学框架旨在成为捕捉教学复杂性的完整教学模式,使督导和评估过程能够阐明教师课堂实践的具体细节。



形式化的教师评价

尽管教师评价相关理论和模式已经相当成熟,但实际的评价过程却仍然是一个空洞的过程,并没有促进教师的发展。在新教师项目报告《小部件效应:我们国家未能对教师效能的差异采取行动》6中,这一论点得到了详尽阐述。该报告指出,美国教师评价系统未能识别和应对教师效能差异。该报告还强调了教师评价实践的实际内在动力,即“教师是可交换的部件”这一心照不宣的信念。这与评价领域现有的研究背道而驰。如前所述,教师之间的表现存在巨大差异,这导致了学生成绩的差异。而美国教师评价系统持有错误观念,认为教师可以互换使用,对学生没有明显的影响,“小部件效应”也因此得名,其前提假设是“教师就像小部件一样,可任意替换”。该报告严厉地批判了当时的评价系统,指出:

“小部件效应”的根源在于教师评价系统未能提供有关教师效能的有意义的信息。从理论上讲,评价系统应该准确、一致地识别和衡量教师个体的优缺点,以使教师得到改进教学所需的反馈,并使学校能够确定如何最佳地分配资源和提供支持。而实际上,教师评价系统通过提供几乎不反映教师之间差异的绩效信息贬低了教学效果。在执行方面,制度化的冷漠使得这种根本性的失败对教师和学校产生了潜在的影响。结果是无视教师之间的重要差异:优秀得不到承认,发展得不到重视,差劲的表现得不到提升。


作者发现:

在使用二元评价等级(一般为“满意”或“不满意”)的学区,超过99%的教师获得满意的评价。使用多元评价的学区效果稍微好一些,94%的教师获得了最高的两个评级等级之一,不到1%的教师被评为不满意。

“小部件效应”对教育者和非教育者感知教师监督和评价状况的影响不可小觑。很明显,大规模的变革势在必行。

报告中提出了4项建议:

1. 采用全面的绩效评价系统,根据教师在促进学生成绩方面的有效性,公平、准确、可信地区分教师。

2. 培训督导和其他评价者,保证他们有效使用教师绩效评价系统。

3. 将绩效评价系统与关键的人力资本政策和功能相结合,如教师分配、专业发展、薪酬、留用和解雇。

4. 采取解雇政策,为不称职教师提供退出学区的低风险选择,并建立公平而有效的正当程序制度。

“小部件效应”很快被广泛引述和使用。大约在同一时间,美国总统奥巴马发起了一项“力争上游”计划(Race to the Top, RTT,2009),要求联邦政府对教师评价进行改革。


“力争上游”计划

2009年7月24日,奥巴马总统和教育部部长阿恩·邓肯宣布了一项43.5亿美元的拨款计划,称为“力争上游”计划。这笔拨款是《美国复苏与再投资法案》(应对20072008年的金融危机)的主要组成部分,旨在推动全国教育改革。它为那些愿意改革教师评价系统的州提供大量资金。为了获得资金,各州必须设计和执行新评价系统,其中包括两个组成部分:学生的学习成果和教师对专业标准的遵循程度。正如美国教育部文件《改革蓝图》(2010)所述:“我们将提升教师专业度,以表彰、鼓励及奖励优秀教师为重点。我们呼吁各州和地区开发并实施教师和校长评价及支持系统。”该文件继续指出,新的评价系统必须能够根据教师的专业技能和学生的学业成长来区分教师。

“力争上游”计划有4个核心教育改革重点,分别是:

1. 制定标准和评价方法,使学生为大学或工作的成功做好准备,也为参与全球经济竞争做好准备。

2. 建立衡量学生成长和成功的数据系统,并告知教师和校长如何改进教学。

3. 招募、培养、奖励和留住有能力的教师和校长,尤其是在最需要他们的地方。

4. 扭转成绩最差的学校。(美国教育部,2009,第2页)

“力争上游”计划还需要全面的、州级的改革方法。这成为变革的催化剂,各州纷纷实施新的教师评价制度,以满足教学改革的重点,为获得联邦政府的资金做好准备。教师评价改革运动席卷全美并一直持续。2015年通过了《让每个学生成功法》,该法案赋予各州和学区更大自主权以实施地方改革。截至2016年,已有44个州实施了教师评价改革。


常见评估方法的问题


强调根据学生成长和遵守专业教学标准来评价教师,这并没有达到预期的效果。数据明显说明:“力争上游”计划所提出的将教师评价作为教师和学校改进工具的美好愿景并没有实现。数据至少揭示了三个主要的问题领域。

第一个是高分和低分学生对课堂观察评分和教师的分类评价评分的不同影响。无论一个老师有得高分还是得低分的新生,似乎都会存在观察分数和整体评分的偏差。有高分学生的老师比有低分学生的老师得分更高。此外,这些分数差异“超出了可能归因于随时间推移而稳定下来的教师素养的差异”。

第二个是整体上缺乏可信的观察得分。这一点在比尔和梅琳达·盖茨基金会资助的一系列出版物中得到了解释,这一系列出版物统称为“有效教学措施”(第四章将深入探讨)。简单地说,研究人员发现,观察评分的信度很低(即没有准确且一致地衡量他们想要衡量的内容),这是由于存在多种类型的误差:没有对教师的全部教学策略进行抽样、对观察证据进行了错误分类、因为没有对整堂课进行观察而打分较低等。根据“力争上游”计划的倡议,观察数据研究的主要发现之一是:要想全面了解教师的教学实践,所需要的观察次数远远超过在教师评价过程中通常进行的观察次数。

第三个是增值测量7(VAMs)的准确性。增值测量计算的是学生在特定课程从特定教师那里学到的东西。每个学生学到的知识量是用复杂的数学公式计算出来的,这些公式考虑了每个学生在开始接受教师的教学之前所掌握的知识。这些公式也会考虑诸如社会经济地位、家庭对学校教育的支持、学生参与教师课堂的时间等因素。当这些背景因素都被考虑在内时,剩下的就被认为是一个纯粹的衡量标准,衡量每个学生从一个特定教师那里学到了什么。

从表面上看,这似乎是一种简单易行的计算学生学习情况的方法,但仔细审查就能发现增值测量在性质和功能上的缺陷。罗伯特·J.马扎诺和米歇尔·托斯汇总了一些对增值测量的早期质疑,比如教师应用公式类型的差异可导致学生分数的显著差异。毫不夸张地说,一个公式可能会把教师归为高效教师,但另一个公式即使使用同一数据,也可能仅仅把他归为有效教师。只凭借评价系统中使用的公式,教师被归为有效或高效类,这可能意味着教师的工资水平、任期状况或以上两者都有差异。如果应用不同公式将教师归为需要改进或不满意类,可能会产生更严重的后果。

或许对VAMs最具挑衅性的批判来自玛丽安·比特勒、肖恩·科克伦、瑟斯顿·多米娜和艾米莉·彭纳(2019)8,他们将VAMs衡量的教师效果变化与学生身高衡量的教师效果变化进行了比较。显然,教师无法控制学生的身高,但研究人员却发现了具有统计学意义的结果,该结果表明“教师对学生身高的影响几乎与教师对数学和阅读成绩的影响一样大”。研究人员警告不要使用增值测量方法,指出:

总的来说,我们的结果为增值模型的使用和解释提供了警示,因为它们在实践中经常被使用。我们证明——仅仅出于偶然——教师的影响可能会相当大,甚至在那些看起来教师无法影响的结果上。

比特勒和她的同事们试图通过他们的研究表明一个观点:根据学生的增值测量分数得出的教师等级,在很大程度上可能是偶然变化的结果,而并不能反映学生的实际学习情况。

随着对评价模式开发、教师和评价者的专业发展、评估程序的数次立法修改等方面的时间投入,以及数十亿美元的改革资金投入,我们有理由提出一个有价值的问题:评估得到改进了吗?虽然在一些指标中可能有一些改善的痕迹,但整个系统似乎并没有明显更好地识别出差劲的教师。对这个问题最明确的答案可能来自马修·A. 克拉夫特和艾莉森·F. 吉尔摩(2017)9进行的一项研究,该研究汇总了参与实质性评价改革的24个州中教师的表现。该报告以“重新审视小部件效应:教师评价改革和教师有效性分布”为主题,发现新的评价体系“并没有导致教师绩效评分的有效性”。无论出于何种目的,小部件效应似乎在学校里依然活跃。


本书使用方法


反思这篇引言中引用的研究,很容易使人摒弃教师评价助力教师发展从而培养更好的教师和创造教育系统的光明前景的做法。虽然“力争上游”计划带来的改革运动失败了,但我们相信,教育工作者可以从这一运动中学习,并建立可显著改善先前评价方法的新一代评价系统。这就是本书的目的。

为此,我们将本书的其余章节分为两部分:1)促进教师发展;(2)改进教师评价。在第一部分,关于教师发展,读者将会看到关于专业技能本质的详细讨论第一章),以及如何通过教师自我反思(第二章)和针对性督导(第三章)来发展教师专业技能。由此开始建立一个系统,以系统化、个性化、有意义的方式发展每个教师的专业技能。

在第二部分,关于教师评价,读者将会看到对课堂观察所存在的内在问题的讨论(第四章),以及解决这些问题的具体方法(第五章)。本部分还包括生成可信、有效教师评价等级分数的具体步骤,以及如何使用它们改进教师队伍(第六章)


1 罗伯特·古德海默(Robert Goldhammer)和莫瑞斯·科根(Morris Cogan),哈佛大学学者,最早提出教师“临床督导”(clinical supervision)理论。这一理论更关注于教师现场专业能力的评估,评价者与被评价者之间的沟通与对话,教师通过现场评估获得专业发展。

2 艾伦·A.格拉索恩(Allan A.Glatthorn),英文原书名Differentiated Supervision

3 卡尔·D. 格利克曼(Carl D.Glickman),英文原书名Supervision of Instruction: A Developmental Approach,由中国人民大学出版社于2014年引进。

4 玛德琳·亨特(Madeline C. Hunter),教育家和心理学家,提出直接教学法(Direct Instruction)和本书中提到的课程设计模型(Madeline Hunter Lesson Plan Templete)。

5 《教学的框架》,作者夏洛特·丹尼尔森(Charlotte Danielson),英文原书名Enbancing Professional Practice: A Framework for Teaching,由中国轻工业出版社于2005年引进国内。

6 英文报告名 The Widget Effect: Our National Failure to Act on Differences in Teacher Effectiveness(Weisberg, Sexton, Mulhern, & Keeling, 2009)

7 增值测量,英文缩写VAMs,Value-Added Measures,通过将学生在一段时间内,与同一抽样中其他学校的起点相似的学生相比,所取得的某方面或各方面的相对进步。

8 英文名 Marianne Bitler, Sean Corcoran, Thurston Domina, and Emily Penner(2019)

9 英文名 Matthew A. Kraft and Allison F.Gilmour(2017)