我*认为*我已经弄清楚了霍瓦特为了得到他没有解释的结果所做的大部分工作。 我将通过使用他的四年级数学成绩来解释。 我拿了他的图表并进行了数字化,这引入了一小部分误差,因为他的图表分辨率有点低。这里的误差量很小。然后,我通过编程搜索他的规范。我通过循环可能性接近了。 我匹配了斜率,我的RMSE在点上在所谓的数字拐点之前很小。之后,它稍微大了一点,因为不太清楚他到底做了什么。但为了达到我所接近的程度,我必须: - 按照他所述的拐点年份相对的2年事件时间对分数进行分箱 - 排除2022年(他只是理论上,但没有统计上证明) - 剔除佛罗里达州的最外层分箱 - 使用事件时间作为x而不是分箱中点 这给出了他确切的斜率:在数字拐点之前为1.08,之后为-0.28。 但如果我们撤销所有为了到达这里而做的任意决定呢? 如果我们使用分箱中点而不是平均事件时间,我们的结果变为1.06/-0.27。影响不大。如果我们在斜率中包括佛罗里达州的后分箱,我们的结果变为+1.08/-0.33。如果我们包括2022年,我们的结果变为+1.08/-0.76。如果我们包括1992/1996年的佛罗里达州,我们得到+1.08/-0.28。如果我们保留N = 1的分箱而不是剔除它们(我们不应该这样做,因为它们是可靠的,因为它们是整个州!),我们得到+1.05/-0.25。如果我们使用分箱中点和所有后分箱,我们得到+1.06/-0.33。 如果我们结合这些因素并进行最合理的分析,考虑到数据,我们得到+1.04/+0.10,斜率确实减少,但我们本来就期待什么呢?如果前趋势保持不变,外推将达到256.3分,这比任何单个州的得分都要高。 前趋势+1.08/年并不是一个合理的反事实。相反,这是一个从1990年代到2000年代的追赶趋势,已经在任何州采用数字教学之前就已经减速(看看吧!)。将其向前外推并将其视为真实的差距或“损失”证据,是将天花板效应归因于教育科技。 此外,霍瓦特错误的真正关键在于: 他在数据中摸索,直到找到一个设计,恰好重述国家趋势,而不考虑因果关系!76%的州在2014-16年有拐点年份,他剔除了最远的条目(佛罗里达州/德克萨斯州),因此围绕拐点年份进行中心化并在各州之间取平均几乎与围绕2015年进行中心化并取平均相同。前趋势是1990年代到2010年代中期的国家NAEP改善,后趋势是国家的停滞和下降,排列测试证实了这一点:在各州之间随机打乱拐点年份会给出相同的模式! 事实上,霍瓦特做出的决定有效地保证了他的结果最终只是国家趋势的重新绘制,因为他通过排除佛罗里达州和德克萨斯州而削弱了他的统计能力,从而消除了36%的拐点日期方差。 这绝不是一个可信的分析。唯一真正可信的分析是佛罗里达州的合成控制研究。这是唯一具有识别变异的分析,因为佛罗里达州在2011年采用,比全国大部分地区早四年。而佛罗里达州在采用后*超越了*其合成控制!...