简单谈一下 我本人对空间双重差分模型(Spatial Difference in Difference Model, SDID
)几点或许不太成熟的理解。
(本文首发于个人微信公众号 DMETP
,欢迎关注!)
一、从聚类标准误到空间相关性
当使用面板数据进行固定效应模型估计时,考虑到组间异方差和组内自相关,我们必然需要将标准误进行聚类调整。一般来说,聚类调整后的标准误大于异方差稳健标准误,而异方差稳健标准误大于普通标准误,因此, 根据聚类标准误做出来的结果是相对最稳健的,这里所说的稳健,指的是系数显著性稳健,因为标准误影响t值,而对系数的本身影响不大。
然而,将标准误聚类调整到什么层次是一个问题。当将个体( id
)作为聚类依据时,即假定每个个体不同年份的干扰项存在相关性(组内自相关),而不同个体的干扰项不存在相关性(组间不相关)。但是,这样的假定可能不符合现实情况,比如,对于微观企业来说,同一行业的企业之间必然存在竞合关系,此时同一行业不同企业之间就存在相关性,在这种情况下,将标准误聚类调整到行业层面可能更合理。因此, 为了得出更稳健的结果,也为了说服苛刻的读者(或审稿人)接受我们根据实证结果得出的结论,将标准误聚类到更高层级是一种更安全的做法,当然,聚类层级越高系数越不显著。
然而,有时候我们没有甚至不能将标准误聚类到更高层级。除了显著性与稳健性之间的权衡,更多的原因在于聚类层级越高聚类数目越少,而大样本理论要求聚类数目足够大,这样才能保证所估计的标准误收敛到真实值(Petersen,2009),根据拇指法则,聚类数少于30可能就不太合适了。
退而求其次, 为了同时兼顾聚类层级与聚类数目,有些文献将标准误聚类到行业-年份层面(在 Stata
中可以利用分组函数 group
生成聚类变量再在回归中进行聚类调整,即:先 egen ind_year = group(industry year)
,然后 reghdfe y xlist, absorb(id year) cluster(ind_year)
),如李青原和章尹赛楠(2021)、邵朝对等(2021),即假定同一年同一行业之间存在自相关,而不同年或不同行业之间不存在自相关。
参考文献:
[1] Petersen M A. Estimating Standard Errors in Finance Panel Data Sets: Comparing Approaches[J]. Review of Financial Studies, 2009, 22(01): 435-480.