Ermistatas和Stata的ERM新命令

0 评论

Ermistatas是我们目前更受欢迎的T恤。看到它,您就会明白为什么。

我们称这个角色为Ermistatas,他正在思考——Ermistatas cogitatu。注意他的三个天线发射器和接收的电螺栓。即使在那些不使用Stata的人中,这件衬衫也很受欢迎,并引导他们提问。“谁或什么是Ermistatas,为什么他、她或者它应该得到一件T恤?”然后他们补充说,“为什么是三个而不是通常的两个触角?”

 

Ermistatas是我们艺术和图形部门的作品,代表Stata 15的新命令,用于拟合扩展回归模型——我们创造的一个术语。 我们简称ERMs。新命令是:

eregress fits linear regressions
eintreg fits interval regression
eprobit fits binary-outcome probit regression
eoprobit fits ordinal-outcome probit regression

 

Ermi有三个触角,因为新命令可以处理通常不能一起处理的三个问题。我将使用内生这个词来描述它们,但如果您不使用这个词,我已经包含了其他描述。ERM处理的问题是

  1. 内生协变量或

与误差相关的协变量

  1. 内生选择或
    非随机选择或

非随机缺失

  1. 外生性和内生性治疗分配或
    随机和非随机治疗分配

如果您正在阅读替代性描述,就知道当经济学家使用内生一词时,他们的意思是“与模型的错误相关”。相关性的原因可以变化。变量可能是内生的,因为它的值是主体先前选择动作的结果,或者存在影响变量和结果的未观测到的混淆因素,或者变量仅通过误差进行测量。

 

如果我的话没有使您兴奋,我并不感到惊讶。因为我不知道如何用几句话来激励您,所以我打开了T恤的图片,希望它能让您继续阅读。

 

为什么hullabaloo

Stata和其他统计软件包具有拟合内生协变量,样本选择和非随机处理分配的模型的特征。到目前为止,他们无法处理三者的组合。hullabaloo的另一个原因是ERM命令非常容易使用。尽管如此,我们还是要写一本258页的手册。这就是原因。

 

ERM可以做什么?

想象一下如何拟合模型

如果y,x1,x2等的值满足通常的假设,则不需要ERM,这相当于它们与错误不相关。当y是连续的时,使用通常的线性回归命令,当y是二进制概率时,通常的probit命令,依此类推。

 

其他时候,情况并不像您希望的那么简单在这些情况下,大多数研究人员在模型中引入了现实情况所需要的复杂性。这是一种有用和富有成效的方式。

 

事实上,x1的值是受试者做出选择的结果—这是他们的学校教育—如果是,它是内生的,您将无法使用通常的命令来适应模型,因为还有其他,混淆影响y和x1的变量z。

 

或者可能只有选择做某事的受试者才能观测到y,例如找工作。这是James Heckman在2000年获得诺贝尔奖的样本选择问题。

 

或者可能是x2记录参与了肾癌的新治疗,并且医生只有在他们判断它将比传统治疗更有益于患者时才会为患者选择治疗。

 

如果遇到部分或所有这些问题,您将很容易使模型复杂化,以解决实际情况所带来的问题。

 

我希望您们以不同的方式进行,尽管是等同的。我希望您们考虑希望拥有的数据上拟合方程式,其中x1,y和x2没有我刚才描述的问题。实验对象没有选择x1;他们的教育水平是随机选择的。所有实验对象都观测到了y,不是因为他们选择了工作; 他们被迫工作。医生没有为他们认为有益的患者选择治疗x2;x2是随机选择的。在今天的现代世界中,这一切都不可能实现,谢天谢地,但把它放在一边。如果数据是通过这样的过程创建的,那么只需按常规方式拟合等式即可。您会拟合的获得的系数将是在另一个世界中观测到的。

 

接下来,我想让您考虑一下您的数据。它是由数据生成过程(DGP)创建的,即具有所有复杂性的现实。您可以考虑一下DGP给您带来的所有问题。以这种方式思考ERM的方式。EMS在本质上是简单的。它得到了(b0,b1,…,bK)的值。

如果数据没有DGP所引入的问题,那么ERMs所获得的值就是那些被观测到的值。您必须告诉ERMs有关DGP的信息,这样它就可以从真实数据中分离出系数,但是ERMs会这样做,并报告替代世界的结果。ERMs还将报告关于合适的DGP的信息,但是除了一件事之外,这些信息基本上是无用的。在对y进行预测时,您可以在替代世界获得预测,或者获得关于DGP的任何并发症的预测,无论是单独的还是一起的。

 

简而言之,这就是ERM。ERM提供

  1. 在内源变量所在的世界中,(b0,b1,…,bK)的拟合值不是内生的,样本选择没有发生,并且处理是随机分配的。
  2. 许多其他拟合系数与DGP有关。
  3. 能够在另一个世界中做出预测,以及通过重新引入DGP的任何影响来做出预测的能力,甚至比DGP的影响更大或更极端。

 

我经常说统计学家很少回答研究人员提出的问题。如果研究人员问,“拟合系数为0.1或更大的几率是多少?”,统计学家回答说:“我无法回答这个问题,但我可以回答另一个问题,如果您站在您的头上眯着眼睛,这是有关系的。” ERMs是统计学家提供了您想要的东西的例子。唯一的代价是您必须要有不同的想法,并谨慎一些。

 

您可以通过常规方式考虑方程系数和标准误差的报告,即使它们是统计学家(并且只有统计学家)希望存在的另一个世界。如果您想要重新引入DGP的问题的答案,就必须使用Stata的predict, margins或其他命令,这些命令将使用ERMs所提供的预测值及其标准误差来进行计算。这比听起来更容易。对于治疗效果的建模者,ERMs提供了计算ATET,ATEU和POMEANS的命令(治疗中的平均治疗效果,未治疗中的平均治疗效果和潜在结果均值)。显然,如果只有一个治疗效果的问题,Stata会提供其他命令,但这些命令无法解决这个问题:拟合内生性治疗臂模型,在治疗臂分配后随访观测丢失,并且如果您的数据足够丰富,则可以解释某些患者吸烟前的(内源性)选择。ERMs可以做到这一点。

相关软件
Stata是一套提供其使用者数据分析、数据管理以及绘制专业图表的完整及整合性统计软件。Stata期刊是一个季度出版包含文章统计,数据分析,教学方法,有效地使用Stata的语言。