4 riesgos que pueden afectar la validez de evaluaciones de impacto

Las evaluaciones dependen de ciertos supuestos para estimar los impactos de los programas. Cuando estos no se cumplen, los resultados obtenidos pueden estar sesgados y no ser válidos.

18 de mayo de 2018

A continuación, describimos algunas situaciones que pueden incidir negativamente sobre la validez de una evaluación de impacto, sus consecuencias y algunas recomendaciones para afrontarlas.

Cumplimiento imperfecto del tratamiento: cuando diseñamos una evaluación de impacto, asumimos que todas las unidades asignadas al grupo de tratamiento efectivamente lo reciben, y que ninguna unidad del grupo de control es tratada. Sin embargo, en la práctica, es posible que las unidades asignadas al grupo de tratamiento decidan no participar en el programa o que, por algún motivo se ofrezca participación al programa a las personas que forman parte del grupo de control.

Qué podemos hacer: en primer lugar, es importante identificar las personas asignadas al grupo de control que fueron tratadas y las que, a pesar de ser asignadas al grupo de tratamiento, no lo recibieron. Cuando ocurre alguna de estas situaciones, una de las posibilidades, es calcular el impacto del programa sobre la proporción de personas “cumplidoras”, es decir, aquellas que, independientemente del grupo al cual fueron asignadas, recibieron el tratamiento. Por ejemplo, con el Servicio de Administración Tributaria del Municipio Sucre, enviamos correos electrónicos para promover el pago del impuesto sobre vehículos e inmuebles, sin embargo, algunos contribuyentes asignados al grupo de tratamiento no recibieron la notificación de cobro debido a que el correo era inválido. Para estimar el efecto sobre la probabilidad de pagar el impuesto, se tomaron en cuenta los contribuyentes que efectivamente sí abrieron el correo, es decir, fueron tratados.
Efectos conductuales indeseados: cuando las personas saben que fueron asignadas al grupo de tratamiento o de control, pueden modificar su comportamiento y afectar la validez de los resultados de la evaluación; estos efectos son conocidos como el efecto Hawthorne y el efecto John Henry. El primero ocurre cuando las personas asignadas al grupo de tratamiento saben que forman parte de un experimento y que están siendo observadas, y en consecuencia modifican su comportamiento. Por ejemplo, en CAF -banco de Desarrollo de América Latina- estamos evaluando el impacto del patrullaje focalizado en escuelas sobre la incidencia de crimen en Campo Grande, Brasil. Si los policías saben que forman parte de un experimento, podríamos esperar que, los que fueron asignados al programa, se esfuercen más por el simple hecho de sentirse observados o ser parte de la iniciativa. Por el contrario, el efecto John Henry ocurre cuando las personas que forman parte del grupo de control se esfuerzan más por el hecho de no ser tratadas. En presencia de este efecto, se podría estar subestimando el impacto real del programa.

Qué podemos hacer: para mitigar este riesgo, es importante evitar que las personas tengan información sobre la implementación del experimento para que no modifiquen su comportamiento.
Efecto derrame: se produce cuando el programa afecta, negativa o positivamente, a una unidad que forma parte del grupo de control. Cuando esto ocurre, la comparación entre los grupos no representa correctamente qué hubiese ocurrido con los participantes de un determinado programa de no haber recibido la intervención, es decir, disminuye la validez del grupo control. Por ejemplo, un programa de vacunación contra la malaria en una comunidad puede disminuir la probabilidad de infección en las comunidades adyacentes. Si estas últimas las usamos como grupo control para estimar el impacto del programa, estaríamos subestimando el efecto del mismo.

Qué podemos hacer: Cuando se sospecha que pueden existir efectos derrame en una determinada intervención, se recomienda escoger unidades de intervención más agregadas o diseñar evaluaciones de impacto que tomen en cuenta los posibles efectos indirectos sobre los grupos no tratados. En el segundo caso, se deben establecer dos grupos de control, uno que potencialmente se verá afectado por los efectos derrame y otro que no. Por ejemplo, en Colombia se realizó una evaluación del patrullaje focalizado en puntos calientes con un diseño experimental que tomó en cuenta los posibles efectos derrame de la intervención sobre las zonas adyacentes. De acuerdo con los resultados, el crimen disminuyó en las calles tratadas pero aumentó en las calles cercanas. Este tipo de diseños permite estimar el efecto real y entender mejor los mecanismos a través de los cuales se generan determinados resultados, así como sus implicaciones para el diseño de políticas públicas.
Desgaste de la muestra: se produce cuando no es posible contactar a ciertas unidades que formaban parte de la muestra de la evaluación y no podemos obtener información sobre las mismas para estimar los impactos del programa. Este riesgo se ha presentado con cierta frecuencia en las evaluaciones de los programas de fútbol para el desarrollo que hemos realizado. Debido a que estos programas están dirigidos a poblaciones vulnerables que tienden a movilizarse con frecuencia, no fue posible encuestar al finalizar la intervención, a una determinada proporción de hogares asignados al grupo de control.

Qué podemos hacer: Existen dos tipos de acciones para este caso, preventivas y reactivas. Entre las medidas preventivas, se recomienda solicitar información adicional al realizar levantamientos primarios, como por ejemplo el número telefónico de familiares o amigos cercanos que puedan ser contactados en caso de que no se ubique alguna unidad incluida en la muestra, así como estimar ex ante alguna tasa de desgaste y tomarla en cuenta a la hora de definir el tamaño de la muestra. Por su parte, las medidas reactivas consisten en identificar las unidades perdidas y verificar que las características de línea de base sean estadísticamente iguales a las de las unidades que permanecieron en la muestra. Del mismo modo, se debe verificar que la proporción, o “tasa de desgaste”, sea similar en ambos grupos. Si estas condiciones no se cumplen, se recomienda utilizar otros métodos estadísticos para estimar los resultados.

Es importante tomar en cuenta estos riesgos al momento de diseñar una evaluación y estimar los impactos, ya que se podrían obtener resultados sesgados o inválidos que no capturen el impacto real de la intervención.