3 claves sobre el poder estadístico en las evaluaciones de impacto
Los resultados de las evaluaciones de impacto usualmente se traducen en decisiones de política pública. El "poder estadístico" es uno de los elementos que permite asegurar que dichos resultados sean realmente el reflejo del impacto de la política evaluada.
¿Es lo mismo recuperar una careta de buceo en una piscina que en el fondo del mar? Si perdemos la careta en una piscina, posiblemente podremos recuperarla nosotros mismos o con la ayuda de un compañero. Sin embargo, perder una careta en el fondo del mar es más complicado. Probablemente necesitaremos varias personas ayuden a recuperarla, de lo contrario, es posible que afirmemos que está perdida cuando realmente sigue muy cerca de nosotros.
El poder estadístico es representado por la cantidad de personas con las que contamos para recuperar nuestra careta de buceo, dado que no está perdida. Desde el punto de vista estadístico, el poder se define como la capacidad que tiene un determinado estudio de detectar los efectos de una intervención cuando realmente generó impactos sobre el grupo tratado. Uno de los determinantes más importantes del poder estadístico es el tamaño de la muestra del experimento, mientras más grande sea, más precisas serán las estimaciones, y los investigadores tendrán mayor probabilidad de detectar los impactos de la intervención evaluada en caso de que efectivamente existan.
A continuación, describimos tres claves sobre el rol del poder estadístico y su importancia frente a los resultados derivados de las evaluaciones de impacto.
1. Una evaluación con bajo poder estadístico es inconclusa
Si el tamaño de la muestra del estudio es muy pequeño, es posible que, a pesar de que la intervención haya tenido efectos, no podamos detectar los impactos sobre la variable de interés. Por lo tanto, existe un alto riesgo de que los servidores públicos descarten programas que en realidad fueron efectivos y generaron cambios significativos sobre el grupo de tratamiento. Al mismo tiempo, la inclusión de esta falsa evidencia en la literatura podría desmotivar la implementación de programas similares en el futuro. En ese sentido, una evaluación de impacto que no cuente con poder estadístico para detectar efectos no puede llegar a resultados concluyentes ya que, si no se detectan efectos, no es posible diferenciar la inefectividad de la política (pérdida de la careta) de la falta de poder estadístico (número insuficiente de personas para recuperarla).
2. Los cálculos de poder permiten determinar el tamaño de muestra ideal o definir el efecto mínimo que podremos detectar
En el mundo de las políticas públicas existen restricciones presupuestarias que pueden limitar el número de beneficiarios de un programa o el alcance que tendrá el levantamiento de información asociado a la evaluación. Para asegurar costo-efectividad, es posible realizar cálculos de poder ex-ante y definir el tamaño de muestra ideal o el efecto mínimo que podemos detectar, dada una muestra determinada.
Si la muestra está definida y no es posible ampliarla, los cálculos de poder nos ayudan a estimar el efecto mínimo de la intervención que teóricamente podremos detectar dadas esas restricciones. Mientras menor sea el efecto mínimo detectable, mayor es el poder estadístico de la evaluación.
Para ilustrar esta afirmación, volvamos al ejemplo: mientras mayor sea el número de personas que nos ayudarán a recuperar la careta, más capacitados estaremos para recuperarla, independientemente de que se pierda en una piscina o en el mar. Imagine que solo contamos con dos personas, en una piscina probablemente nos defenderemos bien pero si resultamos estar en el mar, seguramente no la lograremos recuperar. Es decir, si el efecto efectivo de nuestra política termina siendo pequeño y no contábamos con poder estadístico, es posible que no podamos observarlo, corriendo el riesgo de afirmar que no hubo impactos, cuando en realidad sí los hubo.
Los cálculos de poder nos dan información sobre la capacidad que tenemos para detectar impactos antes de realizar la intervención. A partir de estos datos, podemos determinar si tenemos suficiente poder estadístico como para identificar efectos grandes o muy pequeños.
3. El tamaño de la muestra es clave, pero otros elementos también deben ser considerados
A pesar de ser un elemento determinante, el tamaño de la muestra y el efecto mínimo que esperamos detectar a partir de la evaluación, no son los únicos factores relevantes. El poder estadístico también está relacionado con el diseño de la evaluación (si hay uno o varios grupos de tratamiento) y con el nivel de aleatorización, es decir, cuando la asignación a tratamiento o control se realiza por grupos (escuelas, municipios, hospitales) y no a nivel individual. Además, es posible que exista riesgo de incumplimiento y contaminación o una alta tasa de desgaste. Todos estos elementos inciden sobre el tamaño de muestra efectivo y, por ende, en el poder estadístico. Próximamente, describiremos en detalle esta relación y sus implicaciones.
Los resultados de una evaluación de impacto pueden tener implicaciones significativas en las decisiones de política pública, por lo tanto, asegurar que estos resultados reflejen realmente el impacto de los programas es fundamental. En este contexto, el poder estadístico es un elemento clave a considerar por los encargados de llevar a cabo la evaluación.