¿Cómo extraer aprendizajes de un resultado “no significativo”?

Cuando los servidores públicos se embarcan en una evaluación de impacto esperan obtener respuestas que les permitan confirmar que los resultados de una política sobre los beneficiarios están en línea con lo esperado o, de lo contrario, tener certeza de que la intervención no soluciona el problema. Los resultados nulos o “sin significancia estadística”, por su parte, tienden a transmitir incertidumbre, a pesar de tener el potencial de ser igualmente informativos.

24 de septiembre de 2019

Determinar el efecto de un programa a través de una evaluación de impacto pasa por realizar una prueba estadística para calcular la probabilidad de que el efecto observado, o la diferencia entre los grupos de tratamiento y control, sea resultado del azar. Si dicha probabilidad es lo suficientemente baja, entonces la diferencia entre los grupos es real (o estadísticamente significativa) y, por lo tanto, el programa tiene un impacto -positivo o negativo-. Cuando la probabilidad no cumple con esa característica, el resultado del programa es nulo, es decir, no hay una diferencia estadísticamente significativa entre los grupos de tratamiento y control.

Los resultados nulos por sí solos no generan una respuesta concreta, es posible que la intervención realmente no tenga ningún efecto, pero tampoco se puede descartar la posibilidad de que la evaluación de impacto no haya tenido el poder estadístico necesario para detectarlo. Cualquiera sea el caso, un resultado nulo esconde información (asociada a la calidad de la implementación, el take-up de los beneficiarios, el poder estadístico, etc.) que puede generar aprendizajes valiosos para la toma de decisiones en la gestión pública, siempre y cuando se cuente con los insumos necesarios para extraerlos. Para disponer de esta información, resulta útil realizar algunas actividades que complementen la evaluación de impacto y ayuden a explicar los resultados nulos en caso de presentarse:

Realizar una evaluación de diseño: un resultado nulo puede ser consecuencia de una intervención no alineada al contexto ni a la teoría de cambio, a través de la cual se espera generar los impactos. La realización de una evaluación de diseño antes de iniciar la implementación del programa, permitirá asegurar que los supuestos y mecanismos sobre los cuales se basa la teoría de cambio sean los adecuados y se ajusten al contexto, con el fin de generar los impactos deseados sobre la población objetivo.
Levantar información de la implementación: la mala calidad de la implementación y/o el limitado nivel de participación de los beneficiarios también pueden resultar en impactos nulos porque, frente a estas barreras, no se llegan a cumplir las actividades ni los mecanismos definidos en la teoría de cambio. Monitorear la implementación por medio del levantamiento de información es clave para verificar que todas las actividades se están realizando y los beneficiarios que está recibiendo el programa. Complementar esta información con una evaluación cualitativa puede, igualmente, agregar valor y ayudar a explicar los resultados detrás del impacto. Los datos obtenidos, a partir de ambos insumos, ayudarán a verificar la implementación y ofrecer respuestas frente a resultados nulos.
Calcular el poder estadístico antes y después de la intervención: el poder estadístico permite determinar el efecto mínimo que se podrá detectar dada una muestra determinada. Estos cálculos son usualmente realizados antes de iniciar la evaluación para verificar cuál es el efecto que se podrá detectar, dado un número de unidades beneficiarias. Resulta útil realizar nuevamente el ejercicio al finalizar la implementación utilizando los datos reales de la población objetivo, para ajustar los cálculos de poder iniciales. Si el efecto obtenido es menor al efecto mínimo detectable de dicho ejercicio, es posible concluir que no fue posible detectar el impacto por el bajo poder estadístico. Además, el efecto de un programa puede variar entre grupos dentro de la muestra (por ejemplo, entre mujeres y hombres), por lo que verificar los cálculos para estos grupos también puede dar luces sobre efectos heterogéneos de la intervención.

A veces, sin saberlo, quienes realizamos evaluaciones de impacto estamos sesgados en contra de los resultados nulos y, por eso, esperamos que los programas evaluados estén generando los impactos deseados, y con ello subestimamos la información y respuesta que se puede extraer de los resultados no significativos, los cuales requieren de una mayor reflexión sobre la intervención, los mecanismos y resultados que estuvieron en juego. Es cierto que las actividades destacadas requieren de tiempo, recursos y esfuerzo adicional, pero también asegurarán que, cualquiera que sea el resultado, será posible obtener insumos útiles e informativos para la gestión pública.