El uso de tests de significación estadística para determinar si una hipótesis es confirmada o refutada es probablemente una de las estrategias científicas más arraigadas en la investigación. Y, no obstante, la práctica común de aportar la significación estadística de un contraste, relegando la importancia del tamaño del efecto encontrado, es un pobre proceder científico, ya que con un número suficiente de casos (y con medidas suficientemente fiables), casi todas las hipótesis nulas pueden eventualmente ser rechazadas, al margen de que sea o no sustantivo el efecto encontrado.

La significación estadística de los coeficientes está estrechamente relacionada con el tamaño de la muestra. Así, un tamaño de muestra grande generalmente hace que, incluso coeficientes de regresión de reducida magnitud entre variables (por ejemplo, β=0.04), alcancen la significación, mientras que, con una muestra pequeña, un coeficiente de regresión grande (por ejemplo, de β=0.50) podría no ser significativo. Valorar un hallazgo investigador por el mero hecho de superar la barrera de la significación del .05, no parece muy inteligente cuando sabemos que lo único que eso simboliza es que el efecto es no nulo; nada dice sobre la magnitud o tamaño del efecto.

Pese a ello, a menudo nos encontramos con que un resultado significativo es aprovechado, al menos implícitamente, para indicar que tal efecto es importante. Es más, si un resultado es altamente significativo (por ejemplo, p<0.001), la tentación de caer en esa interpretación se hace poco menos que irresistible (Cohen, 1992). Para huir de tal tentación e ir más allá de la significación estadística, es crucial considerar el tamaño del efecto encontrado al interpretar los resultados de un análisis. En este sentido, como señala Cohen (1992): “La persistente desatención hacia el tamaño del efecto parece estar llegando a su fin. El torpe y sobre todo inválido método del recuento en las revisiones de literatura, basado en los valores p, está siendo reemplazado por el meta-análisis, basado en los tamaños del efecto”. Para este tipo de análisis, el hecho de si se supera o no el 0.05 en una investigación no es particularmente relevante.

Además, la decisión de confirmar o refutar una hipótesis atendiendo estrictamente a si un coeficiente sobrepasa o no un valor de p=0.05 es un tanto torpe, en el sentido de que tal valor no es un precipicio, sino un punto de referencia conveniente a lo largo de un continuo.

Entre las recomendaciones mínimas a seguir para arrinconar el problema aludido, cabe señalar dos. La primera de ellas es acompañar las pruebas de significación con la cuantificación de la magnitud del efecto alcanzado. Como dice Cohen (1992), debemos comprender que el producto primario de una investigación cuantitativa no es un valor de la “p”, sino una o más medidas del tamaño del efecto. El estadístico f2 es el más utilizado para el caso de la regresión, valor que se estima a partir del R2 y para el que existen referencias con las que comparar. La segunda, es reportar los intervalos de confianza. Un intervalo de confianza proporciona el rango de valores del índice del tamaño del efecto que incluye el valor de la población con una determinada probabilidad. Incidentalmente informa sobre si el efecto es significativo, pero dice mucho más: proporciona una estimación del rango de valores que puede tener, un dato ciertamente útil (Cohen, 1992).

En definitiva, si la investigación científica aspira a generar conocimiento relevante, no puede conformarse con alcanzar un umbral arbitrario como el p<.05. Es hora de que el foco se desplace hacia lo que realmente importa: la magnitud del efecto, su contexto, y su interpretación sustantiva. Solo así podremos avanzar hacia una ciencia más útil. La significación estadística no es el final del camino, sino apenas el comienzo de la interpretación.

Cohen, J. (1992). Cosas que he aprendido (hasta ahora). Anales de Psicología/Annals of Psychology8(1-2), 3-18.

 

Ana Isabel Rodríguez Escudero