2019

VOLVIENDO A LOS FUNDAMENTOS

Descubriendo la Verdad

Comprendiendo las fuentes de variación en el análisis estadístico

por Arved Harding

¿Ha usted analizado un conjunto de datos con el objetivo de comparar las desviaciones estándar de dos grupos? Este objetivo estadístico com�nmente suele abordarse con pruebas tales como la rutinaria prueba F, o pruebas de mayor sofisticación como la prueba Levene-Brown-Forsythe o la prueba de Bonnett. Algunas personas pueden incluso detenerse a verificar la normalidad y otros supuestos antes de proceder con sus pruebas de hipótesis. ¿Pero podríamos encontrar algo más sobre los datos?

Por ejemplo, trabajé en un proyecto que tenía una historia más profunda que sólo el valor p de una simple prueba F. Un fabricante de piezas estaba desarrollando un nuevo proceso para hacer su producto más consistente y esperaba que este nuevo método disminuiría la variación observada en la métrica clave de rendimiento del producto. Once muestras fueron hechas usando el nuevo proceso experimental, y fueron comparadas a los datos históricos disponibles mediante una prueba F tradicional.

La prueba F con valor p igual a 0.044 indica una diferencia estadísticamente significativa en las desviaciones estándar con una confianza superior al 95% (véase la Tabla 1 en línea). Por lo tanto, usted podría concluir que hay suficiente evidencia para apoyar la hipótesis de que el nuevo método disminuye la variación del proceso.

Tabla 1

Entonces, ¿qué hay de malo en esta conclusión? A primera impresión, parece correcta. El valor p es menor que 0.05. La Figura 1 muestra un buen histograma que superpone los datos, lo que proporciona un testimonio positivo para el nuevo método. Pero una mirada más cercana a los datos y las fuentes potenciales de variación revela que los 32 puntos de datos procedentes del conjunto de datos históricos ocultan algunas cuestiones importantes.

Figura 1

Se utilizaron cinco fechas diferentes de recolección de muestras para los datos históricos (véase la Figura 1 en línea), pero sólo se utilizó una fecha durante los datos experimentales. La recopilación de datos para varios periodos de tiempo distintos es una buena idea, ya que le permite comprobar la variación día a día o incluso factores tales como la variación entre los turnos de trabajo.

Figura 1 en línea

El análisis de los componentes de la varianza de los datos históricos mostró que el 64.4% de la variación se debió a la fecha de recolección de la muestra (ver Tabla 2 en línea). Debido a que el proceso experimental sólo se ejecutó en un día, no hay estimación de la variación día a día para el proceso experimental. Es posible que, si el proceso experimental se ejecutó en unos días diferentes, podría observarse mayor variación general. Aunque extraer conclusiones de nuestra comparación inicial de las desviaciones estándar puede al principio parecer estadísticamente correcto, podría muy bien no ser la conclusión acertada de los datos y el problema en cuestión.

Tabla 2

Tabla 3

¿Qué pasa si tomamos un enfoque de análisis diferente y sólo comparamos la "variación de la fecha de recolección de la muestra" para los dos métodos? A partir de sólo el análisis de componentes de la varianza de los datos históricos, la Tabla 2 en línea muestra para los datos agrupados dentro de la fecha de recolección una desviación estándar igual a 6.72. Con tamaños de muestra variables en las fechas de recolección de muestras, los grados de libertad para los datos históricos serían la suma de los n-1 para cada día o 27.

Las 11 muestras de los datos experimentales sólo se recolectaron en un día, por lo que se utilizaron todos los datos para estimar la desviación estándar de lo que estaba dentro de una fecha de recolección y 10 grados de libertad. La prueba F para los datos agrupados (véase la Tabla 3 en línea) no indicó diferencia significativa entre los dos métodos (p = 0.537). Utilizando este enfoque combinado, no hubo pruebas sólidas que apunten a que el nuevo método sea superior. Se aconsejó al equipo recolectar conjuntos adicionales de datos del método experimental y realizar un análisis similar más adelante.

Para evitar que este problema se repita, siempre haga preguntas acerca de los métodos de recopilación de datos, especialmente si no está involucrado directamente en ese paso. Es importante comprender las posibles fuentes de variación antes de realizar un análisis estadístico. Recuerde las tres reglas principales de análisis de datos: graficar los datos, graficar los datos y graficar los datos.


Arved Harding es un asociado estadístico senior para Eastman Chemical Co. en Kingsport, TN, y un instructor adjunto en el Northeast State Community College en Blountville, TN. Obtuvo una maestría en estadística de Virginia Tech en Blacksburg. Harding es un miembro senior de ASQ y un ingeniero de calidad certificado por ASQ.


Average Rating

Rating

Out of 0 Ratings
Rate this article

Add Comments

View comments
Comments FAQ


Featured advertisers