Anexo C. Comparación entre EM y MCMC y evaluación de la convergencia y de la dependencia de la imputación de datos

AutorAlfonso Serrano Maíllo
Cargo del AutorDoctor en Derecho por la Universidad Complutense de Madrid
Páginas311-321

Page 311

Más arriba hicimos una más bien breve referencia a las características y asunciones de nuestra imputación de datos perdidos. Debido a la sofisticación de este procedimiento, es menester profundizar algo más en ello, sobre todo en el último punto. En efecto, casi todos los procedimientos estadísticos complejos hacen una serie de asunciones, a menudo muy fuertes, que es menester revisar de modo riguroso. Recordemos que también en los aspectos metodológicos debe seguirse el principio de parsimonia, y sólo violentarlo cuando existan buenas y suficientes razones para ello.

Una fórmula alternativa a EM -la que hemos utilizado en todo este libro, a excepción de este epígrafe- es la que utilizamos ahora. Con ello se aspira, en primer lugar, a repetir nuestro análisis de regresión más importante utilizando una modalidad próxima pero alternativa para la imputación. En segundo lugar, SAS ofrece formas avanzadas de testar algunas de las asunciones de la imputación (múltiple) que parecen indispensables. El presente análisis que mostramos en este Anexo C, así las cosas, recurre al procedimiento PROC MI de SAS. Para sus detalles técnicos nos remitimos a la literatura especializada y a las publicaciones y manuales del propio paquete estadístico. Sus fórmulas siguen el trabajo de Schafer, al cual también nos remitimos para estos relevantes detalles1.

En efecto, una de las estrategias aconsejadas por la literatura más reciente para afrontar los problemas de datos perdidos es la imputación múltiple. La misma es superior a otros procedimientos modernos y también lo es bajo muy diversas circunstancias. Desde los importantes trabajos de Rubin2, la imputación múltiple se está afianzando entre las estrategias contemporáneas para tratar información con datos perdidos.

En la actualidad, la imputación múltiple comienza a ser aplicada en la práctica científica con una cierta, creciente intensidad. Algunos autores,

Page 312

como Rubin, afirman que está «floreciendo»3 y Cummings y Fichman llegan a sugerir su consideración de modo rutinario4. Curiosamente, la idea originaria de Rubin era que la imputación múltiple fuera utilizada en el caso de encuestas complejas de las que se derivaran matrices de datos públicas, compartidas, que serían utilizadas posteriormente por una comunidad de investigadores. Estas bases manejarían por lo general muestras relativamente grandes. Es decir, que este autor tenía en mente una división del trabajo, en la que un primer equipo crearía la base de datos con imputaciones para los datos perdidos y, posteriormente, investigadores con objetivos concretos recurrirían a la misma5. En la actualidad, sin embargo, son relativamente frecuentes también los casos en que los investigadores llevan a cabo ambas fases del proceso -imputación de datos perdidos y análisis. Una de las consecuencias es que las posibilidades se abren para muestras relativamente más pequeñas y para usos más restringidos; así como que -como vamos a ver, y por el elemento aleatorio que se introduce- los mismos datos originarios pueden arrojar resultados distintos en investigaciones independientes. Esto último no es privativo, sin embargo, de este expediente.

En Criminología, este problema y las potenciales herramientas sofisticadas para afrontarlos, incluida la imputación múltiple, ha encontrado abonado campo, por ejemplo, en el estudio de homicidios, entre otros motivos porque estos delitos suelen ser relativamente poco numerosos -aunque aquí la literatura sugiere que la pérdida de datos tiende a no ser ignorable6.

La imputación múltiple tiene, en realidad, propiedades semejantes a los procedimientos de máxima verosimilitud7, con las ventajas de resultar más versátil y ser aplicable a un número superior de tipos de datos y modelos así como, quizá, de una potencial mayor robustez. En concreto, el recurso a un método de imputación no determinista ofrece trabajar con errores aleatorios apropiados en el proceso de imputación, y de este modo obtener estimaciones paramétricas aproximadamente insesgadas, todo ello siguiendo a la doctrina. Otra ventaja importante de acuerdo en el planteamiento de este trabajo, favorable a una parsimonia entendida de modo amplio -ventaja compartida por la máxima verosimilitud-, es que estos análisis pueden hacerse recurriendo a paquetes estadísticos convencionales como SAS u otros de acceso gratuito como NORM8.

Asimismo, desde luego sin intención de exhaustividad, los procedimientos de

Page 313

imputación múltiple pueden reducir el coste de las investigaciones -algo considerado esencial también en una investigación como ésta que cuenta con unos recursos escasos-, por ejemplo permitiendo que por diseño alguna variable sólo se mida para una submuestra aleatoria de la muestra total, acaso porque es muy costosa o difícil de obtener; favoreciendo la utilización de variables auxiliares allí donde existan; o convirtiendo muestras pobres en muestras perfectamente utilizables para la investigación empírica9. La principal desventaja de la imputación múltiple, como acabo de decir, es que, debido a los procesos aleatorios que introduce, puede ofrecer resultados distintos cada vez que se utiliza10. Esta es, sin duda, una dificultad importante que, junto a otras consideraciones que irán apareciendo a lo largo de la presente exposición, exige tomar con una cierta cautela los resultados que se obtengan. Hasta cierto punto, procedimientos de este tipo se prestan a utilizaciones potencialmente deshonestas. Habiendo realizado esta advertencia, pocas dudas caben de la superioridad de este enfoque frente a otros habituales, convencionales que ofrecen errores típicos incorrectos -como el análisis de casos con información disponible-, proporcionan estimaciones sesgadas de los coeficientes -como el ajuste mediante variables ficticias- o que, prácticamente, inventan datos -como distintos enfoques de imputación simple tales como la sustitución por la media o por medias condicionales11. Bajo MAR, pues, la imputación múltiple goza de propiedades óptimas, ofrece estimaciones paramétricas aproximadamente insesgadas y eficientes así como buenas estimaciones de los errores típicos y plausibles tests de hipótesis, características fundamentales para el presente estudio. Todo lo anterior, como se ha señalado, siguiendo a la doctrina especializada en la materia12. Se trata, del mismo modo, de un método paramétrico -aunque existen opciones semi- y no paramétricas, éstas suelen recomendarse para datos perdidos siguiendo un patrón monotónico y, en general, no han venido siendo muy utilizadas, al...

Para continuar leyendo

Solicita tu prueba

VLEX utiliza cookies de inicio de sesión para aportarte una mejor experiencia de navegación. Si haces click en 'Aceptar' o continúas navegando por esta web consideramos que aceptas nuestra política de cookies. ACEPTAR