Publication:
Comparación de los métodos de imputación con respecto al poder de separación del modelo de regresión logística

Thumbnail Image
Authors
López-Vazquez, Víctor
Embargoed Until
Advisor
Quintana-Díaz, Julio C.
College
College of Arts and Sciences - Sciences
Department
Department of Mathematics
Degree Level
M.S.
Publisher
Date
2005
Abstract
An MCAR (Missing Completely at Random) mechanism was used with dif- ferent missing data proportions in order to generate iteratively missing values in some data sets obtained from the Machine Learning Database Repository at the University of California, Irvine, to compare the efficiency of single, hot deck, and multiple imputation techniques in a logistic regression model. The parameter of interest in these comparisons is the separation power of the logistic regression model obtained by the area under the Receiver Operating Characteristic (ROC) curve. We are implementing unconditional and conditional mean, median, and mode (IMEAN, ICMEAN, IMED, ICMED, IMOD, ICMOD) as the single impu- tation methods. And for the Hot-Deck imputation, we used the unconditional and conditional random sampling of the observed values (IRS, ICRS), and the kth near- est neighbor imputation (KNN). The multiple one is the FRITZ (Federal Reserve Imputation Technique Zeta) algorithm implemented by [Kennickell, 1991] on the SCF (Survey of Consumer Finances). Several iterations for the separation power were obtained after a generation of missing data with a given proportions, and then fill-in these missing values by some imputation method. The average bias be- tween the real separation power and the separation power for all the iterations was calculated for all the imputation methods and some missing data proportions. The testing of these estimated biases were made by using non-parametric comparison procedures. From these testing we have found that the ICRS technique generate the minor bias on the area under the ROC curve. Also, we found that under a MCAR mechanism there are imputation methods that have a good performance at proportions of missing data higher than 15 %.

Un mecanismo MCAR (Datos faltantes por completa aleatoridad) se utilizó con diferenes proporciones de datos faltantes para generar recurrentemente valores faltantes en algunos conjuntos de datos obtenidos del Machine Learning Database Repository de la Universidad de California en Irvine con el propósito de comparar la eficiencia de técnicas de imputación sencilla, hot deck y múltiple en un modelo de regresión logística. El parámetro de interés en estas comparaciones es el poder de separación del modelo de regresión logística obtenido por el área bajo la curva Receiver Operating Characteristic (ROC). Los métodos de imputación simple que se implantaron fueron la media, mediana y moda incondicionales y condicionales (IMEAN, ICMEAN, IMED, ICMED, IMOD, ICMOD). Para la imputación hot deck se usó el muestreo aleatorio incondicional y condicional de los valores observados (IRS, ICRS) y el método por el késimo vecino más cercano (KNN). El método múltiple usado fue el algoritmo FRITZ (Federal Reserve Imputation Technique Zeta) implantado por Arthur B. Kennickell en la en- cuesta SCF (Survey of Consumer Finances) [Kennickell, 1991, Kennickell, 1998]. Se obtuvieron recurrentemente estimados del poder de separación después de generarse datos faltantes con proporciones dadas y luego se sustituyeron por valores imputados por los distintos métodos. Se calculó el sesgo promedio entre el poder de separación real y el poder de separación estimado en todas las recurrencias, para todos los métodos de imputación y para algunas proporciones de datos faltantes. Las pruebas estadísticas de estos sesgos se hicieron usando procedimientos de comparación no paramétricos. De estas pruebas se encontró que la técnica ICRS genera el menor sesgo en el ́area bajo la curva ROC. También se encontró que bajo un mecanismo MCAR hay métodos de imputación que tienen una buena ejecución en proporciones de datos faltantes mayores del 15 %.
Keywords
Modelos de regresión
Cite
López-Vazquez, V. (2005). Comparación de los métodos de imputación con respecto al poder de separación del modelo de regresión logística [Thesis]. Retrieved from https://hdl.handle.net/20.500.11801/1998