Comparación de los métodos de imputación con respecto al poder de separación del modelo de regresión logística

López-Vazquez, Víctor

Publication:

Comparación de los métodos de imputación con respecto al poder de separación del modelo de regresión logística

Files

MATE_LopezVazquezV_2005.pdf (1.96 MB)

Authors

López-Vazquez, Víctor

Advisor

Quintana-Díaz, Julio C.

College

College of Arts and Sciences - Sciences

Department

Department of Mathematics

Degree Level

M.S.

Date

2005

Full item page

Abstract

An MCAR (Missing Completely at Random) mechanism was used with dif- ferent missing data proportions in order to generate iteratively missing values in some data sets obtained from the Machine Learning Database Repository at the University of California, Irvine, to compare the efficiency of single, hot deck, and multiple imputation techniques in a logistic regression model. The parameter of interest in these comparisons is the separation power of the logistic regression model obtained by the area under the Receiver Operating Characteristic (ROC) curve. We are implementing unconditional and conditional mean, median, and mode (IMEAN, ICMEAN, IMED, ICMED, IMOD, ICMOD) as the single impu- tation methods. And for the Hot-Deck imputation, we used the unconditional and conditional random sampling of the observed values (IRS, ICRS), and the kth near- est neighbor imputation (KNN). The multiple one is the FRITZ (Federal Reserve Imputation Technique Zeta) algorithm implemented by [Kennickell, 1991] on the SCF (Survey of Consumer Finances). Several iterations for the separation power were obtained after a generation of missing data with a given proportions, and then fill-in these missing values by some imputation method. The average bias be- tween the real separation power and the separation power for all the iterations was calculated for all the imputation methods and some missing data proportions. The testing of these estimated biases were made by using non-parametric comparison procedures. From these testing we have found that the ICRS technique generate the minor bias on the area under the ROC curve. Also, we found that under a MCAR mechanism there are imputation methods that have a good performance at proportions of missing data higher than 15 %.

Un mecanismo MCAR (Datos faltantes por completa aleatoridad) se utilizó con diferenes proporciones de datos faltantes para generar recurrentemente valores faltantes en algunos conjuntos de datos obtenidos del Machine Learning Database Repository de la Universidad de California en Irvine con el propósito de comparar la eficiencia de técnicas de imputación sencilla, hot deck y múltiple en un modelo de regresión logística. El parámetro de interés en estas comparaciones es el poder de separación del modelo de regresión logística obtenido por el área bajo la curva Receiver Operating Characteristic (ROC). Los métodos de imputación simple que se implantaron fueron la media, mediana y moda incondicionales y condicionales (IMEAN, ICMEAN, IMED, ICMED, IMOD, ICMOD). Para la imputación hot deck se usó el muestreo aleatorio incondicional y condicional de los valores observados (IRS, ICRS) y el método por el késimo vecino más cercano (KNN). El método múltiple usado fue el algoritmo FRITZ (Federal Reserve Imputation Technique Zeta) implantado por Arthur B. Kennickell en la en- cuesta SCF (Survey of Consumer Finances) [Kennickell, 1991, Kennickell, 1998]. Se obtuvieron recurrentemente estimados del poder de separación después de generarse datos faltantes con proporciones dadas y luego se sustituyeron por valores imputados por los distintos métodos. Se calculó el sesgo promedio entre el poder de separación real y el poder de separación estimado en todas las recurrencias, para todos los métodos de imputación y para algunas proporciones de datos faltantes. Las pruebas estadísticas de estos sesgos se hicieron usando procedimientos de comparación no paramétricos. De estas pruebas se encontró que la técnica ICRS genera el menor sesgo en el ́area bajo la curva ROC. También se encontró que bajo un mecanismo MCAR hay métodos de imputación que tienen una buena ejecución en proporciones de datos faltantes mayores del 15 %.

Keywords

Modelos de regresión

Usage Rights

Persistent URL

https://hdl.handle.net/20.500.11801/1998

Cite

López-Vazquez, V. (2005). Comparación de los métodos de imputación con respecto al poder de separación del modelo de regresión logística [Thesis]. Retrieved from https://hdl.handle.net/20.500.11801/1998

Collections

Theses & Dissertations

Publication:

Comparación de los métodos de imputación con respecto al poder de separación del modelo de regresión logística

Files

Authors

Embargoed Until

Advisor

College

Department

Degree Level

Publisher

Date

Abstract

Keywords

Usage Rights

Persistent URL

Collections

Publication: Comparación de los métodos de imputación con respecto al poder de separación del modelo de regresión logística

Files

Authors

Embargoed Until

Advisor

College

Department

Degree Level

Publisher

Date

Abstract

Keywords

Usage Rights

Persistent URL

Collections

Publication:

Comparación de los métodos de imputación con respecto al poder de separación del modelo de regresión logística