Publication:
An assessment of copula-based regression models for bivariate count data

Thumbnail Image
Authors
Calderón-Cartagena, Hilda Inés
Embargoed Until
Advisor
Torres-Saavedra, Pedro A.
College
College of Arts and Sciences - Sciences
Department
Department of Mathematics
Degree Level
M.S.
Publisher
Date
2018
Abstract
It is known that analyzing correlated bivariate count data as independent in a regression context can lead to inefficient coefficients estimates. However, the number of parametric bivariate distributions that can be found in the literature to model bivariate counts are limited and not flexible enough to account for general correla- tion structures and different marginal distributions. Copula-based regression models provide a more flexible way of generating joint distributions for bivariate data by admitting different marginal distributions and various dependence structures. The purpose of this work was to evaluate the performance of copula-based regression models for bivariate counts under different scenarios, and to apply this approach to bivariate crash data in Puerto Rico highways. Scenarios with low, medium and high degrees of dependence were considered, as well as different sample sizes. In particular, the application of copulas when one of the marginal means was small was examined. Overall, if appropriate copulas are fitted, copula-based regression models provide more efficient estimators for the regression parameters when com- pared to modeling the counts independently, even when the data exhibits a degree of association as low as a Kendall’s τ = 0.3, though we recommend a sample size of N = 300 or higher to assure an unbiased estimation of the copula parameter. The gain in efficiency increases with the degree of association. Also, traditional penalized likelihood-based criteria, such as AIC and BIC, seem to have a fairly good performance in selecting the best model among a set of candidate copula models. As a last note, interpretation of the copula parameter about the dependence structure is possible but should be made carefully since the range of its transformation to a dependence measure is narrower than [−1, 1].

Es conocido que analizar datos de conteo bivariados correlacionados de manera independiente en un problema de regresión puede llevar a estimaciones de los coeficientes ineficientes. Sin embargo, las distribuciones bivariadas parámetricas que aparecen en la literatura para modelar conteos correlacionados tienen limitaciones y no son lo suficientemente flexibles como para admitir estructuras de correlación generales y distribuciones marginales diferentes. Los modelos basados en cópulas proveen una forma más flexible de generar distribuciones conjuntas para datos bi- variados al admitir distribuciones marginales diferentes y varias estructuras de dependencia. El propósito de este trabajo fue hacer una evaluación del desempeño de los modelos de regresión basados en cópulas para datos de conteos bivariados bajo diferentes escenarios, y aplicar este método a datos de conteos de accidentes fatales y no fatales en autopistas de Puerto Rico. Escenarios con un bajo, moderado y alto grado de dependencia fueron considerados, así como diferentes tamaños de muestra. En particular, se examinó la aplicación de cópulas cuando una las medias marginales es pequeña. En general, si se ajustan cópulas apropiadas, los modelos de regresión basados en cópulas proveen estimadores más eficientes para los coeficientes en comparación a ajustar modelos independientes a cada conteo, aún cuando los datos exhiben bajos grados de dependencia, Overall, if appropriate copulas are fitted, copula-based regression models provide more efficient estimators for the re- gression parameters when compared to modeling the counts independently, even when the data exhibits a degree of association as low as a Kendall’s τ = 0.3, aunque recomendamos un tamaño de muestra de N = 300 o superior para asegurar una estimación insesgada del parámetro de cópula. La ganancia en eficiencia aumenta con el grado de correlación. Además, los criterios tradicionales basados en verosimilitud, como AIC y BIC, parecen tener un buen desempeño en seleccionar el mejor modelo entre un conjunto de modelos de cópulas. Cabe señalar, finalmente, que la interpretación del parámetro de cópula sobre la estructura de dependencia es posible pero debe hacerse considerando que el intervalo de su transformación a una medida de dependencia es más estrecho que [−1, 1].
Keywords
Correlated bivariate count
Cite
Calderón-Cartagena, H. I. (2018). An assessment of copula-based regression models for bivariate count data [Thesis]. Retrieved from https://hdl.handle.net/20.500.11801/1955