A proposal for the creation of the Corpus of Puerto Rican English and Spanish written texts (CoPRES)
Author
Rios Ghigliotty, Johanses
Advisor
Guzzardo Tamargo, RosaType
ThesisDegree Level
M.A.Date
2021-05-20Metadata
Show full item recordAbstract
Este trabajo propone la creación del “Corpus of Puerto Rican English and Spanish” de textos escritos (CoPRES). Inicialmente, el propósito del CoPRES es recopilar muestras de textos escritos por estudiantes de nuevo ingreso y de segundo año de la Universidad de Puerto Rico. De tal manera, este corpus lingüístico podría constituir: (1) una herramienta de avalúo académico, (2) una herramienta de documentación lingüística del español e inglés empleado por jóvenes adultos puertorriqueños y (3) una herramienta investigativa diseñada para facilitar estudios de análisis del discurso. Para ensamblar el corpus con las metas a corto plazo en mente, se examinaron estudios en las áreas de la lingüística del corpus y del procesamiento de lenguaje natural. Basado en la revisión bibliográfica, se propone, como estructura arquitectónica inicial del corpus, un sistema de archivo digital comprensivo para los textos recopilados, en conjunto con cuatro programas para el procesamiento de los textos: AntConc, NLTK, SpaCy y Stanza. Además de las metas a corto plazo que se discuten en este trabajo, el CoPRES podría facilitar estudios futuros relacionados con correctores gramaticales automáticos, lingüística histórica y lexicografía, entre otros. El CoPRES constituiría el primer corpus digitalizado a gran escala de la expresión escrita de Puerto Rico. This paper proposes the creation of the Corpus of Puerto Rican English and Spanish written texts (CoPRES). Initially, the purpose of the CoPRES is to compile natural text data produced by first- and second-year university students in the University of Puerto Rico. As such, this linguistic corpus could become: (1) a database for assessment of student learning outcomes, (2) a documentation tool of Puerto Rican youth language, (3) and an investigative instrument to conduct studies related to discourse analysis. In order to design the corpus with these short-term goals in mind, studies from the areas of corpus linguistic and natural language processing were examined. Based on the literature review, a digital file system coupled with four natural language processing tools, AntConc, NLTK, SpaCy, and Stanza, are proposed as the initial state architecture for the corpus. In addition to the short-term goals discussed here, the CoPRES could enable further studies related to automated grammar correction, historical linguistics, and lexicography, among others. The CoPRES would constitute the first large-scale digitized corpus of Puerto Rican written expression.
Rights
©2021, Johanses Ríos GhigliottyCollections
Related items
Showing items related by title, author, creator and subject.
-
La Gran Marcha del Pueblo de Puerto Rico : content analysis and intertextuality in Puerto Rican protest signage.
Jesús Colón, Miguel de. (2019-12)