Show simple item record

dc.contributor.advisorGuzzardo Tamargo, Rosa
dc.contributor.authorRios Ghigliotty, Johanses
dc.date.accessioned2021-06-03T00:16:20Z
dc.date.available2021-06-03T00:16:20Z
dc.date.issued2021-05-20
dc.identifier.urihttps://hdl.handle.net/11721/2391
dc.description.abstractEste trabajo propone la creación del “Corpus of Puerto Rican English and Spanish” de textos escritos (CoPRES). Inicialmente, el propósito del CoPRES es recopilar muestras de textos escritos por estudiantes de nuevo ingreso y de segundo año de la Universidad de Puerto Rico. De tal manera, este corpus lingüístico podría constituir: (1) una herramienta de avalúo académico, (2) una herramienta de documentación lingüística del español e inglés empleado por jóvenes adultos puertorriqueños y (3) una herramienta investigativa diseñada para facilitar estudios de análisis del discurso. Para ensamblar el corpus con las metas a corto plazo en mente, se examinaron estudios en las áreas de la lingüística del corpus y del procesamiento de lenguaje natural. Basado en la revisión bibliográfica, se propone, como estructura arquitectónica inicial del corpus, un sistema de archivo digital comprensivo para los textos recopilados, en conjunto con cuatro programas para el procesamiento de los textos: AntConc, NLTK, SpaCy y Stanza. Además de las metas a corto plazo que se discuten en este trabajo, el CoPRES podría facilitar estudios futuros relacionados con correctores gramaticales automáticos, lingüística histórica y lexicografía, entre otros. El CoPRES constituiría el primer corpus digitalizado a gran escala de la expresión escrita de Puerto Rico.en_US
dc.description.abstractThis paper proposes the creation of the Corpus of Puerto Rican English and Spanish written texts (CoPRES). Initially, the purpose of the CoPRES is to compile natural text data produced by first- and second-year university students in the University of Puerto Rico. As such, this linguistic corpus could become: (1) a database for assessment of student learning outcomes, (2) a documentation tool of Puerto Rican youth language, (3) and an investigative instrument to conduct studies related to discourse analysis. In order to design the corpus with these short-term goals in mind, studies from the areas of corpus linguistic and natural language processing were examined. Based on the literature review, a digital file system coupled with four natural language processing tools, AntConc, NLTK, SpaCy, and Stanza, are proposed as the initial state architecture for the corpus. In addition to the short-term goals discussed here, the CoPRES could enable further studies related to automated grammar correction, historical linguistics, and lexicography, among others. The CoPRES would constitute the first large-scale digitized corpus of Puerto Rican written expression.en_US
dc.language.isoenen_US
dc.rightsCC0 1.0 Universal*
dc.rights.urihttp://creativecommons.org/publicdomain/zero/1.0/*
dc.subjectCorpus linguisticsen_US
dc.subjectNatural language processingen_US
dc.subjectLearner corpusen_US
dc.subjectPuerto Ricoen_US
dc.subjectInglés--Puerto Ricoen_US
dc.subjectBilingüismo--Puerto Ricoen_US
dc.subjectPolítica lingüística--Puerto Ricoen_US
dc.subjectAnálisis del discurso--Puerto Ricoen_US
dc.subject.lcshEnglish language--Puerto Ricoen_US
dc.subject.lcshBilingualism--Puerto Ricoen_US
dc.subject.lcshLanguage policy--Puerto Ricoen_US
dc.subject.lcshDiscourse analysis--Puerto Ricoen_US
dc.titleA proposal for the creation of the Corpus of Puerto Rican English and Spanish written texts (CoPRES)en_US
dc.typeThesisen_US
dc.rights.holder©2021, Johanses Ríos Ghigliottyen_US
dc.contributor.committeeCarroll, Kevin
dc.contributor.committeeMartínez Ortiz, Laura I.
dc.contributor.campusUniversity of Puerto Rico, Río Piedras Campusen_US
dc.description.graduationSemesterSpring (2nd Semester)en_US
dc.description.graduationYear2021en_US
thesis.degree.disciplineLinguistics Graduate Programen_US
thesis.degree.levelM.A.en_US


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record

CC0 1.0 Universal
Except where otherwise noted, this item's license is described as CC0 1.0 Universal