COSER

La constitución del COSER debe mucho al importante papel jugado por sucesivas generaciones de alumnos (¡más de treinta ya!) que desde el curso 1989-1990 han participado con entusiasmo y curiosidad en los viajes de prácticas y han hecho de las grabaciones objeto de sus trabajos de curso, transcribiéndolas y analizándolas. Entre ellos, debo destacar a aquellos que han repetido, tripitido o cuatripitido o más, por simple interés en la dialectología, ofreciendo su experiencia para asegurar el éxito de las encuestas al acompañar a las nuevas remesas "novatas" de cursos posteriores, o a aquellos que se apuntaron a las campañas extraordinarias (fuera de la actividad de las prácticas de campo) durante el verano en el marco de proyectos de investigación: todos sus nombres figuran en justo reconocimiento en el listado de campañas y en los archivos disponibles.

Estudiantes y colaboradores
Sobre todo, debo resaltar a un conjunto de antiguos estudiantes de la UAM que se ha involucrado singularmente en el COSER trabajando como colaboradores del proyecto. Entre ellos están aquellos que transcribieron grabaciones con cargo a los primeros proyectos de investigación: especialmente, José Ignacio Sanjuán Astigarraga y María José González Arévalo (1991-1993, 1994-1995). Asimismo Javier Rodríguez Molina disfrutó durante el curso 2001-2002 de una Beca de Colaboración gracias a la cual fue posible elaborar una base de datos con toda la información concerniente al COSER (información de archivo, encuestadores, informantes, enclaves encuestados, fechas, duración de las grabaciones, etc). También creó el primer mapa general del COSER, en que figuraban todos los enclaves entrevistados hasta el momento. Cristina García Sánchez trabajó como becaria del Proyecto de Innovación Docente "Archivo sonoro de español hablado" (2003) digitalizando 290 horas de grabación del COSER y preparando los primeros archivos sonoros de esta página web, además de crear una base de datos con la información relativa a las transcripciones. Enrique Pato, en calidad de Personal Investigador Contratado con cargo al proyecto "Sintaxis dialectal del español peninsular" durante 2004, se encargó de ultimar la primera versión de esta página web, preparando muchos de sus archivos (actualización y revisión del mapa general, elaboración de los mapas provinciales, listado de campañas, transcripción de todas las muestras sonoras y la selección de muchas de ellas), además de revisar todos los demás. Desde 2010 y hasta 2014, Carlota de Benito Moreno y Víctor Lara Bermejo, como becarios predoctorales, colaboraron de forma determinante en los proyectos "Variación y cambio en la sintaxis del español peninsular" (2010-2012) y "Procesos de cambio en la sintaxis del español peninsular" (2013-2015), al tiempo que preparaban sus tesis sobre aspectos de variación sintactica. Las mejoras que ha experimentado el COSER en los últimos años deben mucho a su capacidad de organización, trabajo y entusiasmo. En la pasada década también han trabajado en el COSER, con dedicación inquebrantable, Beatriz Martín Izquierdo (2011-2014, 2016-2017), Sara García Motilla (2011), Ana Estrada Arráez (2013-2014), Piedad Puchades Muñoz (2015), Gema Herranz Martínez (2016) e Isabel-Clara Muñoz Briongos (2018), como contratadas a tiempo parcial encargadas de la revisión de transcripciones. En el último lustro ese trabajo ha recibido el refuerzo de Olga León Zurdo (2015-2017), Gema Herranz Martínez (2016-2020), Jorge Agulló González (2017-2023), Natalia Medina Domínguez (2020-2024), Isabel-Clara Muñoz Briongos (2021-), Roxana Marica (2023-), Jorge García Arroyo (2023-), como contratados predoctorales, y de Alba Aires Salvador (2018-2020), de Roxana Marica (2020-2023) y Aitana Cerviño Suárez (2024-), como Ayudantes de Investigación. Y desde la Universidad de Salamanca, ha contribuido generosamente al incremento del corpus Borja Alonso Pascua (2019).

Desarrollo informático
Desde 2010 las transcripciones del COSER se han beneficiado del editor BConcord, desarrollado ex profeso por Bautista Horcajada, Profesor Titular de la Universidad Complutense de Madrid, que permite editar los materiales con un sistema de marcas normalizadas y simultanear texto y sonido. La digitalización de todos los materiales y su organización en un corpus informáticamente estructurado son deudores también del asesoramiento prestado por Bautista Horcajada, que merece un apartado propio en los agradecimientos. Las herramientas desarrolladas nos han permitido dar un paso de gigante en el procesamiento de los materiales y en su disposición para la consulta.

Desde 2016, gracias al asesoramiento del Científico Titular del CSIC, Javier Pueyo Mena, el editor previamente desarrollado se ha adaptado a un sistema de edición en línea, que permite transcribir de forma centralizada con distintos permisos de usuario y acceso. Además, Javier Pueyo ha adaptado el conjunto de librerías Freeling a las características de un corpus oral, lo que ha hecho posible desarrollar la Consulta avanzada. Esta modalidad de Consulta ofrece la posibilidad de interrogar el corpus de forma compleja a través de etiquetas morfosintácticas y lemas y, desde 2020, descargar los resultados de las búsquedas en Excel, con las coordenadas geográficas y código postal de los enclaves.

Gracias a la generosidad del Profesor Hiroto Ueda, de la Universidad de Tokio, es posible interrogar las transcripciones del COSER también con el programa LYNEAL, que permite funciones de comparación entre formas y cartografiado que no ofrecen ni la Consulta básica ni la Consulta avanzada.

Javier Pueyo, en 2018, y Álvaro Bueno, en 2021, han trabajado en la sincronización automática de los materiales sonoros con las transcripciones de texto, lo que ha permitido habilitar en la Consulta avanzada la recuperación del fragmento sonoro junto a la secuencia textual buscada.

El proyecto “A Respeaking and Collaborative Game-Based Approach to Building a Parsed Corpus of European Spanish Dialects”( FWO Medium-scale research infrastructure project, Grant Number I000418N), del que es investigadora principal la profesora Miriam Bouzuita, ha subvencionado parte de esa sincronización y ha desarrollando un analizador morfosintáctico a partir del corpus COSER, objetivo de la tesis doctoral de Johnatan Bonilla, de las Universidades de Gante y Humboldt de Berlín.

Finalmente, a finales de 2020 se habilitó la descarga del corpus COSER en acceso abierto, tanto en formato txt (en tiempo real) como etiquetado en xml (con tres versiones por ahora, diciembre de 2020, mayo de 2022, marzo de 2024).

Colegas
En las expresiones de gratitud, no es posible olvidar a todos aquellos colegas que, de un modo u otro, han reconocido o apoyado las actividades constitutivas del COSER y la investigación asociada a él. En la Universidad Autónoma de Madrid, todos los compañeros del Departamento de Filología Española y, en especial, los que forman o han formado parte de los proyectos relacionados con el COSER (Diego Catalán, Javier Elvira, Marina Fernández, Javier García, Juan Ramón Lodares, Azucena Palacios, José Portolés, Ana Serradilla, Santiago U. Sánchez, Jacinto González Cobas), así como la que fue coordinadora de la Unidad de Recursos Audiovisuales y Multimedia (María Luisa Ortega) y Álvaro Ortigosa (Escuela Superior de Informática). El apoyo del Director de Infraestrucuras de Investigación de la UAM, Ángel Muñoz Martín, ha sido fundamental para que el COSER pueda alojarse en un servidor del Centro de Computación Cientifica. A colegas de otras universidades debo asesoramiento técnico sobre diversas cuestiones, como la digitalización de los archivos (José Manuel Blecua, Joaquim Llisterri y Eduardo Uriós, Universidad Autónoma de Barcelona), la creación de los mapas con Sistemas de Información Geográfica (Ignacio Zabala, Universidad Politécnica de Madrid) o el análisis estadístico de los datos (María José Medrano, Instituto de Salud Carlos III, Pilar Guzmán, UAM).

Dentro de España, han participado directamente en las actividades del COSER Cristina Matute (Saint Louis University, Madrid Campus), Daniel Sáez, Edita Gutiérrez y Raquel González Rodríguez (Universidad Complutense de Madrid), Araceli López Serena, Lola Pons (Universidad de Sevilla), Bruno Camus (Universidad de Castilla-La Mancha), Andrés Enrique-Arias y Ruth Miguel Franco (Universitat de les Illes Balears).Y desde fuera de España, el COSER siempre ha contado con el apoyo, colaboración e interés de David Heap (University of Western Ontario, Canadá), Flora Klein-Andreu (State University of New York, Estados Unidos de América), Iván Ortega-Santos (University of Memphis, EEUU), Pilar Larrañaga (Universidad de Wuppertal, Alemania), Mónica Castillo Lluch, Elena Díez del Corral Areta y Cristina Peña Rueda (Universidad de Lausana, Suiza), Álvaro Octavio de Toledo y Huerta (CSIC), Miriam Bouzouita (Universidad Humboldt de Berlín, Alemania), Irene Salvo García (UAM) y Paul O'Neill (Universidad de Sheffield, Reino Unido).

Un capítulo aparte y muy destacado en estos agradecimientos merecen los antiguos alumnos, luego doctorandos y hoy ya profesores universitarios, que siguen colaborando en las encuestas, el desarrollo del corpus y la obtención de financiación: Carlota de Benito (Universidad de Zúrich y Universidad Autónoma de Madrid), Ana Estrada (Universidad Complutense de Madrid) y Enrique Pato (Universidad de Montreal).

Y las encuestas de las islas Canarias (2016-2019) y de Mallorca (2017) fueron posibles gracias a la generosa contribución económica y humana de los profesores Miriam Bouzouita, Mónica Castillo Lluch y Andrés Enrique-Arias, que no solo obtuvieron fondos para su realización, sino que involucraron a sus estudiantes y grupos de investigación.

Por último, la colaboración con hablantes y profesores de otras lenguas ibéricas ha permitido mejorar la transcripción de los hablantes bilingües. Entre ellos, debo mencionar por su especial dedicación a Maria Pilar Perea Sabater, de la Universitat de Barcelona, y a Eloi Belles Boeta, que han revisado muchos fragmentos en catalán. Mariña Ferreiro Vilariño, de la Universidad de Santiago de Compostela, ha realizado una detenida revisión de fragmentos en gallego, y Ander Egurtzegi, del CNRS-IKER (Bayona, Francia), del euskera.

Apoyo institucional
Dentro del apartado de apoyo institucional (véase Financiación), figura en lugar destacado la Universidad Autónoma de Madrid, que financia los viajes de prácticas de dialectología en los que se han acopiado muchos de los materiales del COSER. La UAM también ha apoyado la constitución del COSER por otras vías: en primer lugar, a través de la concesión de tres proyectos: un proyecto de investigación a Grupos Precompetitivos (1991-1993) y otros dos de Innovación Docente (2003, 2004-2005). El primero hizo posible la organización de las Campañas de encuesta de los veranos de 1991, 1992 y 1993, así como la transcripción como archivos de texto de una parte de los materiales recolectados. El segundo permitió emprender una primera digitalización de 290 horas de grabaciones y elaborar la primera versión de esta página web (2005-2015). Los trabajos de digitalización y de acceso a través de Internet continuaron a lo largo del curso 2004-2005, gracias al tercero de los proyectos mencionados, en la Unidad de Recursos Audiovisuales y Multimedia (URAM) de la UAM. El Laboratorio de Lingüística Informática de la UAM ha alojado la web del proyecto desde 2015 y, por último, el Centro de Computación Científica de la UAM ha dispuesto un servidor a que permite alojar la base de datos y el editor en línea.

El COSER también ha recibido ayuda de otras entidades: la Comunidad Autónoma de Madrid concedió un proyecto de investigación que permitió continuar la transcripción de los materiales grabados (1994-1995), y el Ministerio de Ciencia y Tecnología subvencionó, como parte del proyecto "Sintaxis dialectal del español peninsular" la informatización de algunas de las transcripciones y la revisión unitaria de las mismas (2004). El "Fonds de recherche sur la société et la culture du Québec" (FQRSC), del Ministerio de Educación de Quebec (Canadá) y el "Conseil de recherches en sciences humaines du Canada" también han contribuido a la revisión de las transcripciones del COSER gracias a la concesión de los proyectos "Corpus de la syntaxe dialectale de l’espagnol péninsulaire" (2007-2010) y“Syntaxe dialectale de l'espagnol” (mayo 2010-mayo 2013), dirigidos por Enrique Pato. En 2013 concluyó el proceso de digitalización de todos los materiales y la revisión de las transcripciones de 150 horas, representativas de todas las provincias contenidas en el COSER, gracias al proyecto de investigación "Variación y cambio en la sintaxis del español peninsular" (2010-2012), subvencionado por el Ministerio de Ciencia e Innovación, con el que el proyecto se integró en la red europea EDISYN (European Dialect Syntax), coordinada por el profesor holandés Sief Barbiers. Una Acción Complementaria del Ministerio de Ciencia "Campaña final de encuestas para el Corpus Oral y Sonoro del Español Rural" (2012-2013) hizo posibles cuatro encuestas extraordinarias para completar la muestra de grabaciones en Andalucía, Murcia y Levante.

En el marco del proyecto "Procesos de cambio en la sintaxis del español peninsular" (2013-2015), financiado por el Ministerio de Economía y Competitividad, se incrementaron las transcripciones con 21 entrevistas, se actualizó el diseño de esta página web y se desarrolló un buscador (Consulta básica) que permite interrogar las transcripciones y cartografiar los resultados. Como parte de las actividades previstas en la Red de Excelencia "Nuevos recursos para el estudio de la variación dialectal del español" (2015-2017), también financiada por ese Ministerio, se sumaron 26 horas a las transcripciones disponibles en el corpus y en el marcado de los principales aspectos de variación gramatical que esos materiales ofrecen. El proyecto, "Cambio gramatical en el español europeo: problemas teóricos y avances empíricos" (2016-2018), subvencionado por el mismo Ministerio, hizo posible seguir avanzando en la transcripción de los materiales (24 horas de grabación) y, sobre todo, en hacerlos más accesibles. Así, tras la adaptación del conjunto de librerías Freeling, se etiquetó y lematizó el corpus y se desarrolló un buscador que ha hecho posibles las interrogación compleja de los materiales (Consulta avanzada), con cartografiado y posibilidad de descargar los materiales en Excel. Dentro del proyecto "Cambios en el habla rural: del siglo XX (Atlas Lingüístico de la Península Ibérica, ALPI) al siglo XXI (Corpus Oral y Sonoro del Español Rural, COSER)”, subvencionado por el Ministerio de Ciencia, Innovación y Universidades, se ha seguido trabajando en el aumento de transcripciones en la web, 28 entre 2019 y 2021, y sobre todo, en la corrección de las ya disponibles (46 han sido objeto de una revisión en profundidad) y en la revisión de la sincronización automática de 114 enclaves (en la que había errores de diversa entidad).

COSER

Corpus Oral y Sonoro del Español Rural

Agradecimientos