Descripción

El COSER es un corpus dialectal, pero restringido al habla de aquellos informantes que fueron objeto de interés en la dialectología tradicional: hablantes rurales, a ser posible mayores, de escasa escolarización y naturales del lugar en que son entrevistados. El COSER se nutre del mismo tipo de informantes que los atlas lingüísticos. Por el momento (octubre de 2024), 3.064 informantes están registrados en nuestra base de datos, si bien solo de algo más de la mitad han sido entrevistados en profundidad:


Informantes Número Media de edad
Hombres: 1.461 (47,68%) 74,8 años
Mujeres: 1.603 (52,32%) 73,53 años
Total: 3.064 74,2 años



La edad media global de los informantes es de 74,2 años, siendo ligeramente más elevada en los hombres (74,8 años) que en las mujeres (73,5  años). Se trata, pues, de informantes que han nacido en la primera mitad del siglo XX y que han recibido una cierta instrucción educativa: por lo general, han cursado, con diverso aprovechamiento, algunos años de escuela primaria aprendiendo, según sus declaraciones, "a leer y escribir, y las cuatro reglas" matemáticas elementales, si bien no faltan los analfabetos.

Las grabaciones que integran el COSER han sido obtenidas con regularidad desde el año 1990 hasta el momento actual -octubre de 2024- en una serie de campañas de encuesta. Ese trabajo de campo ha sido organizado con el apoyo de varios proyectos de investigación y como parte de las prácticas de campo de las asignaturas "Dialectología hispánica" (cursos 1988-1996) y "El español hablado. Variantes peninsulares" (1996-2004), "Curso monográfico de variedades del español" (2005-2011), materias optativas pertenecientes a la Licenciatura de Filología Hispánica de la Universidad Autónoma de Madrid. Desde 2011 hasta el presente se han integrado como actividad optativa de la asignatura "Lengua española. Variedades de la lengua" (3er curso) del Grado de Estudios Hispánicos de esa universidad.


Enclaves encuestados Provincias o islas Total de las grabaciones Promedio de grabación por entrevista Entrevistas disponibles en texto y audio (octubre de 2024)
1.461 56 1.989 horas 1h. 5 minutos 244


Hasta 2024 se realizaron entrevistas en 1.461 enclaves rurales de la Península Ibérica y de los dos archipiélagos, pertenecientes a 56 provincias o islas (que hemos contado de forma independiente aunque se adscriban a una única provincia). La localización geográfica de los mismos figura en el mapa, donde pueden identificarse a través de una código numérico que resume la provincia y el enclave, ordenados alfabéticamente (por ejemplo, a Berganzo de la provincia de Álava, le corresponde la clave 0101). Los materiales sonoros abarcan gran parte de la península ibérica y la densidad de la red de puntos es equiparable a la de los atlas regionales o, incluso, más tupida.

En total, el COSER dispone actualmente de 1.989 horas de grabación. Aunque la mayor parte se grabó en soporte analógico, en 2010 fue posible finalizar la digitalización de todos los materiales, de los que presentamos una muestra como archivos sonoros. La mitad de los materiales cuenta con transcripciones, de diversa naturaleza y exactitud, acometidas a gracias al apoyo obtenido por diversos proyectos de investigación y la participación de varias generaciones de estudiantes de la licenciatura de la UAM, que han transcrito, como una parte de sus trabajos del curso académico, grabaciones que habían recolectado. En 2015 las 147 transcripciones correspondientes a 141 enclaves (aproximadamente 183 horas), revisadas y normalizadas con el editor BConcord, se publicaron en esta página web (archivos disponibles) y se hicieron interrogables a través de un buscador. Desde entonces hasta octubre de 2024 ese número se ha incrementado y suma 244 transcripciones, correspondientes a 333 horas, 44 minutos, de grabación, que conforman un corpus interrogable de 3.631.437 palabras. Desde 2017 ese corpus es accesible tanto en la modalidad de Consulta simple como en la de Consulta avanzada (que permite interrogar por lemas y etiquetas morfosintácticas). En 2019 se revisó la Consulta avanzada y, entre otras mejoras, ahora es posible descargar los datos de las búsquedas en formato Excel. En 2020 se habilitaron en esa consulta las coordenadas geográficas y el código postal de los enclaves, para que los datos puedan ser analizados en Sistemas de Información Geográfica, además de haber finalizado la sincronización de texto con el audio. Desde 2021 se vienen revisando los fallos de sincronización, ortográficos y de etiquetado en todo el corpus disponible. Finalmente, a finales de 2020 se  habilitó la descarga del corpus COSER en acceso abierto, tanto en formato txt (en tiempo real) como etiquetado en xml (con tres versiones hasta ahora, diciembre de 2020, mayo de 2022 y marzo de 2024). En 2024 se ha abordado la mejora de los archivos sonoros grabados en formato digital.

 

 


Enclaves cuya transcripción está disponible y es interrogable en la Consulta (octubre de 2024) Provincias o islas Número de horas transcritas Total de palabras transcritas Total de unidades (tokens)
244 56 333 horas, 44 minutos 3.631.437 palabras 5.239.016 unidades