COSER

El COSER es un corpus dialectal, pero restringido al habla de aquellos informantes que fueron objeto de interés en la dialectología tradicional: hablantes rurales, a ser posible mayores, de escasa escolarización y naturales del lugar en que son entrevistados. El COSER se nutre del mismo tipo de informantes que los atlas lingüísticos. Por el momento (abril de 2025), 3.076 informantes están registrados en nuestra base de datos, si bien solo de algo más de la mitad han sido entrevistados en profundidad:


Informantes	Número	Media de edad
Hombres:	1.463 (47,56%)	74 años
Mujeres:	1.613 (52,44%)	73,7 años
*Total*:	3.076	74,3 años

La edad media global de los informantes es de 74,3 años, siendo ligeramente más elevada en los hombres (75 años) que en las mujeres (73,7 años). Se trata, pues, de informantes que han nacido en la primera mitad del siglo XX y que han recibido una cierta instrucción educativa: por lo general, han cursado, con diverso aprovechamiento, algunos años de escuela primaria aprendiendo, según sus declaraciones, "a leer y escribir, y las cuatro reglas" matemáticas elementales, si bien no faltan los analfabetos.

Las grabaciones que integran el COSER han sido obtenidas con regularidad desde el año 1990 hasta el momento actual -abril de 2025- en una serie de campañas de encuesta. Ese trabajo de campo ha sido organizado con el apoyo de varios proyectos de investigación y como parte de las prácticas de campo de las asignaturas "Dialectología hispánica" (cursos 1988-1996) y "El español hablado. Variantes peninsulares" (1996-2004), "Curso monográfico de variedades del español" (2005-2011), materias optativas pertenecientes a la Licenciatura de Filología Hispánica de la Universidad Autónoma de Madrid. Desde 2011 hasta el presente se han integrado como actividad optativa de la asignatura "Lengua española. Variedades de la lengua" (3er curso) del Grado de Estudios Hispánicos de esa universidad.


Enclaves encuestados	Provincias o islas	Total de las grabaciones	Promedio de grabación por entrevista	Entrevistas disponibles en texto y audio (abril de 2025)
1.468	57	2.002 horas	1h. 5 minutos	258

Hasta 2025 se realizaron entrevistas en 1.468 enclaves rurales de la Península Ibérica y de los dos archipiélagos, pertenecientes a 57 provincias o islas (que hemos contado de forma independiente aunque se adscriban a una única provincia). La localización geográfica de los mismos figura en el mapa, donde pueden identificarse a través de una código numérico que resume la provincia y el enclave, ordenados alfabéticamente (por ejemplo, a Berganzo de la provincia de Álava, le corresponde la clave 0101). Los materiales sonoros abarcan gran parte de la península ibérica y la densidad de la red de puntos es equiparable a la de los atlas regionales o, incluso, más tupida.

En total, el COSER dispone actualmente de 2.002 horas de grabación. Aunque la mayor parte se grabó en soporte analógico, en 2010 fue posible finalizar la digitalización de todos los materiales, de los que presentamos una muestra como archivos sonoros. La mitad de los materiales cuenta con transcripciones, de diversa naturaleza y exactitud, acometidas a gracias al apoyo obtenido por diversos proyectos de investigación y la participación de varias generaciones de estudiantes de la licenciatura de la UAM, que han transcrito, como una parte de sus trabajos del curso académico, grabaciones que habían recolectado. En 2015 las 147 transcripciones correspondientes a 141 enclaves (aproximadamente 183 horas), revisadas y normalizadas con el editor BConcord, se publicaron en esta página web (archivos disponibles) y se hicieron interrogables a través de un buscador. Desde entonces hasta abril de 2025 ese número se ha incrementado y suma 258 transcripciones, correspondientes a 351 horas, 58 minutos, de grabación, que conforman un corpus interrogable de 3.981.473 palabras. Desde 2017 ese corpus es accesible tanto en la modalidad de Consulta simple como en la de Consulta avanzada (que permite interrogar por lemas y etiquetas morfosintácticas). En 2019 se revisó la Consulta avanzada y, entre otras mejoras, ahora es posible descargar los datos de las búsquedas en formato Excel. En 2020 se habilitaron en esa consulta las coordenadas geográficas y el código postal de los enclaves, para que los datos puedan ser analizados en Sistemas de Información Geográfica, además de haber finalizado la sincronización de texto con el audio. Desde 2021 se vienen revisando los fallos de sincronización, ortográficos y de etiquetado en todo el corpus disponible. Finalmente, a finales de 2020 se habilitó la descarga del corpus COSER en acceso abierto, tanto en formato txt (en tiempo real) como etiquetado en xml (con tres versiones hasta ahora, diciembre de 2020, mayo de 2022 y marzo de 2024). En 2024 se ha abordado la mejora de los archivos sonoros grabados en formato digital.


Enclaves cuya transcripción está disponible y es interrogable en la Consulta (abril de 2025)	Provincias o islas	Número de horas transcritas	Total de palabras transcritas	Total de unidades (tokens)
258	57	351 horas, 58 minutos	3.981.473 palabras	5.519.285 unidades

COSER

Corpus Oral y Sonoro del Español Rural

Descripción