Descripción

El COSER es un corpus dialectal, pero restringido al habla de aquellos informantes que fueron objeto de interés en la dialectología tradicional: hablantes rurales, a ser posible mayores, de escasa escolarización y naturales del lugar en que son entrevistados. El COSER se nutre del mismo tipo de informantes que los atlas lingüísticos. Por el momento (diciembre de 2023), 3.009 informantes están registrados en nuestra base de datos, si bien solo de algo más de la mitad han sido entrevistados en profundidad:


Informantes Número Media de edad
Hombres: 1.431 (47,56%) 74,8 años
Mujeres: 1.578 (52,44%) 73,4 años
Total: 3.009 74,1 años



La edad media global de los informantes es de 74,1 años, siendo ligeramente más elevada en los hombres (74,8 años) que en las mujeres (73,4 años). Se trata, pues, de informantes que han nacido en el primer tercio del siglo XX y que han recibido una cierta instrucción educativa: por lo general, han cursado, con diverso aprovechamiento, algunos años de escuela primaria aprendiendo, según sus declaraciones, "a leer y escribir, y las cuatro reglas" matemáticas elementales, si bien no faltan los analfabetos.

Las grabaciones que integran el COSER han sido obtenidas con regularidad desde el año 1990 hasta el momento actual -diciembre de 2023- en una serie de campañas de encuesta. Ese trabajo de campo ha sido organizado con el apoyo de varios proyectos de investigación y como parte de las prácticas de campo de las asignaturas "Dialectología hispánica" (cursos 1988-1996) y "El español hablado. Variantes peninsulares" (1996-2004), "Curso monográfico de variedades del español" (2005-2011), materias optativas pertenecientes a la Licenciatura de Filología Hispánica de la Universidad Autónoma de Madrid. Desde 2011 hasta el presente se han integrado como actividad optativa de la asignatura "Lengua española. Variedades de la lengua" (3er curso) del Grado de Estudios Hispánicos de esa universidad.


Enclaves encuestados Provincias o islas Total de las grabaciones Promedio de grabación por entrevista Entrevistas disponibles en texto y audio (diciembre de 2023)
1.433 55 1.947 horas 1h. 5 minutos 229


Hasta 2023 se realizaron entrevistas en 1.433 enclaves rurales de la Península Ibérica y de los dos archipiélagos, pertenecientes a 55 provincias o islas (que hemos contado de forma independiente aunque se adscriban a una única provincia). La localización geográfica de los mismos figura en el mapa, donde pueden identificarse a través de una código numérico que resume la provincia y el enclave, ordenados alfabéticamente (por ejemplo, a Berganzo de la provincia de Álava, le corresponde la clave 0101). Los materiales sonoros abarcan gran parte de la Península Ibérica y la densidad de la red de puntos es equiparable a la de los atlas regionales o, incluso, más tupida.

En total, el COSER dispone actualmente de 1.947 horas de grabación. Aunque la mayor parte se grabó en soporte analógico, en 2010 fue posible finalizar la digitalización de todos los materiales, de los que presentamos una muestra como archivos sonoros. La mitad de los materiales cuenta con transcripciones, de diversa naturaleza y exactitud, acometidas a gracias al apoyo obtenido por diversos proyectos de investigación y la participación de varias generaciones de estudiantes de la licenciatura de la UAM, que han transcrito, como una parte de sus trabajos del curso académico, grabaciones que habían recolectado. En 2015 las 147 transcripciones correspondientes a 141 enclaves (aproximadamente 183 horas), revisadas y normalizadas con el editor BConcord, se publicaron en esta página web (archivos disponibles) y se hicieron interrogables a través de un buscador. Desde entonces hasta diciembre de 2023 ese número se ha incrementado y suma 229 transcripciones, correspondientes a 311 horas, 53 minutos, de grabación, que conforman un corpus interrogable de 3.384.041 palabras. Desde 2017 ese corpus es accesible tanto en la modalidad de Consulta simple como en la de Consulta avanzada (que permite interrogar por lemas y etiquetas morfosintácticas). En 2019 se revisó la Consulta avanzada y, entre otras mejoras, ahora es posible descargar los datos de la búsquedas en formato Excel. En 2020 se habilitaron en esa consulta las coordenadas geográficas y el código postal de los enclaves, para que los datos puedan ser analizados en Sistemas de Información Geográfica, además de haber finalizado la sincronización de texto con el audio. En 2021 se han revisado los fallos de sincronización, ortográficos y de etiquetado en todo el corpus disponible.

 


Enclaves cuya transcripción está disponible y es interrogable en la Consulta (diciembre 2023) Provincias o islas Número de horas transcritas Total de palabras transcritas Total de unidades (tokens)
229 55 311 horas, 53 minutos 3.384.041 palabras 4.860.596 unidades