Descripción

El COSER es un corpus dialectal, pero restringido al habla de aquellos informantes que fueron objeto de interés en la dialectología tradicional: hablantes rurales, a ser posible mayores, de escasa escolarización y naturales del lugar en que son entrevistados. El COSER se nutre del mismo tipo de informantes que los atlas lingüísticos. Actualmente (diciembre de 2022), 2.961 informantes están registrados en nuestra base de datos, si bien solo de algo más de la mitad han sido entrevistados en profundidad:


Informantes Número Media de edad
Hombres: 1.415 (47,8%) 75 años
Mujeres: 1.546 (52,2%) 73,6 años
Total: 2.961 74,2 años



La edad media global de los informantes es de 74 años, siendo ligeramente más elevada en los hombres (75 años) que en las mujeres (73,6 años). Se trata, pues, de informantes que han nacido en el primer tercio del siglo XX y que han recibido una cierta instrucción educativa: por lo general, han cursado, con diverso aprovechamiento, algunos años de escuela primaria aprendiendo, según sus declaraciones, "a leer y escribir, y las cuatro reglas" matemáticas elementales, si bien no faltan los analfabetos.

Las grabaciones que integran el COSER han sido obtenidas con regularidad desde el año 1990 hasta el momento actual -diciembre de 2022- en una serie de campañas de encuesta. Ese trabajo de campo ha sido organizado con el apoyo de varios proyectos de investigación y como parte de las prácticas de campo de las asignaturas "Dialectología hispánica" (cursos 1988-1996) y "El español hablado. Variantes peninsulares" (1996-2004), "Curso monográfico de variedades del español" (2005-2011), materias optativas pertenecientes a la Licenciatura de Filología Hispánica de la Universidad Autónoma de Madrid. Desde 2011 hasta el presente se han integrado como actividad optativa de la asignatura "Lengua española. Variedades de la lengua" (3er curso) del Grado de Estudios Hispánicos de esa universidad.


Enclaves encuestados Provincias o islas Total de las grabaciones Promedio de grabación por entrevista Número de entrevistas Entrevistas disponibles en texto y audio (diciembre de 2022)
1.415 55 1.910 horas 1 hora, 4 min. 1.772 218


Hasta 2022 se realizaron entrevistas en 1.415 enclaves rurales de la Península Ibérica y de los dos archipiélagos, pertenecientes a 55 provincias o islas (que hemos contado de forma independiente aunque se adscriban a una única provincia). La localización geográfica de los mismos figura en el mapa, donde pueden identificarse a través de una código numérico que resume la provincia y el enclave, ordenados alfabéticamente (por ejemplo, a Berganzo de la provincia de Álava, le corresponde la clave 0101). Los materiales sonoros abarcan gran parte de la Península Ibérica y la densidad de la red de puntos es equiparable a la de los atlas regionales o, incluso, más tupida.

En total, el COSER dispone actualmente de 1.910 horas de grabación. Aunque la mayor parte se grabó en soporte analógico, en 2010 fue posible finalizar la digitalización de todos los materiales, de los que presentamos una muestra como archivos sonoros. La mitad de los materiales cuenta con transcripciones, de diversa naturaleza y exactitud, acometidas a gracias al apoyo obtenido por diversos proyectos de investigación y la participación de varias generaciones de estudiantes de la licenciatura de la UAM, que han transcrito, como una parte de sus trabajos del curso académico, grabaciones que habían recolectado. En 2015 las 147 transcripciones correspondientes a 141 enclaves (aproximadamente 183 horas), revisadas y normalizadas con el editor BConcord, se publicaron en esta página web (archivos disponibles) y se hicieron interrogables a través de un buscador. Desde entonces hasta mayo de 2022 ese número se ha incrementado y suma 218 transcripciones, correspondientes a 295 horas, 48 minutos, de grabación, que conforman un corpus interrogable de 3.596.205 palabras. Desde 2017 ese corpus es accesible tanto en la modalidad de Consulta simple como en la de Consulta avanzada (que permite interrogar por lemas y etiquetas morfosintácticas). En 2019 se revisó la Consulta avanzada y, entre otras mejoras, ahora es posible descargar los datos de la búsquedas en formato Excel. En 2020 se habilitaron en esa consulta las coordenadas geográficas y el código postal de los enclaves, para que los datos puedan ser analizados en Sistemas de Información Geográfica, además de haber finalizado la sincronización de texto con el audio. En 2021 y 2022 se han revisado los fallos de sincronización, ortográficos y de etiquetado en todo el corpus disponible.

 


Enclaves cuya transcripción está disponible y es interrogable en la Consulta (diciembre 2022) Provincias o islas Número de horas transcritas Total de palabras transcritas Total de unidades (tokens)
218 55 295 h. 48 m 3.596.205 4.591.828