Informantes | Número | Media de edad |
Hombres: | 1.461 (47,68%) | 74,8 años |
Mujeres: | 1.603 (52,32%) | 73,53 años |
Total: | 3.064 | 74,2 años |
Enclaves encuestados | Provincias o islas | Total de las grabaciones | Promedio de grabación por entrevista | Entrevistas disponibles en texto y audio (octubre de 2024) |
1.461 | 56 | 1.989 horas | 1h. 5 minutos | 244 |
Hasta 2024 se realizaron entrevistas en 1.461 enclaves rurales de la Península
Ibérica y de los dos archipiélagos, pertenecientes a 56 provincias
o islas (que hemos contado de forma independiente aunque se adscriban a
una única provincia). La localización geográfica de los mismos
figura en el mapa, donde pueden identificarse
a través de una código numérico que resume la provincia
y el enclave, ordenados alfabéticamente (por ejemplo, a Berganzo
de la provincia de Álava, le corresponde la clave 0101). Los materiales
sonoros abarcan gran parte de la península ibérica y la densidad
de la red de puntos es equiparable a la de los atlas regionales o, incluso,
más tupida.
En total, el COSER dispone actualmente de 1.989 horas de grabación.
Aunque la mayor parte se grabó en soporte analógico, en 2010
fue posible finalizar la digitalización de todos los materiales,
de los que presentamos una muestra como archivos
sonoros. La mitad de los materiales cuenta con transcripciones, de diversa
naturaleza y exactitud, acometidas a gracias al apoyo obtenido por diversos proyectos de investigación
y la participación de varias generaciones de estudiantes de la licenciatura
de la UAM, que han transcrito, como una parte de sus trabajos del curso
académico, grabaciones que habían recolectado. En 2015 las
147 transcripciones correspondientes a 141 enclaves (aproximadamente 183
horas), revisadas y normalizadas con el editor BConcord, se publicaron en
esta página web (archivos disponibles)
y se hicieron interrogables a través de un buscador.
Desde entonces hasta octubre de 2024 ese número se ha incrementado y suma
244 transcripciones, correspondientes a 333 horas, 44 minutos, de grabación,
que conforman un corpus interrogable de 3.631.437 palabras. Desde 2017 ese
corpus es accesible tanto en la modalidad de Consulta
simple como en la de Consulta
avanzada (que permite interrogar por lemas y etiquetas morfosintácticas).
En 2019 se revisó la Consulta avanzada y, entre otras mejoras, ahora
es posible descargar los datos de las búsquedas en formato Excel. En 2020 se
habilitaron en esa consulta las coordenadas geográficas y el código
postal de los enclaves, para que los datos puedan ser analizados en Sistemas
de Información Geográfica, además de haber finalizado la sincronización
de texto con el audio. Desde 2021 se vienen revisando los fallos de sincronización, ortográficos y de etiquetado en todo el corpus disponible. Finalmente, a finales de 2020 se habilitó la descarga del corpus COSER en acceso abierto, tanto en formato txt (en tiempo real) como etiquetado en xml (con tres versiones hasta ahora, diciembre de 2020, mayo de 2022 y marzo de 2024). En 2024 se ha abordado la mejora de los archivos sonoros grabados en formato digital.
Enclaves cuya transcripción está disponible y es interrogable en la Consulta (octubre de 2024) | Provincias o islas | Número de horas transcritas | Total de palabras transcritas | Total de unidades (tokens) |
244 | 56 | 333 horas, 44 minutos | 3.631.437 palabras | 5.239.016 unidades |
|