Telephone Speech Data Collection for Czech

View resource name in all available languages

Base de données téléphoniques tchèque

ID:

ELRA-S0077

This database contains speech collected in Czech Republic during summer 1999. This database comprises telephone recordings from 1227 speakers (590 males and 637 females) recorded directly over the fixed telephone network using an ISDN interface.
Speech files are stored as sequences of 8bit 8 kHz A-law uncompressed speech samples. Each prompted utterance is stored within a separate file. Each speech file has an accompanying ASCII SAM label file according to the specifications of the SpeechDat project (URL: http://www.speechdat.com).
Corpus contents:
? connected digits (prompt sheet number, telephone number, credit card number),
? sequences of isolated digits (5 digits),
? answers to yes/no questions,
? common application words and phrases.
The following age distribution has been obtained: 36 speakers are below 16 years old, 537 speakers are between 16 and 30, 306 speakers are between 31 and 45, 259 speakers are between 46 and 60, 88 speakers are over 60, and 1 speaker whose age is unknown.
The transcription included in this database is an orthographic, lexical transcription with a few details that represent audible acoustic events (speech and non speech) present in the corresponding waveform files. SpeechDat conventions were used in this database.

A pronunciation lexicon with a phonemic transcription in SAMPA is also included.

View resource description in all available languages

Cette base de donnée contient des enregistrements collectés en République Tchèque en été 1999. Cette base de données comprend des enregistrements de 1227 locuteurs (590 hommes et 637 femmes) enregistrés directement à travers le réseau téléphonique fixe, en utilisant une interface ISDN.

Les fichiers de parole sont stockés en séquences d'échantillons de 8 bits, 8 kHz, loi-A. Chaque énoncé est stocké dans un fichier séparé et est accompagné d'un fichier d'étiquetage ASCII SAM, conformément aux spécifications du projet SpeechDat (URL: http://www.speechdat.com).

Le corpus contient :

* chiffres connectés (numéro permettant d'identifier la feuille de prompt, numéro de téléphone, numéro de carte de crédit),
* séquences de chiffres isolés (5 chiffres),
* réponses aux questions oui/non,
* mots et expressions de commandes courants.

Les classes d'âge sont réparties comme suit : 36 locuteurs de moins de 16 ans, 537 locuteurs entre 16 et 30 ans, 306 locuteurs entre 31 et 45 ans, 259 locuteurs entre 46 et 60 ans, 88 locuteurs de plus de 60, et 1 locuteur dont l'âge est inconnu.

Les CD-ROMs fournissent également une transcription orthographique et lexicale avec des informations sur les événements acoustiques audibles (parole et non parole). La base de données utilise les conventions du projet SpeechDat.

Un lexique de prononciation avec sa transcription phonétique en SAMPA est également fourni.

You don’t have the permission to edit this resource.