Mandarin-5000 database

View resource name in all available languages

Base de données Mandarin 5000

ID:

ELRA-S0145

The MANDARIN-5000 database contains the recordings of 4,752 speakers (2383 males, 2369 females) of Mandarin as first or second language (3,222 native speakers) recorded over the fixed and mobile telephone networks in all provinces of mainland China, including Hong Kong (fixed network: cordless handset: 513 speakers, POT (plain old telephone): 3,558 speakers; mobile network: 491 speakers; undetermined (cordless or mobile): 190 speakers). The database design closely follows the SpeechDat(II) conventions, in particular with respect to the content of the database. The database consists of 1 CD containing all documentation files including the phonetic lexicon, and 3 DVD-R containing the data, i.e. speech files and corresponding transcription files.

Speech samples are stored as sequences of 8-bit 8 kHz A-law, uncompressed. Each prompted
utterance is stored in a separate file, and each signal file is accompanied by a transcription file encoded in GB-2312 and ASCII which contains the orthographic representation (i.e. pictograms), phonemic transcription in Pinyin with tones and word boundaries.

Each speaker uttered the following 54 items:
- 6 isolated application words (25 fixed, 5 free)
- 1 additional application command with a parameter (e.g. name dialling)
- 1 sequence of 10 isolated digits (balanced)
- 6 digit strings (in total balanced for digits, letters, dashes and their transitions)
- 3 dates, where 1 of them spontaneous
- 2 word spotting phrases using an application word
- 2 handset information (?mobile phone ?? ?cordless phone ??)
- 2 isolated digits
- 2 spelled words (letter sequences)
- 1 currency money amount
- 1 natural plain number (balanced for words and transitions)
- 1 natural number with measure word
- 8 names (persons, spelling, cities, companies), where 3 of them spontaneous
- 1 spontaneous train schedule request (origin, destination, date, time)
- 1 spontaneous correction
- 1 spontaneous answer to question for time
- 1 spontaneous answer to question for time or day
- 4 spontaneous answers to questions, including fuzzy yes/no
- For training 8 phonetically rich sentences (read newspaper text) and alternatively for test 8 sentences dictated out of newspaper article
- 1 time of day (spontaneous)
- 1 time phrase (read)

The following age distribution has been obtained: 239 speakers are under 16, 2,391 are between 16 and 30, 1,449 are between 31 and 45, 601 are between 46 and 60, and 32 speakers are over 60. (The age of 40 speakers was not determined.)

A pronunciation lexicon with orthographic representation (i.e. pictograms), phonemic transcription in Pinyin with tones and frequency of occurrences is also included.

View resource description in all available languages

La base de données Mandarin-5000 est composée de 4752 locuteurs (2383 hommes, 2369 femmes), ayant le mandarin comme langue maternelle ou seconde langue (3222 locuteurs natifs), enregistrés sur les réseaux téléphoniques fixes et mobiles dans toutes les provinces de Chine, y compris Hong Kong (réseau fixe : téléphone sans fil : 513 locuteurs, POT (plain old telephone) : 3558 locuteurs, réseau mobile : 491 locuteurs ; non définis (sans fil ou mobile) : 190 locuteurs).

Cette base de données suit de près les conventions SpeechDat(II), notamment pour ce qui est du contenu de la base. Elle est disponible sur 1 CD contenant tous les fichiers de documentation y compris le lexique phonétique, ainsi que 3 DVD-R comprenant les données (fichiers sons et fichiers de transcription correspondants).

Ces fichiers sont stockés en séquences d'échantillons de 8 bit, 8 kHz, loi-A, et ne sont pas compressés. Chaque énoncé est stocké dans un fichier séparé et est accompagné d'un fichier d'étiquetage GB-2312 et ASCII, contenant la représentation orthographique (pictogrammes), la transcription phonémique en Pinyin avec les marqueurs de tons et de mots.

Chaque locuteur a prononcé les 54 éléments suivants :
- 6 mots de commandes isolés (25 fixes, 5 libres)
- 1 commande supplémentaire avec un paramètre (ex : numérotation par le nom)
- 1 séquence de 10 chiffres isolés (équilibrés)
- 6 séquences de chiffres (équilibrés pour les chiffres, lettres, tirets et transitions)
- 3 dates, dont 1 spontanée
- 2 expressions utilisant un mot de commande
- 2 informations de combinés (téléphone mobile ? sans fil ?)
- 2 chiffres isolés
- 2 mots épelés (séquences de lettres)
- 1 montant en devises
- 1 nombre naturel (équilibré pour les mots et les transitions)
- 8 noms (personnes, épellations, villes, compagnies), dont 3 spontanés.
- 1 demande spontanée d’horaire de train (origine, destination, date, heure)
- 1 correction spontanée
- 1 réponse spontanée à une question d’heure
- 1 réponse spontanée à une question d’heure ou de jour
- 4 réponses spontanées à des questions, y compris oui/non.
- Pour l’apprentissage, 8 phrases phonétiquement riches (texte de journal lu) et alternativement pour le test 8 phrases dictées à partir d’un article de journal
- 1 jour (spontané)
- 1 phrase comportant une notion de temps (lue)

Les classes d'âge sont réparties comme suit : 239 locuteurs ayant moins de 16 ans, 2391 locuteurs entre 16 et 30 ans, 1449 locuteurs entre 31 et 45 ans, 601 locuteurs entre 46 et 60 ans, 32 locuteurs ayant plus de 60 ans,et 40 locuteurs non définis.

Un lexique de prononciation avec sa représentation orthographique (pictogrammes), transcription phonémique en Pinyin avec les marqueurs de tons et la fréquence des occurrences est également fourni.

You don’t have the permission to edit this resource.