Russian Speech Database

View resource name in all available languages

Base de données orale du russe

ID:

ELRA-S0050

The STC Russian speech database was recorded in 1996-1998. The main purpose of the database is to investigate individual speaker variability and to validate speaker recognition algorithms. The database was recorded through a 16-bit Vibra-16 Creative Labs sound card with an 11,025 Hz sampling rate.
The database contains Russian read speech of 89 different speakers (54 male, 35 female), including 70 speakers with 15 sessions or more, 10 speakers with 10 sessions or more and 9 speakers with less than 10 sessions. The speakers were recorded in Saint-Petersburg and are within the age of 18-62. All are native speakers.
The corpus consists of 5 sentences. Each speaker reads carefully but fluently each sentence 15 times on different dates over the period of 1-3 months. The corpus contains a total of 6,889 utterances and of 2 volumes, total size 700 MB uncompressed data. The signal of each utterance is stored as a separate file (approx. 126 KB). Total size of data for one speaker approximates 9,500 KB. Average utterance duration is about 5 sec.
A file gives information about the speakers (speaker?s age and gender). The orthography and phonetic transcription of the corpus is given in separate files which contain the prompted sentences and their transcription in IPA. The signal files are raw files without any header, 16 bit per sample, linear, 11,025 Hz sample frequency.
The recording conditions were as follows:
Microphone: dynamic omnidirectional high-quality microphone, distance to mouth 5-10 cm
Environment: office room
Sampling rate: 11,025 Hz
Resolution: 16 Bit
Sound board: Creative Labs Vibra-16
Means of delivery: CD-ROM

View resource description in all available languages

La base de données orale du russe de STC a été enregistrée entre 1996 et 1998. L'objectif principal de la base est la recherche sur la variabilité entre locuteurs et la validation d'algorithmes de reconnaissance du locuteur. Cette base a été enregistrée au moyen d'une carte son Vibra-16 16-bit de Creative Labs avec une fréquence d'échantillonnage de 11 025 Hz.

Les données contiennent de la parole lue en russe de 89 locuteurs différents (54 hommes, 35 femmes), dont 70 ont enregistré 15 sessions ou plus, 10 locuteurs ont enregistré 10 sessions ou plus et 9 locuteurs ont enregistré moins de 10 sessions. Les locuteurs ont été enregistrés à Saint-Petersbourg et ont entre 18 et 62 ans. Tous ont le russe pour langue maternelle.

Le corpus est composé de 5 phrases. Chaque locuteur a lu attentivement mais couramment chaque phrase 15 fois à différentes dates sur une période de 1 à 3 mois. Le corpus contient un total de 6 889 occurrences et est composé de 2 volumes, pour une taille totale de 700 MB de données non compressées. Le signal de chaque occurrence est stocké sur un fichier séparé (env. 126 KB). La taille totale des données pour un locuteur est d'environ 9 500 KB. La durée moyenne d'une occurrence est d'environ 5 secondes.

Un fichier présente des informations sur les locuteurs (âge et genre). L'orthographe et la transcription phonétique du corpus est donnée dans des fichiers séparés contenant les phrases et leurs transcriptions en IPA. Les fichiers concernant les signaux sont des fichiers bruts, sans en-tête, avec 16 bit par échantillon, codage linéaire, et une fréquence d'échantillonnage de 11 025 Hz.

Les conditions d'enregistrement sont comme suit :


Microphone : microphone haute qualité, omnidirectionnel, dynamique ; distance à la bouche entre 5 et 10 cm.
Environnement : bureau.
Fréquence d'échantillonnage : 11 025 Hz.
Résolution : 16 Bit.
Carte son: Creative Labs Vibra-16.
Support électronique : CD-ROM

You don’t have the permission to edit this resource.
People who looked at this resource also viewed the following: