PolyVar

ID:

ELRA-S0046

PolyVar is a speaker verification database comprising native and non-native speakers of French, mainly from Switzerland but also from other European countries. It consists of read and spontaneous speech recorded by 143 speakers (85 male and 58 female) amounting to 160 hours of speech. Each speaker recorded from 1 to 229 sessions, giving a total of 3,600 recorded sessions. The data are provided with orthographic annotation.
The number of calls per speaker is as follows:

13 speakers called 100 times
9 speakers called from 51 to 100 times
16 speakers called from 21 to 50 times
3 speakers called from 11 to 20 times
31 speakers called from 2 to 10 times
71 speakers called only once

Each speaker uttered up to 53 different items per session, including:

* 3 sequences of digits (1 ID number, 1 credit card number and 1 sequence of 6 digits)
* 24 application words (17 words about touris in Martigny)
* 10 read sentences
* 4 numbers (2 natural numbers, 2 amounts)
* 2 items with dates (1 read/1 spontaneous)
* 2 items with hours (1 read/1 spontaneous)
* 2 spelled words
* 3 spontaneous answers (questions about their gender, native language and the weather)
* 1 comment
* 1 telephone enquiry

File format: 8-bit a-law
Standard in use: NIST
Sampling rate: 8 kHz
Medium: 8 CD-ROMs

See also ELRA-S0047.

View resource description in all available languages

PolyVar est une base de données de vérification d'identité. Elle a été enregistrée par des locuteurs ayant le français comme langue maternelle ou seconde langue, provenant principalement de Suisse mais aussi d'autres pays européens. Elle consiste en de la parole lue et spontanée enregistrée par 143 locuteurs (85 hommes et 58 femmes) pour 160 heures de parole. Chaque locuteur a enregistré entre 1 et 229 sessions pour un total de 3 600 sessions d'enregistrement. Les données sont fournies avec une annotation orthographique.
La répartition des appels par locuteur est la suivante:

13 locuteurs ou locutrices ont appelé plus de 100 fois
9 locuteurs ou locutrices ont appelé entre 51 et 100 fois
16 locuteurs ou locutrices ont appelé entre 21 et 50 fois
3 locuteurs ou locutrices ont appelé entre 11 et 20 fois
31 locuteurs ou locutrices ont appelé entre 2 et 10 fois
71 locuteurs ou locutrices ont appelé une seule fois

Lors de chaque session, le locuteur prononce jusqu'à 53 items différents. On distingue entre autre les ressources suivantes:

* 3 séquences de chiffres (1 numéro d'identification, 1 numéro de carte de crédit et 1 séquence de 6 chiffres)
* 24 mots d'applications (dont 17 mots sur le tourisme à Martigny)
* 10 phrases lues
* 4 nombres (2 nombres naturels, 2 montants)
* 2 items avec des dates (1 lue/ 1 spontanée)
* 2 items avec des heures (1 lue/ 1 spontanée)
* 3 mots épelés
* 3 réponses spontanées (questions sur leur genre - homme/femme - , leur langue maternelle et le temps - météo)
* 1 commentaire
* 1 demande de renseignement téléphonique

Format de fichier : Loi-a 8-bit
Standard utilisé : NIST
Fréquence d'échantillonnage : 8 kHz
Support électronique : 8 CD-ROMs

Voir aussi ELRA-S0047.

You don’t have the permission to edit this resource.
People who looked at this resource also viewed the following: