FRESCO: French Polyphone Database (SpeechDat(M)) DB1

View resource name in all available languages

FRESCO : Base de données "Polyphone" en français (SpeechDat(M)) DB1

ID:

ELRA-S0016

FRESCO, a polyphone-like telephone speech database in French, was produced as part of the SpeechDat(M) project. Containing approximately 35,000 utterances recorded from 1,000 callers over the terrestrial telephone network in France, it offers immediately usable and relevant speech for the training, assessment and deployment of speaker-independent speech recognisers based on phoneme models or word models. In addition to a speech and annotation file for every utterance, the database contains a pronunciation lexicon for all 13,000 different words recorded. The database consists of two two subsets DB1 and DB2. DB1 contains the complete set of data (phonetically rich sentences and application oriented data). DB2 contains only the phonetically rich sentences.
The speaker set is balanced with respect to gender and adheres to a predefined age distribution, while the geographic distribution roughly resembles the demographics of France.

For more information: http://www.elda.org/catalogue/en/speech/doc/fresco.html

A pronunciation lexicon with a phonemic transcription in SAMPA is also included.

View resource description in all available languages

FRESCO est un corpus de parole téléphonique en français du type de Polyphone, qui a été produit dans le cadre du projet SpeechDat (M). Il contient approximativement 35 000 énoncés enregistrés par 1000 locuteurs à travers le réseau téléphonique fixe en France. Ce corpus parlé est immédiatement utilisable pour l'apprentissage, l'évaluation et le déploiement de systèmes de reconnaissance de parole indépendants du locuteur, qu'ils soient à base de modèles de phonèmes ou de modèles de mots. Outre un fichier de parole et un fichier d'annotation pour chaque énoncé, la base de données contient un lexique de prononciation pour chacun des 13 000 mots du vocabulaire des enregistrements. La base de données est formée de deux sous-ensembles, les phrases phonétiquement riches et les mots orientés applications.

La population des locuteurs est équilibrée en fonction du sexe et suit une distribution des âges fixée à l'avance. La distribution géographique des locuteurs suit à peu près la répartition de la population française.

Pour plus d'informations: http://www.elda.org/catalogue/en/speech/doc/fresco.html

Un lexique de prononciation avec sa transcription phonétique en SAMPA est également fourni.

You don’t have the permission to edit this resource.