A-SpeechDB

89 Last view: 2024-07-09

http://catalog.elra.info/product_info.php?products_id=1140

ID:

ELRA-S0315

A-SpeechDB© is an Arabic speech database suited for training acoustic models for Arabic phoneme-based speaker-independent automatic speech recognition systems. The database contains about 20 hours of continuous speech recorded through one desktop omni microphone by 205 native speakers from Egypt (about 30% of females and 70% of males), aged between 20 and 45.

Automatically generated transcriptions are provided with a manually revised version for each sentence.

Accuracy:
• Detailed speaker information: Age, Accent, place of stay, gender
• Recording in office environment
• Sentence labeled.
• Continuous Speech
• Automatic first pass transcription
• Manual second pass labeling
• Each text prompt is unique, no repeated sentences
• Sentences chosen to cover all Arabic phonetics several times

Technology:
• Automatic transcription using TransArab©
• Recording using DBRec© or Validator©
• Validation using Validator©

Audio:
• Sample Rate : 16 KHz
• Resolution: 16 bit PCM
• Format: MAF (A tool is included to convert the database to WAV format)

Text:
• Labeled data format: HTK lab format (100 nano-seconds)

View resource description in all available languages

A-SpeechDB© est une base de données orale arabe conçue pour entraîner les modèles acoustiques des systèmes de reconnaissance automatique de la parole en arabe, indépendants du locuteur et basés sur les phonèmes. La base de données contient environ 20 heures de parole continue enregistrée sur un microphone de table omni-directionnel par 205 locuteurs égyptiens de langue maternelle arabe (environ 30% de femmes et 70% d’hommes), âgés entre 20 et 45 ans.

Les transcriptions générées automatiquement sont fournies avec une version révisée manuellement pour chaque phrase.

Niveau de précision:
• Information détaillée par locuteur: âge, accent, lieu de résidence, genre
• Enregistrement dans un environnement de bureau
• Annotation au niveau de la phrase
• Parole continue
• Transcription automatique (premier passage)
• Annotation manuelle (deuxième passage)
• Chaque énoncé de texte (prompt) est unique, les phrases ne sont pas répétées
• Phrases choisies pour couvrir plusieurs fois l’ensemble de la phonétique arabe

Technologie:
• Transcription automatique réalisée avec TransArab©
• Enregistrements réalisés avec DBRec© ou Validator©
• Validation réalisée avec Validator©

Audio:
• Taux d’échantillonnage: 16 KHz
• Résolution: 16 bit PCM
• Format: MAF (Un outil est inclus pour convertir la base de données au format WAV)

Texte:
• Format de données d’annotation: HTK lab (100 nanosecondes)

You don’t have the permission to edit this resource.

DistributionAvailability

Available - Restricted Use

Start date: 04/27/2011

Licence

ELRA END USER

Restrictions: Academic - Non Commercial Use

For Non Members of ELRA

User Nature: Commercial

ELRA VAR

Restrictions: Commercial Use

For Members of ELRA

User Nature: Commercial

ELRA END USER

Restrictions: Academic - Non Commercial Use

For Members of ELRA

User Nature: Commercial

ELRA VAR

Restrictions: Commercial Use

For Members of ELRA

User Nature: Academic

ELRA END USER

Restrictions: Academic - Non Commercial Use

For Members of ELRA

User Nature: Academic

ELRA VAR

Restrictions: Commercial Use

For Non Members of ELRA

User Nature: Commercial

ELRA VAR

Restrictions: Commercial Use

For Non Members of ELRA

User Nature: Academic

ELRA END USER

Restrictions: Academic - Non Commercial Use

For Non Members of ELRA

User Nature: Academic

Contact Person

Mapelli Valérie

audio

Monolingual audio corpusLanguages

Arabic

Linguality

Linguality type: Monolingual

Size

no size available

Creation

Creation mode: Mixed

Metadata

Created: 05/12/2005

Version

Version: 1.0

Last Updated: 08/02/2012

ValidationValidated

Usage

Actual Use - Nlp Applications

Use NLP Specific: Speech Recognition

People who looked at this resource also viewed the following: