GlobalPhone Swahili Pronunciation Dictionary

Dictionnaire de prononciation GlobalPhone swahili



The GlobalPhone pronunciation dictionaries, created within the framework of the multilingual speech and language corpus GlobalPhone, were developed in collaboration with the Karlsruhe Institute of Technology (KIT).

The GlobalPhone pronunciation dictionaries contain the pronunciations of all word forms found in the transcription data of the GlobalPhone speech & text database. The pronunciation dictionaries are currently available in 20 languages: Arabic (29230 entries/27059 words), Bulgarian (20193 entries), Chinese-Mandarin (73388 pronunciations), Croatian (23497 entries/20628 words), Czech (33049 entries/32942 words), French (36837 entries/20710 words), German (48979 entries/46035 words), Hausa (42662 entries/42079 words), Japanese (18094 entries), Korean (3500 entries syllable-based, 97493 entries/81602 words word-based), Polish (36484 entries), Portuguese (Brazilian) (58803 entries/58787 words), Russian (28818 entries/27667 words), Spanish (Latin American) (43264 entries/33960 words), Swahili (10664 entries), Swedish (25401 entries/25356 words), Thai (small set with 12420 entries and larger set with 25570 entries/22462 words), Turkish (31330 entries/31087 words), Ukrainian (7748 entries/7740 words), and Vietnamese (38504 entries/29974 words).

1) Dictionary Encoding:
The GlobalPhone pronunciation dictionary entries consist of full word forms and are either given in the original script of that language, mostly in UTF-8 encoding (Bulgarian, Chinese-Mandarin, Croatian, Czech, French, Japanese, Korean, Polish, Portuguese, Russian, Spanish, Swahili, Turkish, Thai, Ukrainian, Vietnamese) corresponding to the trl-files of the GlobalPhone transcriptions or in a Romanized versions encoded in ASCII/ISO-8859 encoding to fit the rmn-files of the GlobalPhone transcriptions (Arabic, German, Hausa (simplified boko), Swedish). In some languages both versions exist. Romanization was performed by reversible mappings, which are documented in most cases. Furthermore, in several languages, alternative versions are available, e.g. Chinese-Mandarin is provided in both, UTF-8 for Hanzi character-based dictionary (trl) and Pinyin version in ASCII (rmn); Korean is provided in both, UTF-8 for Eojeol- and Hangul-based dictionary (trl) and ASCII for a Romanized version in which a data-driven algorithm was performed to merge syllable units into a reasonable set of word-like units (rmn).

2) Dictionary Phone set:
The phone sets for each language were derived individually from the literature following best practices for automatic speech processing. Each phone set is explained and described in the documentation using the international standards of the International Phonetic Alphabet (IPA). A language independent GlobalPhone naming convention for the phone sets is used (indicated by “M_”) to support the sharing of phones across languages to build multilingual pronunciation dictionaries or acoustic models. For historical reasons, some dictionaries still use language dependent phone names. For most of those dictionaries, the documentation provides a mapping to the GlobalPhone phone names.

3) Dictionary Generation:
Whenever the grapheme-to-phoneme relationship allowed, the dictionaries were created semi-automatically. In the first step handcrafted grapheme-to-phoneme rules were applied to generate initial pronunciations from all word forms appearing in the GlobalPhone transcriptions. The number of rules highly depends on the language. In the second step, the generated pronunciations were manually checked by native speakers, correcting potential errors of the automatic pronunciation generation process. In the third step, most of the dictionaries were enriched by special entries such as acronyms, foreign words, pronunciation variants, numbers, or partial words and cross-checked by the native speakers. Most of the dictionaries have been applied to large vocabulary speech recognition. In many cases the GlobalPhone dictionaries were compared to straight-forward grapheme-based speech recognition and to alternative sources, such as Wiktionary and usually demonstrated to be superior in terms of quality, coverage, and accuracy.

4) Format:
The format of the dictionaries is the same across languages and is straight-forward. Each line consists of one word form and its pronunciation separated by blank. The pronunciation consists of a concatenation of phone symbols separated by blanks. Both, words and their pronunciations are given in tcl-script list format, i.e. enclosed in “{}”, since phones can carry tags, indicating the tone, length or stress of a vowel or the palatalization of consonants, or the word boundary tag “WB”, indicating the boundary of a dictionary unit. The WB tag can for example be included as a standard question in the decision tree questions for capturing crossword models in context-dependent modeling. Pronunciation variants are indicated by (<n>) with n = 2, 3, 4,… showing the number of variants per word. The order in which variants occur in the dictionary is not necessarily related to their frequency in the corpus.
Example: {word} {{w WB} o r {d WB}}

5) Documentation: The pronunciation dictionaries for each language are complemented by a documentation that describes the format of the dictionary, the phone set including its mapping to the International Phonetic Alphabet (IPA), and the frequency distribution of the phones in the dictionary. Most of the pronunciation dictionaries have been successfully applied to large vocabulary speech recognition. Experimental results and general information about the GlobalPhone corpus were published widely in conference or journal papers and partially referenced in the documentation.

A good summary of the pronunciation dictionaries is provided in:
Tanja Schultz and Tim Schlippe (2014) GlobalPhone: Pronunciation Dictionaries in 20 Languages, Proceedings of the 9th edition of the Language Resources and Evaluation Conference (LREC), Reykjavik, Iceland, 2014.

Les dictionnaires de prononciation GlobalPhone, créés dans le cadre du corpus multilingue de parole GlobalPhone, ont été développés avec la collaboration du Karlsruhe Institute of Technology (KIT).

Les dictionnaires de prononciation GlobalPhone contiennent les prononciations de toutes les formes de mots des données de transcription de la base de données textuelle et orale GlobalPhone. Les dictionnaires de prononciation sont actuellement disponibles en 20 langues: allemand (48979 entrées/46035 mots), arabe (29230 entrées/27059 mots), bulgare (20193 entrées), chinois-mandarin (73388 prononciations), coréen (3500 syllabes), croate (23497 entrées/20628 mots), espagnol (d’Amérique latine) (43264 entrées/33960 mots), swahili (10664 entrées), français (36837 entrées/20710 mots), hausa (42662 entrées/42079 mots), japonais (18094 entrées), polonais (36484 entrées), portugais (brésilien) (54146 entrées/54130 mots), russe (28818 entrées/27667 mots), suédois (env. 25000 entrées), tchèque (33049 entrées/32942 mots) , thaï (découpé en 2 ensembles: un petit ensemble de 12,420 entrées de pronunciation de 12,420 mots différents, qui ne comprend pas de variantes de prononciation, et un plus grand ensemble qui comprend 25,570 entrées de 22,462 unités de mots différentes, et 3,108 entrées de variantes de pronunciation (jusqu’à quatre variantes), turc (31330 entrées/31087 mots), ukrainien (7748 entries/7740 words), vietnamien (38504 entrées/29974 mots).

1) Codage du dictionnaire:
Les entrées du dictionnaire de prononciation consistent en des formes de mots entières et sont données soit dans le script original de la langue, principalement au format de codage UTF-8 (bulgare, chinois-mandarin, coréen, croate, espagnol, français, japonais, polonais, portugais, russe, swahili, tchèque, thaï, turc, ukrainien, vietnamien) correspondant aux fichiers trl des transcriptions GlobalPhone, ou dans le script romanisé codé en ASCII/ISO-8859 pour correspondre aux fichiers rmn des transcriptions GlobalPhone (arabe, allemand, haoussa (boko simplifié), suédois). Pour certaines langues, les deux versions existent. La romanisation a été réalisée par des correspondances réversibles, qui sont documentées dans la plupart des cas. De plus, pour plusieurs langues, des versions alternatives sont disponibles; par exemple, le chinois-mandarin est fourni à la fois en UTF-8 pour les dictionnaires basé sur les caractères Eojeol et Hangul (trl) et en ASCII pour la version romanisée dans laquelle un algorithme orienté données a été réalisé pour fusionner les unités syllabiques dans un ensemble raisonnable d’unités similaires à des mots (rmn).

2) Ensemble des phones du dictionnaire :
Les ensembles de phones de chaque langue sont dérivés individuellement des publications qui présentent les meilleures pratiques du traitement automatique de la parole. Chaque ensemble de phones est expliqué et décrit dans la documentation fournie en utilisant les standards internationaux de l’alphabet phonétique international (International Phonetic Alphabet - IPA). Une convention de nommage GlobalPhone pour les ensembles de phones, indépendante de la langue, a été utilisée (indiquée par “M_”) dans un but de partage des phones à travers les langues pour construire des modèles de dictionnaires de prononciation ou des modèles acoustiques multilingues. Pour des raisons historiques, quelques dictionnaires utilisent encore les noms de phones dépendants de la langue. Pour la plupart de ces dictionnaires, la documentation fournit la correspondance avec les noms de phone GlobalPhone.

3) Génération du dictionnaire:
Lorsque la relation graphème-phonème le permettait, les dictionnaires ont été créés semi-automatiquement. Dans un premier temps, les régles manuscrites graphème-phonème ont été appliquées afin de générer des prononciations initiales à partir de toutes les formes de mots apparaissant dans les transcriptions GlobalPhone. Le nombre de règles dépend fortement de la langue. Dans un deuxième temps, les prononciations générées ont été vérifiées manuellement par des locuteurs natifs, afin de corriger les erreurs potentielles du processus de génération automatique de prononciation. Dans un troisième temps, la plupart des dictionnaires ont été enrichis d’entrées spéciales telles que des acronymes, mots étrangers, variantes de prononciation, nombres, ou des mots partiels, puis ont été vérifiés par des locuteurs natifs. Dans beaucoup de cas, les dictionnaires GlobalPhone ont été comparés à une simple reconnaissance de la parole basée sur le graphème et d’autres sources alternatives, telles que Wiktionary et se sont avérés habituellement supérieurs en termes de qualité, couverture et précision.

4) Format:
Le format des dictionnaires est simple et identique pour chaque langue. Chaque ligne consiste en une forme de mot et sa prononciation séparés par un espace. La prononciation consiste en une concaténation des symboles de phones séparés par des espaces. Les mots et leurs prononciations sont donnés dans la forme d’une liste avec un script tcl, c’est-à-dire inclus dans des “{}”, puisque les phones peuvent avoir des étiquettes, indiquant le ton, la longueur ou l’accentuation des voyelle ou encore la palatisation des consonnes, ou la limite du mot avec l’étiquette “WB”, qui indique la limite d’une unité du dictionnaire. L’étiquette WB peut par exemple être incluse comme une question standard dans les questions d’arbre décisionnel pour la capture de modèles de mots croisés dans la modélisation dépendante du contexte. Les variantes de prononciation sont indiquées par (<n>) avec n = 2, 3, 4,… indiquant le nombre de variantes par mot. L’ordre dans lequel les variantes interviennent dans le dictionnaire n’est pas nécessairement lié à leur fréquence dans le corpus.
Exemple: {word} {{w WB} o r {d WB}}

5) Documentation:
Les dictionnaires de prononciation pour chaque langue sont complétés par une documentation qui décrit le format du dictionnaire, l’ensemble de phones incluant la correspondance avec l’alphabet phonétique international (International Phonetic Alphabet - IPA), et la répartition des fréquences des phones dans les dictionnaires. La plupart des dictionnaires de prononciation ont été soumis à un système de reconnaissance de la parole à large vocabulaire avec succès. Les résultats d’expérimentations et des informations générales sur le corpus GlobalPhone ont été largement publiés dans des conférences et des articles de revues et sont référencés en partie dans la documentation.

Un bon résumé des dictionnaires de pronunciation est fourni dans:
Tanja Schultz and Tim Schlippe (2014) GlobalPhone: Pronunciation Dictionaries in 20 Languages, Actes de la 9ème édition de la conferences sur les Ressources Linguistiques et l’Evaluation (LREC), Reykjavik, Islande, 2014.

