Al-Hayat Arabic Corpus

View resource name in all available languages

Corpus arabe Al-Hayat

ID:

ELRA-W0030

The corpus was developed in the course of a research project at the University of Essex, in collaboration with the Open University.
The corpus contains Al-Hayat newspaper articles with value added for Language Engineering and Information Retrieval applications development purposes.
The data have been distributed into 7 subject-specific databases, thus following the Al-Hayat subject tags: General, Car, Computer, News, Economics, Science, and Sport.
Mark-up, numbers, special characters and punctuation have been removed. The size of the total file is 268 MB. The dataset contains 18,639,264 distinct tokens in 42,591 articles, organised in 7 domains.

View resource description in all available languages

Ce corpus a été développé dans le cadre d'un projet de recherche de l'Université d'Essex, en collaboration avec Open University.
Ce corpus est constitué d'articles extraits du journal Al-Hayat, qui pourront être utilisés pour le développement d'applications en ingénierie linguistique et pour l'extraction d'information.
Les données sont réparties dans 7 bases spécifiques, suivant les critères de répartition des sujets du journal Al-Hayat : rubrique Général, rubrique Automobile, rubrique Informatique, rubrique Actualités, rubrique Economie, rubrique Sciences, et rubrique Sport.
Tout balisage, les nombres, les caractères spéciaux et la ponctuation ont été supprimés. La taille totale du fichier est de 268 Mo. Il contient 18 639 264 unités lexicales, 42 591 articles, répartis dans 7 domaines différents.

You don’t have the permission to edit this resource.
People who looked at this resource also viewed the following: