EUROPARL Corpus Parallel Corpora: Portuguese-English

View resource name in all available languages

Corpus parallèle portugais-anglais du corpus EUROPARL



The EUROPARL Corpus (Portuguese-English subpart of the parallel corpora), was extracted from the proceedings of the European Parliament. It contains transcriptions of sessions dating back from 1996 to 2011, with a total of approximately 58,324,562 tokens of European Portuguese (L1) and 49,216,896 tokens of English (translation).

The EUROPARL Corpus is composed of one text file for the English corpus and two files for the Portuguese version: a text file and an annotated file. The text version contains plain text and no further annotation. The Portuguese annotated file is a four-column file with one token per line, followed by a PoS tag and a lemma. The corpus was automatically PoS-tagged with MBT tagger (, and lemmatized with MBLEM (, following the annotation scheme of the Corpus of Reference of Contemporary Portuguese.

View resource description in all available languages

Le corpus EUROPARL (la sous-partie portugais-anglais du corpus), est extrait des actes du Parlement Européen. Il contient des transcriptions des séances parlementaires correspondant à la période 1996-2011, et comprend environ 58,324,562 mots en portugais européen (L1) et 49,216,896 mots en anglais (traduction).

Le corpus EUROPARL comprend un fichier texte pour la sous-partie en anglais, et deux fichiers pour la version portugaise: un fichier texte et un fichier annoté. Le fichier texte contient du texte simple sans annotation. Le fichier annoté contient un mot par ligne, suivi par la partie du discours et par le lemme. Le corpus a été annoté automatiquement en parties du discours avec l’étiqueteur MBT (, et il a été lemmatisé avec l’outil MBLEM (, selon le schéma d’annotation du Corpus de Référence du Portugais Contemporain.

You don’t have the permission to edit this resource.