Linguatools Webcrawl Parallel Corpus German-English 2015

32 Last view: 2024-07-09

Linguatools Webcrawl Parallel Corpus German-English 2015

View resource name in all available languages

Corpus parallèle allemand-anglais Linguatools de données crawlées du web 2015

http://catalog.elra.info/product_info.php?products_id=1262

ID:

ELRA-W0091

The corpus consists of 10 million German-English parallel sentences that were crawled from the internet between 10/2013 and 04/2015. The sentences were gathered from over 112,000 different hosts. An elaborate multi-step quality filtering was applied, including language identification filter, machine translation filter, grammaticality filter, etc. to get as clean data as possible. There are no duplicate sentence pairs, and there is no overlap with existing publicly available corpora like europarl, DGT-TM, etc. Web pages have been automatically categorized for subject area. The corpus is available in TMX and Moses format (encoding UTF-8).

View resource description in all available languages

Ce corpus comprend 10 millions de phrases parallèles allemand-anglais qui ont été crawlées depuis l’internet entre octobre 2013 et avril 2015. Les phrases ont été rassemblées à partir de plus de 112,000 adresses différentes. Un filtrage de qualité en plusieurs étapes a été réalisé, incluant un filtrage pour l’identification de la langue, la traduction automatique, la grammaticalité, etc. afin d’obtenir des données les plus propres possible. Il n’y a pas de doublons dans les paires de phrases, et aucun chevauchement par rapport à des corpus publiquement disponibles comme europarl, DGT-TM, etc. Les pages web ont été catégorisées automatiquement par thème. Les corpus est disponible aux formats TMX et Moses (codage UTF-8).

You don’t have the permission to edit this resource.

DistributionAvailability

Available - Restricted Use

Start date: 03/07/2016

Licence

ELRA END USER

Restrictions: Academic - Non Commercial Use

For Non Members of ELRA

Fee: 5,000.00

User Nature: Commercial

ELRA VAR

Restrictions: Commercial Use

For Members of ELRA

Fee: 4,800.00

User Nature: Commercial

ELRA END USER

Restrictions: Academic - Non Commercial Use

For Members of ELRA

Fee: 4,800.00

User Nature: Commercial

ELRA VAR

Restrictions: Commercial Use

For Members of ELRA

Fee: 4,800.00

User Nature: Academic

ELRA END USER

Restrictions: Academic - Non Commercial Use

For Members of ELRA

Fee: 1,000.00

User Nature: Academic

ELRA VAR

Restrictions: Commercial Use

For Non Members of ELRA

Fee: 5,000.00

User Nature: Commercial

ELRA VAR

Restrictions: Commercial Use

For Non Members of ELRA

Fee: 5,000.00

User Nature: Academic

ELRA END USER

Restrictions: Academic - Non Commercial Use

For Non Members of ELRA

Fee: 1,200.00

User Nature: Academic

Contact Person

Mapelli Valérie

text

Monolingual text corpusLanguages

English German

Linguality

Linguality type: Monolingual

Multi-linguality type: Parallel

Size

ca. Gb

Time Coverage

between 10/2013 and 04/2015

Metadata

Created: 05/12/2005

Version

Version: 1.0

Last Updated: 03/07/2016

People who looked at this resource also viewed the following: