The CINTIL-TreeBank is a corpus of syntactic constituency trees of Portuguese texts composed of 10,039 sentences and 110,166 tokens taken from different sources and domains: news (8,861 sentences; 101,430 tokens), novels (399 sentences; 3,082 tokens). In addition, there are 779 sentences (5,654 tokens) that are used for regression testing of the computational grammar that supported the annotation of the corpus.
For the creation of this TreeBank we adopted a semi-automatic analysis with a double-blind annotation followed by adjudication. The resulting dataset contains one information level: phrase constituency.
The main motivation behind the creation of this resource was to build a high quality data set with syntactic information that could support the development of a large set of automatic resources and tools for Portuguese for NLP studies.

Le TreeBank CINTIL est un corpus d’arbres syntaxiques de texts portugais composes de 10 039 phrases et 110 166 tokens pris de sources et domaines différents: actualités (8 861 phrases; 101 430 tokens), nouvelles (399 phrases; 3 082 tokens). En complément, il contient 779 phrases (5 654 tokens) utilisés pour des tests de régression de la grammaire computationnelle qui a servi de base à l’annotation du corpus.
Pour la création de ce TreeBank, nous avons adopté une analyse semi-automatique avec une annotation en double aveugle suivie d’une adjudication. L’ensemble de données en résultant contient un niveau d’information : la constituance en phrases.
La motivation principale à la création de cette ressource était de construire un ensemble de données de haute qualité avec une information syntaxique qui puisse servir de base au développement d’un vaste ensemble de ressources et outils automatiques du portugais pour les études en TALN.

