Textes

Les données

Les fichiers PDF et HTML contenant les textes correspondant à la description des documents associés aux dossiers législatifs. Le nom du fichier correspond le plus souvent à celui du document qui le décrit. Par exemple PIONANR5L15B2712.json correspond à 15/uid/PIONANR5L15B2712.html et 15/uid/PIONANR5L15B2712.pdf.

Tout les documents sont dans un dossier <legislature>/uid, par exemple 15/uid pour les textes publiés sous la 15eme législature.

Certains documents sont divisés en plusieurs textes, comme par exemple le rapport sur le projet de loi, après engagement de la procédure accélérée, instituant un système universel de retraite dans lequel on trouve un tome 1 et un tome 2. Dans ce cas il ne suffit pas de l’identifiant unique du document (RAPPANR5L15B2683 dans ce cas), il faut aussi parcourir le fichier JSON pour y trouver l’identifiant unique de chaque texte (par exemple tome 1 et le tome 2).

Traçabilité

La provenance de chaque fichier, c’est à dire l’URL à partir de laquelle il a été obtenu, est conservé dans un fichier se terminant par .url. Par exemple 15/uid/PIONANR5L15B2712.html.url et 15/uid/PIONANR5L15B2712.pdf.url.

Qualité des données

Voir la liste des problèmes passés et actuels.