Open débat
#debatgrandouvert Libérons les données des consultations en ligne
Cette page présente les résultats de recherches menées en partenariat avec Open Source Politics sur les outils libres de Traitement Automatique de la Langue (TAL). L'objectif de ce projet, qui a donné lieu au travail d'une stagiaire recrutée pendant 6 mois, était la constitution d’une base de données à visée informative, relative aux outils libres de TAL. Plusieurs documents ont été produits :
- un glossaire des mots spécifiques au TAL ;
- deux fiches descriptives de 8 outils de TAL ;
- un tableau de comparaison des possibilités d’analyse entre Iramuteq, TXM et Le Trameur.
Deux langages de programmation couramment utilisés pour des traitements statistiques sur du texte ont ensuite été explorés:
1. Le langage R a ainsi fait l’objet de plusieurs documents :
- les packages de base pour l’analyse automatisée de textes sur R ;
- une liste d’erreurs communes et leur résolution ;
- un tutoriel en cinq étapes pour créer un nuage de mots ;
- le code du nuage de mots produit avec R, ainsi que le repo Github (ici).
2. Le langage Python a plus souvent été utilisé de fait de sa grande simplicité, notamment pour :
- l’analyse de sentiments (sur un corpus en français et un en anglais) ;
- la récupération de données sur internet en général ;
- la récupération de données sur Twitter.
Ces documents peuvent être téléchargés ici, et le repo est disponible ici.
Vous pouvez également découvrir dans le projet Decidim les résultats de l'analyse des contributions citoyennes (stratégies argumentatives, impact des mots utilisés pour la description des consultations, etc...).