Analyse Ressenti Réseaux Sociaux

Analyse Ressenti Réseaux Sociaux

Information
Région:
Varsovie, Pologne
Secteur:
Médias et Divertissement
Type:
Web
Modèle d'engagement:
Prix fixe
Durée:
1 mois
Équipe:
3 développeurs
ID:
375
Technologies utilisées
Keras
Pandas
NumPy
Python
Tweepy
Gensim
Morfeusz
Scikit-learn
Matplotlib
Front-end
JSON

L'origine du projet

Elinext a été contacté par une agence d'analyses polonaise afin de créer un logiciel d'analyse du ressenti qui permettrait d'analyser les émotions dans les tweets polonais sur les élections. Le client souhaitait télécharger les tweets par mots-clés (p. ex., le nom d'un parti) et évaluer les réactions émotionnelles à ce parti et à ses acteurs clés sur une période donnée (un jour, une semaine, un mois, etc.). Le client voulait également être capable d'identifier certains mots utilisés par les utilisateurs de Twitter qui pourraient décrire l'activité d'un parti. De cette façon, l'agence d'analyses serait en mesure de mieux comprendre ce qui détermine le classement d'un parti : ce qui devrait être fait pour l'améliorer et ce qui devrait être évité (événements, actions, mots, associations, etc.).

Les défis

Les équipes d'Elinext ont été mis au défi de développer une solution qui permettrait d'analyser le ressenti sur Twitter, fournissant ainsi à notre client la possibilité de recevoir des informations révélatrices sur la façon dont les utilisateurs de Twitter réagissent à certains politiciens, à leurs actions, leurs discours, etc. puis d'agir en conséquence.

Description du projet

Le projet qui a été sous-traité à Elinext était divisé en ces trois segments du processus d'analyse des tweets :

  • Obtenir les données
  • Préparer les données
  • Analyser les données

Chacune de ces étapes nécessite des technologies et des approches différentes, lesquelles sont décrites ci-dessous.

Le processus de développement

Comme mentionné précédemment, le processus de développement a été divisé en trois étapes principales :

Obtenir les données

Notre équipe de développement s'est assurée que le logiciel développé soir connecté à Twitter. Après quoi nous avons extrait les tweets qui faisaient l'objet de l'intérêt de notre client (selon certains mots-clés et intervalles temporelles requises), afin que notre solution puisse être utilisée de façon régulière et permettent d'obtenir un aperçu des dynamiques des préférences politiques en Pologne durant et après des élections. Cette solution a été créé pour être un outil de travail quotidien des analystes politiques polonais.

Préparer les données

Nous avons profité de JSON et Pandas pour transformer les objets tweets extraits. Pour préparer ces tweets afin de pouvoir les analyser, nous avons mis en place un processus qui exclut les mots n'ayant pas de valeur sémantique réelle (les prépositions, les interjections, etc.) et qui sépare les références à d'autres comptes Twitter.

Analyser les données

Afin d'assurer une analyse effective du texte restant, nous avons utilisé deux dictionnaires : Le National Corpus of Polish au format Google word2vec et PLWordnet. Le premier permet le Traitement Automatique du Langage Naturel (TALN) avec une représentation vectorielle pour le dictionnaire de la langue polonaise. Ceci se base sur la position des mots dans de grandes quantités de texte. Le second comprend des dictionnaires de mots polonais avec des connotations positives et négatives.

  • Le dictionnaire National Corpus of Polish a été lu par la bibliothèque Gensim library pour obtenir le modèle word2vec.
  • Le dictionnaire PLWordnet est téléchargeable au format XML qui a été analysé par l'interface de programme d'application (API) ElementTree XML et filtré avec des expressions communes.

Afin de révéler les regroupements de l'électorat polonais, nous avons ajouté l'analyse des regroupements de tweets. Pour représenter clairement les données analysées, nous avons ajouté une option de visualisation des données de regroupement en 2D et en 3D qui était basée sur la technique de réduction de dimensionnalité par Analyse en Composantes Principales (ACP).

Technologies

  • Python
  • Keras
  • Pandas
  • NumPy
  • Tweepy
  • JSON
  • Gensim
  • Morfeusz
  • Scikit-learn
  • Matplotlib

Caractéristiques

  • Extraction des tweets par mot-clés, intervalles temporels, etc.
  • Transformation des objets tweet en données structurées JSON et Pandas: génération de résultats d'analyse aux formats .csv et .xls 
  • Épuration des mots sans poids sémantique dans les textes (prépositions, interjections, etc.), mots d'arrêt, tokenisation du texte
  • Traitement Automatique du Langage Naturel
  • Analyse de fichier XML et filtre des segments contenant des expressions communes
  • Analyse des regroupements de tweets par transformation de texte en vecteur
  • Réduction de dimensionnalité avec Analyse en Composantes Principales (ACP).
  • Visualisation des données
  • Identification des mots utilisés le plus fréquemment après transformation en leur forme de base
  • Identification de la nature grammaticale des mots
  • Calcul de la fréquence des occurrences dans les tweets note moyenne de ressenti pour tous les verbes et noms (noms communs et noms propres séparés), et comptes Twitter mentionnés dans les textes des tweets (p. ex., comptes Twitter des personnalités politiques)
  • Identification de l'attitude positive ou négative de l'audience Twitter envers un parti, une personnalité politique, un événement, etc.

Les résultats

L'équipe d'Elinext a réussi à créer une solution logicielle qui exécute rapidement une analyse des tweets qui correspondent à certains critères, fournissant ainsi au client des informations perspicaces basées sur l'analyse du ressenti. À l'aide de notre logiciel, l'agence d'analyses politiques polonaise peut comprendre l'attitude du public face à des partis politiques, à leurs leaders ou acteurs, à leurs discours ou à des événements. Avec les informations reçues, il est possible de déterminer quels actions ou mots forment l'attitude du public ainsi que de voir quels mots ou phrases utilisés par les utilisateurs de Twitter sont associés à un certain parti ou à l'un de ses acteurs puis d'agir en conséquence et de prendre les mesures nécessaires pour améliorer leur image. Il convient de mentionner qu'outre son utilité en politique, notre solution logicielle peut également être utilisée par des commerciaux, des vendeurs, des sociologues et tout autre professionnel travaillant sur l'opinion des gens.

clusters1-2
density1-2
tweets1-2
Voulez-vous le même projet?
Vous Avez une Idée de Projet? Discutons-en Ensemble
Contactez-Nous