
Le Natural Language Processing pour le risque climatique: Analyse et scoring de la réputation climatique des entreprises en utilisant les algorithmes de l’IA.
Rattaché au Domaine d’Excellence
Data
Data
sur quoi travaille-t-on ?
Nous proposons une approche basée sur les algorithmes de Natural Language Processing (NLP) pour faire face aux limites des scores ESG. Précisément, nous développons une solution d’IA innovante qui permet d’analyser et d’évaluer la réputation climatique des entreprises en temps réel à partir des documents textuels.
Pourquoi travaille-t-on sur ce sujet ?
Depuis l’accord de Paris qui vise à limiter le réchauffement climatique, des politiques sont progressivement mises en place pour orienter l’économie vers une transition bas-carbone. Notamment, les institutions financières cherchent à orienter les flux financiers vers des investissements responsables dans des entreprises et des activités vertes plutôt que brunes. A titre d’exemple, les banques commencent à intégrer progressivement des indicateurs climatiques dans leurs stratégies d’octroi de crédit. Ces institutions s’appuient généralement sur des indicateurs de risques physiques, qui mesurent l’impact direct du changement climatique sur les personnes et les biens (sécheresses, inondations, etc.), et de risques de transition, qui mesurent les effets de la mise en œuvre d’un modèle économique à faible émission de carbone visant à réduire les émissions de gaz à effet de serre. Ces institutions se basent également sur les scores ESG qui notent les entreprises en fonction de leur engagement sur les questions environnementales, sociales et de gouvernance (ESG). Ces scores sont fournis par différentes plateformes (par exemple S&P, Refinitiv ou Bloomberg) avec des critères d’évaluation qui varient entre les différentes plateformes.
Néanmoins, ces scores annuels, semestriels, ou trimestriels sur le développement durable et notamment l’engagement climatique sont très statiques ; Ils ne reflètent pas les changements survenus dans l’entreprise en temps réel, mais uniquement une accumulation de changements sur une période fixe. En outre, les scores sont généralement manquants pour les petites entreprises. Par ailleurs, les méthodes de calcul et les critères de notation sont généralement peu clairs et sans explication et ne parviennent pas à saisir toutes les dimensions ESG de manière fiable et objective.
D’un autre côté, des millions (voire des milliards) de documents textuels liés au climat et aux problématiques ESG sont disponibles en libre accès, e.g. rapports annuels des entreprises, les news, les articles scientifiques, les textes réglementaires, les textes des réseaux sociaux, etc. Ces documents contiennent des indicateurs précieux sur la performance et la réputation climatique des entreprises et qui ne sont pas disponibles dans les scores souvent utilisés par les institutions financières. En plus, ces documents, notamment les news et les réseaux sociaux, reflètent les changements qui se produisent dans les entreprises en temps réel.
Face à ce flux régulier de données textuelles qui nous arrivent en permanence, et de toute part, les algorithmes de traitement du langage naturel (NLP pour Natural Language Processing) joueront un rôle déterminant dans notre capacité de compréhension de ces documents. En revanche, la nature non structurée de ces textes rend l’extraction des informations une tâche ardue, ce qui n’est pas faisable en appliquant une tâche NLP standard, d’où la nécessité de concevoir un processus de tâches de NLP afin d’obtenir les résultats souhaités.
Néanmoins, ces scores annuels, semestriels, ou trimestriels sur le développement durable et notamment l’engagement climatique sont très statiques ; Ils ne reflètent pas les changements survenus dans l’entreprise en temps réel, mais uniquement une accumulation de changements sur une période fixe. En outre, les scores sont généralement manquants pour les petites entreprises. Par ailleurs, les méthodes de calcul et les critères de notation sont généralement peu clairs et sans explication et ne parviennent pas à saisir toutes les dimensions ESG de manière fiable et objective.
D’un autre côté, des millions (voire des milliards) de documents textuels liés au climat et aux problématiques ESG sont disponibles en libre accès, e.g. rapports annuels des entreprises, les news, les articles scientifiques, les textes réglementaires, les textes des réseaux sociaux, etc. Ces documents contiennent des indicateurs précieux sur la performance et la réputation climatique des entreprises et qui ne sont pas disponibles dans les scores souvent utilisés par les institutions financières. En plus, ces documents, notamment les news et les réseaux sociaux, reflètent les changements qui se produisent dans les entreprises en temps réel.
Face à ce flux régulier de données textuelles qui nous arrivent en permanence, et de toute part, les algorithmes de traitement du langage naturel (NLP pour Natural Language Processing) joueront un rôle déterminant dans notre capacité de compréhension de ces documents. En revanche, la nature non structurée de ces textes rend l’extraction des informations une tâche ardue, ce qui n’est pas faisable en appliquant une tâche NLP standard, d’où la nécessité de concevoir un processus de tâches de NLP afin d’obtenir les résultats souhaités.
que fait-on concrètement ?
Pour remédier aux limites des scores ESG classiques, nous proposons une solution basée sur des algorithmes de NLP, en 4 étapes:
- Extraire les tendances (sujets) climatiques en temps réel à partir des “News” par entreprise.
- Calculer des scores de réputation climatique (négatifs, neutres ou positifs) par sujet et par entreprise à partir des “News”.
- Expliquer les scores attribués en se basant sur les parties des News qui auraient poussé notre modèle à générer une certaine prédiction.
- Montrer comment nos scores se comparent aux scores ESG existants et comment nos scores peuvent mieux refléter les changements en temps réel.
CHERCHEURE

Docteure Sara MEFTAH
Diplômée d’un Master 2 en Intelligence Artificielle (Paris Dauphine), et détentrice d’un diplôme d’ingénieur en (École Nationale Supérieure d’Informatique — Algérie), Sara a obtenu son doctorat en traitement automatique des langues (Natural Language Processing — NLP) au Commissariat à l’Énergie Atomique et aux énergies renouvelables (CEA) et à l’université de Paris Saclay, où elle a développé des nouvelles méthodes et techniques de Transfer Learning pour contourner le problème de la rareté des données annotées. Les travaux de Sara sur le Natural Language Processing ont été publiés et présentés dans différentes conférences nationales et internationales.
Sara est chercheure au Square Research Center et contribue en particulier aux travaux de recherche de deux sujets. Le premier sujet porte sur la conception et le développement de nouvelles méthodes d’interprétabilité et d’explicabilité des modèles d’apprentissage automatique. Le deuxième sujet porte sur le développement des modèles de NLP pour l’analyse et le scoring de la réputation climatique des entreprises. Elle est Chercheure associée au Lamsade (UMR 7243).
Sara est chercheure au Square Research Center et contribue en particulier aux travaux de recherche de deux sujets. Le premier sujet porte sur la conception et le développement de nouvelles méthodes d’interprétabilité et d’explicabilité des modèles d’apprentissage automatique. Le deuxième sujet porte sur le développement des modèles de NLP pour l’analyse et le scoring de la réputation climatique des entreprises. Elle est Chercheure associée au Lamsade (UMR 7243).