Sélectionner une page

L’apprentissage automatique au service de l’évaluation des niveaux de risque : le défi de la “Data scarcity” dans le secteur financier 

Rattaché au Domaine d’Excellence
Data

sur quoi travaille-t-on ?

Dans le secteur financier, la maîtrise de plus en plus de données provenant de différentes sources est un élément stratégique majeur, aussi bien pour les activités globales des actifs financiers que pour la maîtrise des opérations. L’utilisation de l’apprentissage automatique (Machine Learning) est désormais considérée comme un levier essentiel pour pouvoir mesurer, interpréter et piloter les activités financières, dans de nombreuses applications, comme par exemple l’évaluation des niveaux de risque. L’un des principaux défis est de maîtriser la “qualité des données”, dans un contexte opérationnel général de “Data Scarcity”, c’est-à-dire d’environnement dans lequel la gestion de nombreuses données labellisées (étiquetées) est limitée, ce qui affaiblit traditionnellement les modèles d’analyse et la capacité à exploiter avec pertinence les données disponibles.

Pourquoi travaille-t-on sur ce sujet ?

L’efficacité des modèles de Machine Learning/d’apprentissage automatique dépend de la quantité et de la qualité des données étiquetées disponibles.
Etant donnés les multiples usages stratégiques et opérationnels que les entreprises (finacières notamment) veulent faire de leurs données, “étiqueter” correctement les données étiquetées est d’une rare difficulté, représentant une tâche coûteuse et longue pour un expert, alors même que que la disponibilité des données non étiquetées augmente en raison des progrès des technologies de capteurs.
L’exploitation des données non étiquetées pendant la phase d’entrainement est donc devenue un objectif majeur de l’apprentissage automatique.

que fait-on concrètement ?

Nous développons une technique d’apprentissage automatique émergente : l’apprentissage auto-supervisé (ou Self-Supervised Learning – SSL en anglais). Il s’agit pour nous de pouvoir interpréter et exploiter des représentations significatives et générales à partir de données non étiquetées, sans nécessiter d’étiquettes annotées par un expert (i.e. phase de pré-entrainement d’un modèle prédictif). Ces représentations apprises sont ensuite applicables à un large éventail de tâches supervisées connexes avec seulement quelques données étiquetées (i.e. “Few-Shots Learning” en anglais).
Cette approche permet

  1. d’améliorer les performances prédictives des modèles lorsqu’un nombre limité de données étiquetées est disponible, et donc de
  2. réduire les coûts importants de collecte et d’annotation d’ensembles de données à grande échelle.

CHERCHEUR

Docteur Anass AKRIM

Docteur Anass AKRIM

Anass a obtenu son Doctorat en Intelligence Artificielle et Mathématiques Appliquées en maintenance prédictive (secteur aéronautique).
Il est issu d’une formation initiale en Mathématiques Appliquées, Informatique et Finance de l’Université Paris Dauphine. Il a aussi un diplôme d’ingénieur des Mines en Big Data et Data Science, associé à un double diplôme en Banque et Finance à l’IAE de Saint-Etienne.

Anass a pu intervenir dans différents secteurs d’activités : en banque, en assurance et en industrie.
Sa formation lui a permis de travailler sur divers cas d’application d’intelligence artificielle : traitement de séries temporelles (prédiction des cours boursiers, trading automatique), détection de fraudes financières (en assurance), en maintenance prédictive (aéronautique). Dans ses travaux de recherche, il s’intéresse particulièrement aux enjeux actuels en intelligence artificielle : rareté des données étiquetées (i.e. data scarcity), quantification de l’incertitude, et interprétabilité des modèles.

LES AUTRES PROGRAMMES SQUARE RESEARCH CENTER

Share This