Une suite de logiciels et d’outils pour le traitement et l’analyse des données massives de santé pour la mise en place de parcours de soin 4P

La suite de logiciels et d’outils pour le traitement et l’analyse des données massives de santé pour la mise en place de parcours de soin 4P est la troisième brique de HOPE. Elle est actuellement en phase de conception, et sera composée d’un environnement et d’une interface unique fournissant un accès intuitif aux méthodologies de l’analyse prédictive pour tous types d’utilisateurs (cliniciens, biologistes…). Cet environnement intégrera différents traitements et des flux standardisés, en s’appuyant sur ‘clowdflows’, et combinant des analyses statistiques performantes (en termes de temps de calcul et de « modernité » des modèles implémentés) et des algorithmes de pointe dans le domaine de la fouille de données et de l’apprentissage automatique, pour mieux appréhender les données, identifier les tendances et produire des prévisions fiables et pertinentes. Les analyses statistiques utiliseront préférentiellement des techniques d’inférence bayésienne, nécessitant donc des outils particuliers de suivi de convergence et des techniques particulières d’optimisation des calculs permettant des temps de réponse acceptable pour l’utilisateur.

Dans un premier temps, la plate-forme offrira la possibilité de deux grands types d’analyse :

des analyses génériques (descriptifs univariés et bivariés, croisements de variables, classifications…) sur données individuelles ou agrégées ;
des analyses plus spécialisées, mais touchant un public large et nécessitant la mobilisation de modèles particuliers. On peut en citer plusieurs exemples :
1. analyses pour données longitudinales (descriptifs à chaque temps, modèles mixtes de régression, …). Ce type de recueil est très fréquent dans les données de santé avec des dates régulières ou non ;
2. calcul du nombre nécessaire de sujets (nécessitant souvent des simulations à grande échelle) et pilotage des études cliniques (par exemple par l’estimation de probabilités prédictives par McMC) ;
3. analyses de données de l’assurance maladie de type OpenDAMIR (accès libre) : il s’agit de bases de données de grande dimension (plusieurs millions d’enregistrements) s’incrémentant mensuellement mais avec un nombre de variables réduits, permettant le déroulement d’un script d’analyse unique mais paramétrable ;
4. analyses de ses propres données du PMSI (Programme de Médicalisation des Systèmes d'Information) pour un établissement de santé ;
5. modèles spatiaux sur des données de santé (les temps de calculs de telles données agrégées à une échelle spatiale fine sont très longs).

Un effort particulier portera sur l’interfaçage des différents logiciels, ainsi que l’interface humaine afin de (i) améliorer l’accès aux méthodes de pointe d’analyse prédictive pour les cliniciens / biologistes et (ii) mettre à disposition des jeux de données biomédicales qui serviront de ‘benchmarks’ pour les informaticiens pour évaluer et améliorer leurs méthodologies.

A plus long terme, HOPE intègrera également des réseaux neuronaux profonds pour mettre en œuvre du ‘Deep Learning’ multi-échelles et donner de ‘l’intelligence aux cohortes’, qui d’elles-mêmes, signaleront la survenue d’épidémies, mais aussi l’efficacité ou la non efficacité des traitements subis par les patients. Les informations pertinentes issues des systèmes complexes (approche 4P et Deep Learning) seront remontées aux chercheurs utilisateurs de la plateforme BICS qui élaboreront des sujets de recherche visant à explorer les questions soulevées (bioinformatique translationnelle).

La suite de logiciels et d’outils pour le traitement et l’analyse des données massives de santé pour la mise en place de parcours de soin 4P est la troisième brique de HOPE. Elle est actuellement en phase de conception, et sera composée d’un environnement et d’une interface unique fournissant un accès intuitif aux méthodologies de l’analyse prédictive pour tous types d’utilisateurs (cliniciens, biologistes…). Cet environnement intégrera différents traitements et des flux standardisés, en s’appuyant sur ‘clowdflows’, et combinant des analyses statistiques performantes (en termes de temps de calcul et de « modernité » des modèles implémentés) et des algorithmes de pointe dans le domaine de la fouille de données et de l’apprentissage automatique, pour mieux appréhender les données, identifier les tendances et produire des prévisions fiables et pertinentes. Les analyses statistiques utiliseront préférentiellement des techniques d’inférence bayésienne, nécessitant donc des outils particuliers de suivi de convergence et des techniques particulières d’optimisation des calculs permettant des temps de réponse acceptable pour l’utilisateur.

Une suite de logiciels et d’outils pour le traitement et l’analyse des données massives de santé pour la mise en place de parcours de soin 4P

Menu de navigation

Rechercher