La trinité magique de l'automatisation du TLF dans l'analyse des essais cliniques : Documents numériques, métadonnées et GenAI

Sommes-nous entrés dans une nouvelle ère pour l'analyse des données cliniques ? Une ère dans laquelle des gains de temps, des améliorations de la qualité et des économies considérables peuvent être réalisés grâce à l'automatisation de la production de tableaux, de listes et de figures (TFL) dans les résultats statistiques. Le Saint-Graal de toute équipe de programmation statistique, assurément !

Sommes-nous entrés dans une nouvelle ère pour l'analyse des données cliniques ? Une ère dans laquelle des gains de temps, des améliorations de la qualité et des économies considérables peuvent être réalisés grâce à l'automatisation de la production de tableaux, de listes et de figures (TFL) dans les résultats analytiques des essais cliniques. Le Saint-Graal de toute équipe de programmation statistique, assurément !

Le domaine de l'IA générative (GenAI), qui évolue rapidement, est capable de réaliser des prouesses en matière de génération de code. Informer ces modèles avec des documents numériques structurés (pas des documents numérisés) pour définir les résultats cibles ; et informer ces modèles avec des lignes directrices et des contraintes fournies par des normes, des métadonnées et des modèles. Il en résultera des résultats de haute qualité, nécessitant simplement une assurance qualité par un humain (ou peut-être un modèle IA indépendant ?), pour au moins 80 % des résultats planifiés.

Je vous entends demander : "Comment puis-je commencer ?" Eh bien, examinons tour à tour les trois aspects de cette trinité.

Documents numériques sur les essais cliniques

Le premier pilier de notre trinité est constitué par les documents numériques, c'est-à-dire nos spécifications.

L'organisation Transcelerate encourage la collaboration dans le domaine de la recherche et du développement biopharmaceutique afin d'identifier les moyens d'accélérer la mise au point de nouveaux médicaments. L'un des aspects de cette collaboration est l'harmonisation et la numérisation des documents d'étude par le biais de l'initiative Clinical Content and Re-use (CC&R).

Cette initiative en cours a permis de créer un ensemble de modèles de protocoles, de SAP et de rapports d'études cliniques qui permettent de créer des documents électroniques lisibles par machine. Cela ouvre la possibilité de réutiliser le contenu dans des processus en aval, tels que la génération de TLF.

Le PAS, ou plan d'analyse statistique, est le document clé dans ce domaine. Il détaille la manière dont l'analyse des données cliniques sera effectuée - méthodes, taille de la population, critères d'évaluation, etc. Il détaille également les tableaux, les figures et les listes à créer, avec, espérons-le, des coquilles de tableau associées pour donner à notre programmeur une idée de ce qu'il doit produire ; ou peut-être que le GenAI peut également générer ces coquilles fictives.

Le fait de disposer d'un SAP lisible par une machine et cohérent d'une étude à l'autre augmentera les chances de notre GenAI de créer des tableaux, des listes et des figures que nous pourrons utiliser.

Métadonnées

Les métadonnées - les données qui décrivent les données - constituent notre deuxième pilier. Elles sont essentielles pour informer tout programmeur, humain ou informatique, de la structure des données avec lesquelles il travaille.

Nous connaissons tous les normes CDISC et ADaM. Nous nous efforçons de développer nos ensembles de données d'analyse clinique en conformité avec les normes CDISC, et en effet, les ensembles de données doivent être conformes pour être soumis à la FDA. Cependant, la flexibilité des normes ADaM signifie que les ensembles de données peuvent être construits différemment d'une étude à l'autre, tout en restant techniquement conformes !

Le fait que vos données ADaM soient conformes aux normes CDISC et, plus important encore, qu'elles soient cohérentes d'une étude à l'autre, au moins au sein de chaque domaine thérapeutique (AT), améliorera à nouveau leur utilisabilité par votre modèle GenAI et, par conséquent, la qualité des programmes produits.

Vous pouvez et devez également utiliser vos programmes, macros et résultats existants comme données d'entraînement pour votre GenAI. Nous en apprendrons plus à ce sujet dans la prochaine section de ce document.

GenAI

Le dernier pilier, et peut-être le plus important, est le modèle GenAI.

Notre expérience commune de la GenAI sera probablement quelque chose comme ChatGPT ou Co-Pilot. Les tentatives passées de l'auteur pour demander à ChatGPT de créer des extraits de code R n'ont pas été couronnées de succès au niveau de l'exécution. Ce qui n'est pas très prometteur. Cependant, il est possible d'entraîner un modèle GenAI en utilisant notre référentiel existant de programmes, de macros et de sorties.

Les modèles GenAI "publics" nous obligeraient certainement à partager notre code et nos données pour la formation, mais nous sommes tous conscients de la sensibilité au partage des données d'essais cliniques dans notre secteur. Heureusement, il est possible de mettre en œuvre votre propre modèle GenAI interne au sein de votre réseau d'entreprise, en vous formant sur des documents internes à l'entreprise et sur une sélection de documents externes (publics).

Toutefois, avant de créer votre GenAI interne, vous devez tenir compte de certains facteurs :

Quel modèle
Choix de la langue
Former la GenAI
Orientations des agences de régulation

Choix du modèle

Tous les modèles de GenAI ne sont pas identiques. Il existe des modèles déjà formés à des langages de codage tels que Python, R et SAS. Sachez toutefois que ces modèles sont formés sur des référentiels de code accessibles au public, comme Github, où le langage SAS est moins répandu. Ainsi, bien que le modèle puisse être capable de produire du code SAS, il nécessitera très certainement un entraînement sur vos propres données pour produire des résultats de meilleure qualité.

Voici quelques exemples de modèles GenAI

GPT3 - un grand modèle de langage (LLM) qui peut générer du texte et du code, y compris du code SAS.

CodeBERT - un modèle de langage pré-entraîné spécialement conçu pour comprendre et générer du code.

Langue

Comme nous l'avons mentionné plus haut, vous devrez tenir compte de la langue que vous souhaitez que GenAI utilise lors de la création de votre code.

R et Python ont de grandes bases d'utilisateurs et, du fait de leur caractère open source, ils mettent davantage l'accent sur le partage des connaissances. Les modèles de GenAI disposent donc d'une base de connaissances plus large sur laquelle ils peuvent s'appuyer.

En revanche, la communauté d'utilisateurs de SAS est plus restreinte et la complexité de la syntaxe du code peut rendre plus difficile la création par GenAI d'un code fonctionnant correctement dès la première fois. D'un autre côté, vous avez probablement investi dans une bibliothèque de macros SAS qui simplifient le codage et produisent des résultats conformes aux normes de l'entreprise.

Formation

Même un modèle déjà développé pour le codage devra être formé pour

reconnaître le SAP et les métadonnées comme les données d'entrée pour la génération des TLF
apprendre les méthodes de codage utilisées précédemment par les programmeurs pour manipuler les données et générer des résultats
comprendre le fonctionnement de vos macros standard
apprendre la présentation et le format souhaités pour les résultats

Divisez vos données d'apprentissage en deux parties : les ensembles d'apprentissage et les ensembles de test. L'ensemble d'entraînement permet au modèle GenAI d'apprendre les modèles et les relations entre les entrées, les programmes et les sorties. Plus l'ensemble d'entraînement est important, mieux c'est.

L'ensemble de tests peut alors être utilisé pour tester le modèle nouvellement formé. Compte tenu d'un ensemble d'entrées - coquilles de tables SAP et ensembles de données ADaM, le modèle peut-il produire un code permettant de créer des sorties qui correspondent à la réalité ? Si les performances ne sont pas acceptables, il convient d'utiliser un autre ensemble de test pour un essai ultérieur.

La formation de votre modèle doit être un processus continu - au fur et à mesure que des études sont rapportées avec succès, les métadonnées associées doivent être introduites dans votre modèle afin d'en améliorer les performances.

Orientations réglementaires

L'EMA[1] et la FDA[2] ont toutes deux publié des documents sur l'utilisation de l'intelligence artificielle dans le développement de médicaments. Aucun de ces documents ne doit être considéré comme une orientation ou une politique réglementaire, mais ils contiennent tous deux des informations utiles sur ce que les agences réglementaires pensent de l'utilisation de l'IA.

Ils nous rappellent qu'il incombe au promoteur de l'essai clinique de s'assurer que tous les algorithmes, modèles, ensembles de données et pipelines de traitement des données utilisés sont adaptés à l'objectif visé et conformes aux normes juridiques, éthiques, techniques, scientifiques et réglementaires telles que décrites dans la législation, les normes GxP et les lignes directrices réglementaires actuelles. Notez que ces directives peuvent être plus strictes que ce qui est considéré comme une pratique standard dans le domaine de la science des données.

Lorsque vous envisagez de mettre en œuvre la GenAI dans votre organisation, vous devez procéder à une évaluation de l'impact réglementaire et des risques de toutes les applications de l'IA et contacter les agences réglementaires (par exemple, le comité directeur de l'IA du CDER de la FDA (AISC) lorsqu'il n'existe pas de directives écrites claires).

Il est recommandé de lire les deux documents car ils fournissent des informations et des références utiles qui dépassent le cadre de ce document.

Conclusion

La technologie GenAI offre certainement une opportunité intéressante d'automatiser la génération de certains TLF. Les modèles accessibles au public n'auront pas été formés sur des données d'essais cliniques. Il est donc recommandé de mettre en œuvre un modèle au sein du réseau de votre entreprise, ce qui permettra également d'atténuer les inquiétudes liées à la diffusion de données propriétaires au reste du monde.

Cependant, GenAI n'est pas infaillible et, même après une formation approfondie de votre modèle, le code généré doit être testé indépendamment pour en vérifier l'exactitude.

Enfin, n'oubliez pas de tenir compte des conseils des agences de régulation.

N'hésitez pas à contacter un expert si vous avez des questions sur l'analyse des essais cliniques, les relations avec les organismes de réglementation ou tout autre sujet abordé dans ce blog !

[1] https://www.ema.europa.eu/en/documents/scientific-guideline/reflection-paper-use-artificial-intelligence-ai-medicinal-product-lifecycle_en.pdf

[2] Utilisation de l'intelligence artificielle et de l'apprentissage automatique dans le développement de médicaments et de produits biologiques

Alastair Scarlett

Alastair Scarlett est consultant senior en sciences de la vie chez Instem. Il a plus de 25 ans d'expérience dans les domaines du cycle de vie des données cliniques et de la technologie réglementaire de notre industrie. Il a été gestionnaire de données, programmeur SAS, formateur, administrateur d'entreprise, Scrum Master et testeur de systèmes. Cette vaste expérience lui permet d'envisager les problèmes sous différents angles et de porter différentes casquettes. Au cours des cinq dernières années, Alastair a travaillé en collaboration avec Janssen sur le développement de la solution SPACE SCE en tant que Lead Business Analyst.

Partager cet article

Rester à jour

Recevez des conseils d'experts, des nouvelles de l'industrie et du contenu frais dans votre boîte de réception.