我々は臨床データ解析の新時代を迎えているのだろうか?臨床試験分析結果の表、リスト、図(TFL)の作成を自動化することで、大幅な時間短縮、品質向上、コスト削減が達成できる時代です。全てのStats Programmingチームの聖杯であることは間違いない!
急速に発展しているジェネレーティブAI(GenAI)の分野は、コード生成の驚くべき偉業が可能である。構造化されたデジタル・ドキュメント(デジタル化されたドキュメントではない)を使って、ターゲットとなるアウトプットを定義し、標準、メタデータ、モデルによって提供されるガイドラインと制約を使って、これらのモデルに情報を提供する。その結果、計画されたアウトプットの少なくとも80%について、人間(あるいは独立したAIモデルか)によるQAを必要とするだけで、高品質のアウトプットが得られるだろう。
「では、この三位一体の3つの側面を順番に考えてみよう。

デジタル臨床試験文書
三位一体の最初の柱はデジタル・ドキュメント、つまり仕様書だ。
トランスセラレイト組織は、新薬の提供を加速させる方法を特定するため、バイオ製薬の研究開発全体で協力を推進している。その一端として、CC&R(Clinical Content and Re-use)イニシアチブによる試験文書の調和とデジタル化がある。
この継続的な取り組みにより、プロトコール、SAP、臨床試験報告書のテンプレート一式が作成され、電子化された機械可読の文書が作成できるようになった。これにより、TLF作成などの下流工程でコンテンツを再利用できる可能性が広がる。
SAP(統計解析計画書)はここでの重要な文書である。臨床データ解析の方法、母集団サイズ、エンドポイントなどの詳細が記載され、ADaMデータセットの生成を促進する。また、作成される表、図、リストについても詳細が記載されており、できればプログラマーが何を作成すべきかをリードするために関連する表シェルがあるとよい。
研究間で一貫性のある機械可読SAPを持つことで、GenAIが私たちが使用できる表、リスト、図を作成する可能性が高まる。
メタデータ
メタデータ(データを記述するデータ)は、私たちの第2の柱である。人間であれコンピューターであれ、プログラマーが扱うデータの構造を知る上で、メタデータは極めて重要である。
我々はCDISCとADaM標準について知っている。私たちはCDISC標準に準拠した臨床データ解析データセットの開発に努めており、実際、データセットはFDAに提出するために準拠する必要がある。しかし、ADaM標準には柔軟性があるため、データセットは試験ごとに異なる方法で構築しても、技術的に準拠することができます!
ADaMデータをCDISC標準に準拠させ、さらに重要なことは、少なくとも各治療領域(TA)内では試験間で一貫性を持たせることで、GenAIモデルによる使い勝手を再び向上させ、その結果、作成されるプログラムの質を向上させることができる。
既存のプログラム、マクロ、出力をGenAIのトレーニング・データとして使うこともできるし、使うべきだ。これについては、本稿の次のセクションで詳しく説明する。
GenAI
最後の、そしておそらく最も重要な柱は、GenAIモデルである。
GenAIの一般的な経験は、ChatGPTやCo-Pilotのようなものだろう。筆者が過去にChatGPTにRコードのスニペットを作成させようと試みたが、実行に至るまで完全には成功しなかった。あまり期待できそうにない。しかし、既存のプログラム、マクロ、出力のリポジトリを使ってGenAIモデルを訓練することは可能だ。
公開 "GenAIモデルはトレーニングのためにコードとデータを共有する必要がありますが、私たちは皆、業界内での臨床試験データの共有に敏感であることを理解しています。ありがたいことに、社内の資料と社外の資料(公開されているもの)を使ってトレーニングすることで、社内ネットワーク内で独自の社内GenAIモデルを実装することが可能です。
しかし、社内にGenAIを構築する前に、考慮すべき要素がいくつかある:
- どのモデル
- 言語の選択
- GenAIのトレーニング
- 規制当局のガイダンス
モデルの選択
すべてのGenAIモデルが同じというわけではない。python、R、SASなどのコーディング言語で学習済みのモデルも存在する。しかし、これらのモデルは、SASがあまり一般的ではないGithubのような一般に公開されているコードリポジトリでトレーニングされていることに注意してください。そのため、モデルはSASコードを生成できるかもしれないが、より質の高い出力を得るためには、ほぼ間違いなくあなた自身のデータでトレーニングする必要がある。
GenAIモデルの例
GPT3 - SASコードを含むテキストとコードを生成できる大規模言語モデル(LLM)。
CodeBERT - コードを理解し生成するために特別に設計された、事前にトレーニングされた言語モデル。
言語
前述したように、コードを作成する際にGenAIにどの言語を使わせたいかを検討する必要がある。
RとPythonには大規模なユーザーベースがあり、オープンソースという性質上、知識の共有により焦点が当てられている。そのため、GenAIモデルには、より幅広い知識ベースがある。
対照的に、SASはユーザーコミュニティが小さく、コード構文が複雑であるため、GenAIが初めて正しく機能するコードを作成することが難しくなります。一方、おそらくコーディングを簡素化し、企業標準の出力を生成するSASマクロのライブラリに投資しているでしょう。
トレーニング
すでにコーディング用に開発されたモデルであっても、次のようにトレーニングする必要がある。
- SAPとメタデータをTLF生成のインプットとして認識する。
- データを操作し、出力を生成するためにプログラマーが以前使用していたコーディング手法を学ぶ。
- 標準マクロの動作を理解する
- アウトプットの望ましいレイアウトとフォーマットを学ぶ
トレーニングデータをトレーニングセットとテストセットの2つに分ける。トレーニングセットにより、GenAIモデルは入力、プログラム、出力間のパターンと関係を学習することができる。トレーニングセットは大きければ大きいほど良い。
テストセットは、新しく学習したモデルのテストに使用できる。SAPテーブルシェルとADaMデータセットという入力セットが与えられたとき、実物と一致する出力を作成するコードを作成できるか?もしパフォーマンスが許容できない場合は、別のテストセットを次のテストに使用する必要があります。
モデルのトレーニングは継続的なプロセスであるべきで、より多くの研究が成功裏に報告されるにつれて、関連するメタデータをモデルに送り込み、そのパフォーマンスを向上させるべきである。

規制ガイダンス
EMA[1]とFDA[2]は、医薬品開発における人工知能の利用に関する論文を発表した。どちらの文書も規制当局のガイダンスや政策とみなすべきものではないが、AIの使用に関して規制当局が何を考えているかについての有益な情報が含まれている。
使用される全てのアルゴリズム、モデル、データセット、データ処理パイプラインが目的に適合し、法律、GxP基準、現行の規制ガイドラインに記載されている法的、倫理的、技術的、科学的、規制上の基準に沿っていることを確認することは、臨床試験スポンサーの責任であることを私たちに思い起こさせる。また、これらのガイドラインは、データサイエンスにおける標準的な慣行と考えられているものよりも厳しい場合があることに留意すること。
組織内でGenAIの導入を検討する際には、すべてのAIアプリケーションの規制上の影響とリスク評価を実施し、明確な文書によるガイダンスが存在しない場合には、規制当局(例えば、FDA CDER AI運営委員会(AISC))に問い合わせる必要がある。
本稿の範囲を超えて有益な情報や参考文献が掲載されているので、両論文を一読されることをお勧めする。
結論
GenAI技術は確かにTLFの生成を自動化するエキサイティングな機会を提供する。一般に入手可能なモデルは臨床試験データでトレーニングされていないので、社内ネットワーク内でモデルを実装することをお勧めする。
しかし、GenAIは無謬ではないので、モデルを徹底的に訓練した後でも、生成されたコードが正確かどうかを独自にテストする必要がある。
そして最後に、監督官庁からの助言を考慮に入れることを忘れないこと。
臨床試験分析、規制当局との連携、その他このブログに記載されていることについてご質問があれば、専門家にご相談ください!
[1] https://www.ema.europa.eu/en/documents/scientific-guideline/reflection-paper-use-artificial-intelligence-ai-medicinal-product-lifecycle_en.pdf