临床试验分析中 TLF 自动化的神奇三位一体:数字文档、元数据和 GenAI

我们是否正在进入临床数据分析的新时代?在这个时代,通过自动化制作统计结果中的表格、列表和数字(TFLs),可以大量节省时间、提高质量和节约成本。这无疑是每个统计编程团队的 "圣杯"!

我们是否正在进入临床数据分析的新时代?在这个时代,通过自动化制作临床试验分析结果中的表格、列表和数字(TFLs),可以大量节省时间、提高质量和节约成本。这无疑是每个统计编程团队的 "圣杯"! 

快速发展的生成式人工智能(GenAI)能够生成令人惊叹的代码。利用结构化数字文档(而非数字化文档)为这些模型提供信息,以定义目标输出;利用标准、元数据和模型提供的指南和约束为这些模型提供信息。结果将是高质量的输出,至少 80% 的计划输出只需由人类(或独立的人工智能模型?

我听到你们问:"我怎么才能开始呢?"好吧,让我们依次考虑一下这三位一体的三个方面。

数字化临床试验文件

我们三位一体的第一根支柱是数字文件,即我们的技术规范。

Transcelerate 组织正在推动生物制药研发领域的合作,以确定加快新药交付的方法。其中一个方面是通过临床内容与再利用 (CC&R) 计划协调研究文件并将其数字化。

这项正在进行的计划为协议、SAP 和临床研究报告创建了一套模板,允许创建机器可读的电子文档。这为在下游流程(如 TLF 生成)中重复使用内容提供了可能性。

SAP,即统计分析计划,是这里的关键文件。它详细说明了如何进行临床数据分析--方法、人群规模、终点等,从而推动 ADaM 数据集的生成。它还详细说明了要创建的表格、图表和列表,希望能提供相关的表壳,让我们的程序员了解他们应该生成什么;或者 GenAI 也可以生成这些模拟表壳。

在不同的研究中使用一致的机器可读 SAP 将提高 GenAI 创建我们可以使用的表格、列表和数字的几率。

元数据

元数据--描述数据的数据,是我们的第二大支柱。无论是人类还是计算机程序员,元数据对他们了解所处理数据的结构都至关重要。

我们都知道 CDISC 和 ADaM 标准。我们努力按照 CDISC 标准开发我们的临床数据分析数据集,事实上,数据集必须符合标准才能提交给 FDA。然而,ADaM 标准的灵活性意味着数据集可以在不同的研究中以不同的方式构建,但在技术上仍然是合规的!

如果您的 ADaM 数据符合 CDISC 标准,更重要的是,在各项研究中保持一致,至少在每个治疗领域 (TA) 内保持一致,这将再次提高 GenAI 模型的可用性,从而提高程序的质量。

您可以而且应该使用现有程序、宏和输出作为 GenAI 的训练数据。我们将在本文的下一部分了解更多相关信息。

GenAI

最后,或许也是最重要的支柱是 GenAI 模型。

我们对 GenAI 的常见体验可能是类似 ChatGPT 或 Co-Pilot。作者过去曾尝试让 ChatGPT 创建 R 代码片段,但执行起来并不完全成功。这听起来不太乐观。不过,我们可以利用现有的程序、宏和输出库来训练 GenAI 模型。

公共 "GenAI 模型肯定要求我们共享代码和数据以进行培训,但我们都很清楚行业内临床试验数据共享的敏感性。值得庆幸的是,我们可以在公司网络内实施自己的内部 GenAI 模型,并根据公司内部资料和部分外部(公开)资料进行培训。

不过,在建立内部 GenAI 之前,有几个因素需要考虑:

  • 哪种模式
  • 语言选择
  • 培训 GenAI
  • 监管机构指南

机型选择

并非所有 GenAI 模型都一样。有一些模型已经过编码语言的训练,包括 python、R 和 SAS。但要注意的是,这些模型都是在 Github 等公开代码库中训练的,而 SAS 在这些代码库中并不常见。因此,虽然模型可以生成 SAS 代码,但几乎肯定需要在您自己的数据上进行训练,才能生成质量更好的输出。

GenAI 模型的例子包括

GPT3 - 大型语言模型 (LLM),可生成文本和代码,包括 SAS 代码。

CodeBERT - 预先训练好的语言模型,专门用于理解和生成代码。

语言

如上所述,在创建代码时,您需要考虑希望 GenAI 使用哪种语言。

R 和 Python 拥有庞大的用户群,而且由于它们是开源的,因此更注重知识共享。因此,GenAI 模型可以借鉴更广泛的知识库。

相比之下,SAS 的用户群体较小,而且代码语法复杂,GenAI 很难在第一时间创建功能正确的代码。另一方面,您可能已经投资了一个 SAS 宏库,它可以简化编码并生成企业标准输出。

培训

即使是已经开发好的编码模型,也需要经过训练才能

  • 将 SAP 和元数据作为生成 TLF 的输入信息
  • 学习程序员以前用来处理数据和生成输出的编码方法
  • 了解标准宏的工作原理
  • 了解所需的输出布局和格式

将训练数据分为两部分:训练集和测试集。训练集允许 GenAI 模型学习输入、程序和输出之间的模式和关系。训练集越大越好。

然后,测试集可用于测试新训练的模型。给定一组输入(SAP 表壳和 ADaM 数据集),它能否生成代码,以创建与真实情况相匹配的输出?请注意,如果性能不佳,则应在后续测试中使用不同的测试集。

对模型的训练应该是一个持续的过程--随着成功报告的研究越来越多,相关的元数据也应该被输入到模型中,以提高模型的性能。

监管指南

欧洲药品管理局(EMA)[1]和美国食品和药物管理局(FDA)[2]都发布了关于在医药产品开发中使用人工智能的文件。这两份文件都不应被视为监管指南或政策,但都包含了监管机构对使用人工智能的看法的有用信息。

他们提醒我们,临床试验申办者有责任确保所使用的所有算法、模型、数据集和数据处理管道符合目的,并符合法律、道德、技术、科学和监管标准,如立法、GxP 标准和当前监管指南中所述。请注意,这些准则可能比数据科学领域的标准实践更为严格。

在考虑在贵组织内实施 GenAI 时,应对所有人工智能应用进行监管影响和风险评估,并在没有明确书面指导的情况下联系监管机构(如 FDA CDER 人工智能指导委员会 (AISC))。

建议阅读这两篇论文,因为它们提供的有用信息和参考资料超出了本文的范围。

结论

GenAI 技术无疑为自动生成 TLF 提供了一个令人兴奋的机会。公开的模型不会在临床试验数据上进行训练,因此建议在公司网络内实施一个模型,这也会减轻向更广泛的世界提供专有数据的担忧。

然而,GenAI 并非无懈可击,因此即使在对模型进行了全面训练后,也应对生成的代码进行独立的准确性测试。

最后,切记要考虑监管机构的建议。

如果您对临床试验分析、与监管机构接触或本博客中提到的任何其他问题有任何疑问,请联系我们的专家


[1] https://www.ema.europa.eu/en/documents/scientific-guideline/reflection-paper-use-artificial-intelligence-ai-medicinal-product-lifecycle_en.pdf

[2] 在药物和生物产品开发中使用人工智能和机器学习技术

阿拉斯泰尔·斯卡利特

Alastair Scarlett 是Instem 的高级生命科学顾问。他在本行业的临床数据生命周期和监管技术领域拥有超过 25 年的经验。他曾担任数据管理员、SAS 程序员、培训师、业务管理员、Scrum Master 和系统测试员。丰富的经验使他能够从不同的角度、戴不同的帽子来看待问题。在过去五年中,Alastair 作为首席业务分析师与杨森公司合作开发了 SPACE SCE 解决方案。

分享本文

了解最新信息

将专家提示、行业新闻和新鲜内容发送到您的收件箱。