随机化|抗肿瘤药物临床试验统计学设计指导原则(征求意见稿)
2020年7月17日,国家药品监督管理局药品审评中心(NMPA CDE)发布了《抗肿瘤药物临床试验统计学设计指导原则(征求意见稿)》,以期促进药物临床试验各相关方对抗肿瘤药物临床试验统计学设计的理解与合理应用。现将其中疗效终点、探索性试验和性试验部分的内容整理如下,并于文末附完整意见稿下载。
文章图片
文章图片
疗效终点
抗肿瘤药物临床试验最常用的疗效终点有总生存期(Overall Survival, OS)、客观率(Objective Response Rate, ORR)、无进展生存期(Progression Free Survival, PFS)等。
(一)总生存期(OS)
总生存期是指从随机化开始(或单臂试验中治疗开始)到任何原因导致死亡的时间。OS相对客观并且精确可测,是随机临床试验中衡量抗肿瘤药物临床获益的最可靠终点。
OS通常应在意向治疗(Intention-To-Treat,ITT)人群中进行分析。ITT分析应包括所有根据预先制定的研究方案参与随机化的受试者,不考虑不依从、方案偏离、退出以及随机化后发生的任何事件。抗癌管家-康爱管家,我们一起抗癌,治愈癌症不是梦。由于失访的受试者往往具有较高的死亡风险,如果两组之间的删失时间或删失比例不平衡有可能会导致分析结果产生偏倚,因此需对组间删失模式的均衡性进行评估,还应保证分析时所有受试者使用的是随访截止日期收集到的最及时更新的生存数据。在安全性特征可接受的情况下,OS在统计学上的显著性改善通常被视为具有临床意义,可用来支持试验药物的常规新药上市申请。
对OS的假设检验通常基于log-rank检验,而Cox回归模型通常用于估计治疗效果(风险比)。生存概率用Kaplan-Meier方法计算,并用生存曲线呈现。无论事件何时发生,log-rank检验对所有事件均赋予相同的权重。如果采用分层log-rank检验,分层因素一般需要从随机化分层因素中预先选定。如果怀疑风险函数的非比例性,也可以考虑采用其它加权方法。然而,对等比例风险假设的轻微偏离在实际中比较常见,且根据既往的临床经验预测随时间变化的风险比模式极为困难。因此,在采用不同加权方法之前,应充分考虑其利弊,并获得监管机构的认可。
比较不同试验的OS是不可靠的,因不同试验在患者选择、标准治疗(Standard of Care,SOC)以及最佳支持治疗(Best Supportive Care ,BSC)等方面均可能存在异质性,因此在单臂试验中使用和解读OS应谨慎。
(二)客观缓解率(ORR)
对于许多肿瘤类型,可以直接利用肿瘤影像学进行疾病评估,受试者的治疗策略通常基于肿瘤测量结果和临床症状。客观缓解率是指按照公认的缓解评价标准(如实体瘤RECIST 1.1版),肿瘤体积缩小达到预先规定值并能维持最低时限要求的患者比例,它是基于肿瘤测量的最普遍的终点。实体瘤的缓解可以是完全缓解(Complete Response, CR)或部分缓解(Partial Response, PR),对于非实体瘤的评估则有一些其它评价标准。单独使用ORR可能无法充分描述试验药物的抗肿瘤活性,故需要同时分析缓解持续时间(即从肿瘤缓解到疾病进展经历的时间)和至缓解时间。对于通过稳定疾病病情使患者临床获益的药物,也可以分析疾病控制率(Disease Control Rate, DCR),该指标不仅考虑疾病缓解病例,还包括疾病维持稳定状态持续一定时间的病例。肿瘤大小随时间相对于基线的变化通常被视为连续变量,可利用瀑布图进行描述,帮助评估抗肿瘤活性。
对于拟进行注册的试验(单臂或随机),主要ORR分析通常基于盲态独立中心审查委员会(Blinded Independent Central Review, BICR)的肿瘤测量和缓解评估。初始通常需要在后续的评估中再次确认。在临床实践中,由研究者决定是否继续治疗受试者,而当各中心研究者和BICR之间对缓解评估不一致时可能导致ORR的分析效率下降甚至产生偏倚,因此,为了尽量减少不一致的影响,不提倡过早停止治疗。在随机双盲对照试验中,对于研究者有丰富肿瘤评估经验的常见肿瘤类型,对BICR的要求是可选的,但应保存肿瘤影像学资料以便稽查和核查。
与OS一样,ORR一般应在ITT人群(单臂设计里的全部治疗人群)中进行分析,探索性试验也应如此。在ITT分析中,对于第一次肿瘤评估之前退出试验的受试者,不论何种退出原因,都被认为是非缓解者。ITT分析可以使当前试验结果与历史对照结果的比较更可靠,因为后者通常基于确证性试验中的ITT人群。同样,缓解评估应基于与历史对照相同的缓解标准才具有可比性。例如,如果历史对照数据是基于RECIST缓解标准,那么在当前试验里也应该使用同样的标准。
(三)无进展生存期(PFS)
无进展生存期是指从随机化开始(或单臂试验中治疗开始)至肿瘤进展或死亡(以先发生者为准)的时间。与PFS类似的终点还包括无病生存期(Disease Free Survival, DFS),是指从随机化开始(或单臂试验中治疗开始)至疾病复发或任何原因导致死亡的时间,多用于评价手术治疗或放疗后的辅助治疗。无事件生存期(Event Free Survival, EFS)是指从随机化开始(或单臂试验中治疗开始)到首次发生以下任何事件的时间:疾病进展而无法进行手术治疗、局部或远处复发、任何原因导致的死亡等,多用于评价手术治疗或放疗前的辅助治疗。类似的终点还包括至疾病进展时间(Time To Progression, TTP)和至治疗失败时间(Time To Treatment Failure, TTF),但这两种终点的分析结果通常不能作为研究结论的主要证据,因为它们包含的生存信息不如PFS充分。
肿瘤进展的确切定义对基于肿瘤测量的终点至关重要,应事先在方案中予以明确。与ORR一样,进展的定义应遵循既定的缓解评估标准。同样,对于拟进行注册申报的试验,主要PFS分析通常应基于盲态独立中心审查委员会(BICR)评估的肿瘤测量和缓解评估,但应尽量减少研究者和BICR之间评估的不一致(如对各中心研究者进行适当的培训和教育)。与ORR不同,PFS在单臂试验中难以解释,因为一些受试者即使没有积极治疗也可能维持很长时间的病情稳定。因此,以PFS为主要终点的注册试验必须设置对照组。
区间删失,即疾病进展发生在肿瘤评估时间点的区间中,是PFS分析所面临的一个挑战性问题。在肿瘤评估时,根据相关标准判断为疾病进展实际上仅意味着在上一次评估和当前评估的某个时间点发生了进展。由此导致的结果是PFS的判定受到评估时间设计的影响。如果试验组和对照组的评估时间间隔不同,则PFS中位生存期的比较将会被引入偏倚。尽管基于区间删失的分析方法能在一定程度上考虑个体间采用不同评估时间设计对PFS的影响,但是为提高估计的准确性,降低分析和结果解释的复杂性,强烈建议采用相同评估时间的设计。信息删失是PFS分析的另一个更具挑战性的问题。信息删失可能由多种原因导致,常见的有四种:①尽管没有疾病进展的证据,但受试者可能在试验期间使用了其它某种抗肿瘤治疗而违背了方案;②受试者可能基于某中心研究者的进展判断而终止治疗,但评估结果被BICR否定;③受试者可能在没有任何疾病进展的证据下因毒性而终止治疗,如果肿瘤评估因此停止,其真实结果将是未知的;④由于基础疾病的恶化,受试者的实际评估时间可能偏离计划时间。在随机双盲试验中,当试验药物与对照药具有相似的安全性特征或选择BICR时,可有效降低信息删失带来的影响。然而,当随机试验是开放性的或涉及具有不同安全性特征的试验药物时,容易受信息删失的影响。
对PFS的分析应遵循ITT原则。如果在计划外评估期间监测到进展,则应根据记录的进展时间作为进展日期,而不是基于计划的评估时间。分析时应确保使用所有受试者(包括那些终止治疗而没有记录进展的受试者)最新的肿瘤评估信息。删失时间分析可能有助于揭示两个治疗组之间的随访失衡。研究者和BICR对疾病进展评估的差异性是PFS分析中的重要问题。对PFS分析时,应常规对此差异性进行分析,并研究其在组间是否平衡。生存数据分析的统计方法在很大程度上依赖于非信息性删失假设的有效性,当怀疑其有效性时,建议进行相应的敏感性分析。例如,针对上述导致信息删失的前两种原因,把进展的定义改为与临床判断更接近的治疗失败的敏感性分析。
PFS通常被视为右删失时间-事件变量,并采用与OS相同的方法进行分析。但要注意,在有些试验中,用中位PFS估计值解释药物疗效可能是不真实的。例如,两个治疗组的风险比反映了较大的治疗效果,但其中位PFS可能大致相同。这种情况下,在临床重要时间点(例如一年)的生存率和限制性平均存活时间(即部分生存曲线下面积)可能是可行的考虑指标。受试者遵循的相同评估时间表也会导致相同的事件时间。在Cox回归模型下估计治疗效果时,推荐使用精确(或近似精确)方法处理相同的事件时间。样本量计算时,应该注意由于区间删失而导致的信息丢失,因为将PFS视为右删失时间-事件变量的传统做法可能会高估检验效能。相对于至疾病进展时间,当评估时间间隔较长时,PFS的这个问题更为明显。
(四)患者报告结局(PRO)
患者报告结局是直接来自患者的关于其症状、健康相关生活质量、治疗依从性以及治疗满意度的报告。虽然在抗肿瘤药物临床试验中收集PRO数据越来越常见,但此类测量指标在评价方面尚存在诸多问题,如使用量表的、效度和反应度等。此外,PRO测量指标还容易受到缺失数据的影响,应该采用合适的方法处理缺失数据。因此该指标较少作为上市申请的主要证据。为了更好地理解试验结果的重要性和相关性,应该对PRO与其他疗效终点指标的关系进行探索。
探索性试验
(一)剂量探索设计
I期抗肿瘤药物临床试验通常是试验药物首次进入人体(First in Human, FIH)的试验。I期临床试验剂量递增的原则是尽可能避免受试者不必要地暴露于低于或高于治疗剂量的治疗(即尽可能多地在治疗剂量范围内治疗受试者),同时保证安全性和快速入组。I期临床试验的剂量递增方法分为两大类:一是基于规则的设计,包括传统的3+3设计及其衍生设计,不依赖于统计建模;二是基于模型的设计,如连续重新评估方法(Continuous Reassessment Method, CRM)。一些新兴的模型辅助方法如改良毒性概率区间(Modified Toxicity Probability Interval,mTPI)设计和贝叶斯最优区间(Bayesian Optimal Interval,BOIN)设计,虽然基于模型而建立,但允许预先指定剂量递增的规则。这些方法易于实施,具有选择目标毒性概率和队列大小的灵活性,还具有与基于模型的设计相当的性能。
为了尽可能减少接受可能低于治疗剂量的受试者人数,I期剂量探索可从加速滴定设计开始,加速滴定部分通常在每个剂量水平招募1-3名受试者,并以发生2级或更高的非疾病相关毒性事件作为结束。加速滴定部分结束后,将采用正式的剂量递增方法进行剂量探索。在某些情况下,也可考虑采取患者内剂量递增(即受试者在后续治疗周的剂量水平高于其在第一个周期接受的剂量),但通常会导致第一个周期之后的安全性和耐受性数据难以解释。通常情况下,单药治疗和联合治疗的剂量探索会平行进行。联合治疗的起始剂量应低于单药治疗安全耐受剂量的一个或两个剂量水平。在将最大可耐受剂量(Maximum Tolerable Dose,MTD)确定为候选II期推荐剂量(Recommended Phase 2 Dose,RP2D)之前,应有足够数量的受试者接受了该剂量治疗。
剂量选择对肿瘤药物研发项目的成功具有重要作用。RP2D不一定必须是MTD或当药物在所有研究剂量水平下均安全且可耐受时的最大给药剂量(Maximum Administrated Dose,MAD),它的确定还需要综合考虑药代动力学(Pharmacokinetics, PK)、药效学(Pharmacodynamics, PD)以及所有周期的安全性数据。如果仍存在不确定性,可能需要继续进行多于一个剂量的进一步研究。同种药物在单药治疗和联合治疗之间,实体瘤和血液瘤之间,或不同线次治疗之间估计的RP2D都可能不同。
(二)单臂试验和首次人体队列扩展
在抗肿瘤药物研发中,通常会在剂量探索阶段结束后在一个或多个肿瘤适应症中开展单臂试验。这些肿瘤适应症队列可以由同一治疗线次的不同肿瘤类型,或同一肿瘤类型的不同治疗线次,或两者的组合形成。队列中的受试者可以接受试验药物作为单药治疗或联合治疗(如与标准治疗或另一种试验药物联合)。
单臂试验的研究方案应当包含足够的信息,以说明其基于队列研究目的所确定的样本量估计的合理性,并明确试验药物的抗肿瘤活性大小及需要对其开展进一步研究的依据。在非随机队列中,抗肿瘤活性的评估通常采用多阶段设计来确定,以限制暴露于无效药物的额外患者数量。方案还应提供关于是否暂停入组的详细信息以及受试者参加分析的最短随访时间。若需要比较不同给药方案(如两种候选RP2D,或单药疗法和联合疗法)之间的安全性和抗肿瘤活性,则需开展更严格统计设计的随机队列。
若在FIH研究中开展单臂试验设计,开始时可能缺乏关于试验药物代谢动力学的足够数据,或未进行足够的安全性评估,此时如果快速入组,特别是在有令人兴奋的初步信号时,可能使大量受试者暴露于疗效未知和毒性特征不清楚的药物。为了减轻这种风险并保护受试者,申办者必须建立一套完善的操作流程,以方便数据收集,实时快速地评估新数据,向研究者、机构审查委员会(Institutional Review Board, IRB)及时公布期中分析结果。申办者应根据期中分析结果尽早暂停或结束抗肿瘤活性不足或安全性水平不可接受的队列入组,或提早终止失败的研究项目。
对于拟进行注册的扩展队列研究,应明确区分用于建立药物活性假设的患者群体和用于确认该假设的患者群体。为了达到验证试验假设的目的,建议对用于确认假设的患者群体开展独立的临床试验,特别是当FIH研究已对研究人群和样本量进行过多次变更时。如果试验未设置阳性对照组,则其数据必须非常有说服力,才能确证药物的有效性。对于两种新型试验药物联合治疗的研究,除非对每种药物的贡献都有很好的理解,且能合理分离每种药物的单独贡献,否则不宜采用单臂试验。
确证性试验
(一)一般考虑
在设计确证性试验时,申办者应根据临床试验的目的明确要估计的治疗效应。申办者在方案中应阐明研究人群、终点指标、治疗方案,应考虑试验过程中可能发生的影响治疗效应估计的伴发事件,如死亡、转组等,群体层面的汇总统计量、统计模型以及相应的敏感性分析也均应事先定义。
虽然减少研究人群的异质性可能会提高统计检验效能,但对目标人群的限制会使新药在实际应用中的效果难以评估。应基于证据选择最佳可用的治疗作为对照。因此,根据情况一般可以选择BSC,SOC或研究者选择性治疗作为对照。
盲法设计是确证性试验控制偏倚的重要手段之一。如果因不同药物间毒性特征差异明显而使用开放设计时,必须采取所有可能的措施来控制潜在的偏倚,比如对申办者试验团队遮蔽关键数据。无论采用开放设计还是双盲或单盲设计,对于重要且潜在的可能影响药物疗效的基线协变量,建议在随机化时予以考虑,对基线协变量的校正分析应在方案以及统计分析计划中事先规定。当使用预测性生物标记物进行分层时,必须预先规定生物标记物及其确定生物标记物状态(阳性或阴性)的界值,且界值的确定方法必须经过科学验证并得到公认。
确证性试验的整体I类错误率必须严格控制在一定水平。如果研究的主要目的中包括对多个人群(例如生物标记物阳性人群和所有患者人群)或多个终点(例如OS、PFS和ORR)进行假设检验时,或者计划因有效而提前终止试验的期中分析时,应选择合适的多重性控制策略,并在方案以及统计分析计划中事先进行详细规定。计划因有效而提前终止试验的同时需要考虑安全性评价数据的充分性。
确证性试验设计对统计学考虑要求较高,申办者应就确证性临床试验方案以及统计分析计划中关键技术问题与审评机构开展沟通交流。
(二)试验设计
传统的固定样本量的研究设计用于抗肿瘤药物临床试验时,可参考如ICH E9等相关的指导原则。随着抗肿瘤药物研发的快速发展,一些新颖的试验设计在确证性试验中得以合理应用,包括II/III期无缝设计、生物标记物引导的设计和主方案设计等,大大提高了临床研发的效率。
1. 成组序贯设计
成组序贯设计通常用于按时间顺序进行的数据监测。在设计成组序贯试验时,申办者应仔细考虑计划进行的期中分析次数和时间点,以及合适的α消耗函数。对于因有效性而提前停止的试验,鼓励申办者继续随访试验直至数据成熟,以更好地了解试验药物的长期临床获益。
当期中分析或最终分析的时间点是由事件驱动时,主要数据集的确定应基于达到目标事件数量时的截止日期。在分析之前应确保在盲态状态下完成数据的收集和清理。由于可能存在收集偏倚,揭盲之后收集的数据将受到严格审查,甚至从分析集中排除。
2. II/III期无缝设计
传统药物研发遵循先进行II期试验,再进行III期试验的序贯方法。II期试验用于临床概念验证、剂量选择、人群选择甚至终点选择。在获得II期数据后会决定是否开始III期研究。III期试验需要时间来计划、启动和实施。无缝II/III期设计试图消除II期和III期试验之间的空白期。可以采用操作无缝设计,将II期试验受试者排除在主要分析之外,也可以采用推断无缝设计,在主要分析中纳入II期试验受试者。前者不需要对I类错误的控制进行多重性调整,但对于后者,则可能需要根据适应性的性质和假设检验策略做出相应的调整。适应性设计的具体操作可参考国内与适应性设计有关的指导原则。
在决定采取无缝设计而不是序贯设计之前,应考虑两个重要因素。首先,从II期试验无缝过渡到III期试验时有足够的信息来支持合理决策。这通常取决于参与II 期数据分析的受试者人数以及II期试验采用的终点指标是否对决策有帮助。第二,操作层面上可以顺利实施。无缝设计要求能够迅速地对数据进行清理和分析,快速增加III期入组人数,并能够加快药物上市的进程。决定采用操作无缝设计或者推断无缝设计的关键考虑因素在于II期试验中适应性决策的复杂性。一般来说,和操作无缝设计不同,II期和III期试验结果之间的一致性对推断无缝设计来说更为重要。
虽然无缝II/III期设计在加速药物研发方面具有很好的前景,但在采取此策略之前,需要全面权衡不同方法的优缺点。在开始试验之前,需要解决试验操作方面和统计方面的问题,并与监管部门进行沟通。
3. 生物标记物引导的设计
为了优化试验药物的获益-风险特征,确定适当的目标人群至关重要。合适的生物标志物可以通过各种不同的诊断方法(如转录物的表达谱分析、差异抗原表达、遗传诊断,包括下一代测序等)来识别和测量。由于多种可能性的存在,判断哪些生物标志物可以预测药物活性,以及如何在早期开发过程中确定生物标志物的临界值仍是一个挑战。为减少选择偏倚,应事先将研究受试者分成两组,并指定用于发现和确认生物标志物的训练集和验证集。每次调查新的生物标志物时,都需要重复这个产生和检验假设的过程。基于单臂试验发现的预测型生物标志物,不论其研究实施得如何严格,实际仍存在只是一种预后型生物标志物(可采用前瞻性流行病学研究以评估其预后效果)或者是仅能预测短期肿瘤反应的生物志记物(需要进行更长时间的随访)的可能。
在随后的确证性试验设计中,必须考虑到上述不确定性。例如,当涉及到两个亚组人群之间的α分配时,若采取逐步下降法,则需要非常确定检验的层级性,而前期数据对此无法提供充分支持,此时最好能选取恰当的方法进行α拆分。此外,对于I类错误率控制的考虑,在涉及人群选择和扩展的统计设计中会更加复杂。在正式开展试验前,应衡量各种设计方案的利弊,并妥善解决监管部门所关注的问题。
【 随机化|抗肿瘤药物临床试验统计学设计指导原则(征求意见稿)】4. 主方案设计
在单一方案下同时检测多种试验药物和/或多个肿瘤适应症,且无需为每次试验制定新方案的试验设计,称为主方案设计。它包括篮式设计、伞式设计和平台设计。在研究多个预测型生物标志物的情况下,主方案设计会变得更加复杂。
在有或无生物标记物富集的患者人群中同时研究一种试验药物在多个肿瘤适应症中的试验,被称为篮式试验。性篮式试验的主要研究人群通常包括具有独特分子标记的患者。
考虑到无效的肿瘤队列可能会稀释整体治疗效果,因此肿瘤适应症的初步选择必须基于重要的科学和临床证据,以便为数据合并奠定坚实的基础,降低试验失败的风险。基于期中分析数据将疗效较差的肿瘤队列从最终的合并分析中去除可以进一步将风险降至最低,但可能会导致整体I类错误控制方面的问题,需要进行适当的多重性调整。去掉无效队列后,剩余肿瘤队列的样本量也将进行重新调整,以维持最终合并分析的统计效能。在这种情况下,样本量重新调整策略必须事先制定并与监管部门达成一致。如果I类错误能够得到适当控制,确证性篮式试验也可以考虑其它如贝叶斯等设计方法。
无论采用哪种设计方法进行篮式试验,在合并分析中拒绝全局原假设并不意味着试验药物在所有参与合并分析的肿瘤适应症中同样有效,也不意味所有适应症均应获得批准。就基线特征对治疗效果的影响而言,与传统的III期试验相似,监管部门基于确证性篮式试验做出是否批准药物上市或同意说明书范围的决定将取决于额外分析的结果(例如合并分析中的治疗效果是否主要由某特定肿瘤适应症子集所决定,试验药物的获益-风险特征在单个肿瘤队列中是否有利)。另外也可能需要通过上市后研究进一步证实临床获益。
作为篮式试验的补充,伞式试验可以在同一肿瘤适应症中同时研究多种试验药物。伞式试验中试验药物可以持续的加入或移出。当有多个试验组(或药物队列)开放入组时,应该采用随机化设计。随机化比率可以根据试验中新出现的数据进行调整,以倾向于更有前景的治疗组,并提前终止无效治疗组。由于试验药物的研究是在同一个平台上进行,且通常在某些特定的研究中心开展,因而不同药物队列之间患者群体的异质性可能较小,试验药物之间的比较也会比单独研究的结果更可信。
虽然单臂伞式/平台试验可能因疗效证据显著的数据结果获得附条件批准,但采用随机对照设计的伞式/平台试验可能更适合常规批准。随机对照伞式/平台试验可看作一种特殊类型的多臂III期试验,因此可遵循相同的原则进行多重性调整。如果试验的重点在于分别回答每一种治疗的疗效问题,而不是为了得到总体疗效的单个结论声明,则与单独的对照试验相比,采用共同对照的单组伞式/平台试验的总体I类错误率总是更低。但是,如果试验中包含了同一治疗的不同剂量组,则进行多重性调整以回答该治疗的疗效问题。若试验中同时采用了适应性随机化或其他适应性设计,多重性问题的控制将更为复杂。在随机对照伞式/平台试验中,试验组和对照组之间的主要比较一般应基于同一时期随机分配的受试者。
本文转自肿瘤资讯(由“抗癌管家网站-康爱管家”转载分享)
推荐阅读
- 科技日报|首张“药物击靶”显微照片问世 启发药物设计新思路
- 药物|网红DC减肥药涉毒 千万别吃!这种减肥药竟然是毒品!
- 药物|当心!“网红DC减肥药”涉毒,千万别吃!
- 促进细胞抵抗肿瘤的新药物
- 吃什么有利于抗肿瘤?合生制剂/嘉宝果/生酮都有新研究
- 「科普」 银屑病药物治疗效果怎么样
- 快速准确便宜,美国食品和药物管理局批准耶鲁大学新冠唾液测试法
- 美国食品和药物管理局|FDA批准“SalivaDirect”的紧急使用授权!
- 中大唯信-唯信计算|JMC | 基于网络的方法在药物研发中的应用
- 创伤后应激障碍|疫情之下,40%的美国人心理健康出现问题,需要依赖药物和酒精