AIDR | Reasoning-based Drug Repurposing

Reasoning-based drug repurposing

问题&回答

问题

  1. LLM在Repurposing中的应用情况
  2. 是否有基于文本结构,引入大模型知识作为一部分特征?
  3. 测试集是什么
  4. 传统模型/基于网络的模型的准确率

回答

  1. 有两种情况。第一种,引入LLM后的文本信息作为向量嵌入到GNN中;第二种,LLM作为筛选数据的方法,从数据层面提升最终效果。
  2. 有的。将文本以特定的形式组织,如"药物A[SEP]疾病B",然后将其变成向量,嵌入到GNN中。
  3. 阅读了几篇,测试集有
    1. B-dataset(SCMFDD-S/L):来自于 Predicting drug-disease associations by using similarity constrained matrix factorization | BMC Bioinformatics | Full Text,这篇文章里主要介绍了一个相似性约束矩阵分解的方法,里面编制了 SCMFDD-S 和 SCMFDD-L 数据集,其中的前者是这里的 B-dataset,适用于常规场景。
    2. C-dataset:来自于 Drug repositioning based on comprehensive similarity measures and Bi-Random walk algorithm | Bioinformatics | Oxford Academic,由 Dndataset 和 F-dataset 整合而成,结合了药物的 ATC 编码和疾病的 DO 术语。包含 963 种药物、1263 种疾病和 54921 个药物-疾病关系。适用于多源数据融合场景。
    3. F-dataset:来自于 PREDICT: a method for inferring novel drug indications with application to personalized medicine | Molecular Systems Biology,侧重于模型对文本知识的分析能力。
    4. R-dataset:整合 C-dataset、F-dataset 和 KEGG 数据库的信息,用于极端稀疏和不平衡数据下的鲁棒性。
  4. 模型准确率在不同的数据集上不同。这里的B、C、F数据集使用得比较多,一般来说衡量标准是AUC、AUPR、F1-score和Precision。

Action

Week

week1

相关论文调研: 是否有用大模型推理在repurposing里做的? 是否有基于文本&结构特征做repurposing,然后把大模型reasoning的知识作为一部分feature加入,能够提升其效果,找出可复现的工作

week2

找出可复现的工作(上周遗留), repurposing任务的测试集是什么? 在这个测试集上 传统大模型是多少准确率,基于网络的方式是多少准确率?


相关论文调研

LLM-DDA

Empowering Graph Neural Network-Based Computational Drug Repositioning with Large Language Model-Inferred Knowledge Representation - PubMed

问题与回答

Q1. LLM在Repurposing中的应用情况

LLM的推理信息在这里被引入了GNN中作为一部分特征

Q2. 是否有基于文本结构,引入大模型知识作为一部分特征?

文本结构经过LLM编码后的向量,引入到GNN网络中

Q3. 测试集是什么

见下面的数据集部分。一共使用了四个数据集。

Q4. 传统模型/基于网络的模型的准确率

  • 与下面四种baseline进行比较
    1. 机器学习方法:DDA-SKF、NIMCGCN;
    2. 矩阵分解方法:SCPMF、DRWBNCF;
    3. 深度学习/GNN方法:REDDA、LAGCN、HDGAT
    4. LLM 直接预测DirectPred

这里的前三种就是传统模型等其他方法。在下方的结果处说明了AUC、AUPR、F1-score和Precision的值。

解决的问题

现有图神经网络(GNN)方法过度依赖网络拓扑结构,受限于不完整、含噪声的网络数据,且忽略生物医学领域丰富知识的问题。通过整合大语言模型(LLM)推断的知识表示,提升 DDA 预测的准确性和可靠性。

面临挑战

  • 数据层面:传统GNN方法以来药物-疾病异构网络存在稀疏性和标签不平衡的问题
  • 模型层面:现有方法难以捕捉复杂关联
  • 知识利用:LLM生成的离散文本如何转化为适合GNN推理的连续数值表示,并设计高效融合架构

核心方法

流程图

TL;DR:关键在于知识挖掘(LLM 提示)→ 语义编码(嵌入生成)→ 图模型融合(关联预测)

Step1:构建异质网络

Step2:利用LLM的知识来拓展潜在知识

Step3:基于LLM的嵌入生成

Step4:构建LLM-DDA模型

一、药物-疾病异质网络构建(Drug-disease heterogeneous network construction)

  • 数据来源:整合 DrugBank(药物数据库 )、OMIM(人类孟德尔遗传数据库 )、MeSH(医学主题词表 )等生物医学数据库 。
  • 构建逻辑
    • 先计算 药物-药物、疾病-疾病的成对相似度(Pairwise similarities)(如化学结构、基因功能相似性 )。
    • 再结合已知 药物-疾病关联(Drug-disease associations) ,构建成包含药物、疾病节点,以及相似度、关联关系边的异质图网络 ,为后续分析提供拓扑结构基础。

二、零样本提示工程(Zero-shot prompt engineering)

  • 核心动作:设计 基于化学生物特征的提示模板(Chemobiomedical characteristics-based prompt template design) ,把药物 / 疾病的专业属性(如靶点、作用通路、临床特征等 )转化为大语言模型(LLM)可理解的指令。
  • 功能价值:借助 GPT-4 的知识推理能力,生成目标药物 / 疾病的详细描述 ,挖掘数据库外的潜在知识关联,引入LLM知识。

三、基于 LLM 的嵌入生成

  • 双模型进行嵌入生成
    • 用 ChatGPT-4 Turbo(通用大模型)、BioBERTpt(生物医学专用预训练模型 ),对 GPT-4 生成的文本描述做编码。
    • 输出 LLM 嵌入,把生物医学语义信息转化为数值向量,让后续图模型能 理解语言知识。

四、LLM-DDA 模型构建(LLM-DDA model construction)

  • 多架构覆盖:提供 3 种融合策略,适配不同场景需求:
    • LLM-DDA (node feat):直接把 LLM 嵌入作为节点特征,融入传统图神经网络,轻量且易部署。
    • LLM-DDA (graph-graph):双图网络并行,分别处理 LLM 嵌入图与原始异质图,再融合结果,强化多源信息互补。
    • LLM-DDA (graph-ae):结合图自动编码器(Graph-AE),优化嵌入特征与拓扑结构的融合,适合挖掘深层关联。
  • 输入衔接:模型输入关联两部分:
    • Similarity features(相似度特征 ):来自第一步异质网络的拓扑计算。
    • Adjacency matrix(邻接矩阵):刻画药物-疾病的关联结构,让模型同时学习知识语义(LLM 嵌入)和网络拓扑(图结构),提升药物-疾病关联预测精度。

数据集

四个药物-疾病的基准数据集

Dataset Drugs Diseases Drug-disease Associations Pos-Neg Ratio
B-dataset 269 598 18,416 11.45%
C-dataset 663 409 2,532 1.57%
F-dataset 593 313 1,933 1.05%
R-dataset 894 454 2,704 0.67%

指标结果

  • AUC、AUPR、F1和五折交叉验证结果
    四个数据集下的三种不同方法的效果
  • 与下面四种baseline进行比较
    1. 机器学习方法:DDA-SKF、NIMCGCN;
    2. 矩阵分解方法:SCPMF、DRWBNCF;
    3. 深度学习/GNN方法:REDDA、LAGCN、HDGAT
    4. LLM 直接预测DirectPred

分别通过AUC、AUPR、F1-score和Precision来判断效果。

最优模型为粗体,次优为下划线
最终平均结果


LBMFF

Frontiers | Drug–disease association prediction with literature based multi-feature fusion

问题与回答

Q1. LLM在Repurposing中的应用情况

这里使用了BERT来挖掘文献中的关联关系。

Q2. 是否有基于文本结构,引入大模型知识作为一部分特征?

BERT经过预训练和微调之后,能够学习文献中的一些关联关系,输出包含语义关联信息的向量表示,从而文献中的药物-药物相似性关系和疾病-疾病相似性关系知识。

Q3. 测试集是什么

见下面的数据集部分。一共使用了两个数据集。

Q4. 传统模型/基于网络的模型的准确率

对比的模型分为如下部分,都是各自领域的SOTA模型。

  1. 图神经网络(GNN):DRHGCN、LAGCN、REDDA
  2. 矩阵分解与正则化:BNNR、DRWBNCF
  3. 矩阵补全与神经归纳:NIMCGCN
  4. 核融合与传统机器学习:DDA-SKF

对比结果如研究结果部分所示。

解决的问题

药物重定位中的关联预测问题

面临的挑战

  • 文献信息利用不够充分:现在大多数计算方法都是依赖结构化数据库,但是科学文献中有很多未被充分挖掘的药物-疾病关联关系。
  • 多特征难以有效融合:药物和疾病的特征具有异质性。

核心方法

提出了LBMFF(基于文献的多特征融合方法)。

  • 多源融合:同时用结构化数据库(Drugbank、SIDER 等)和非结构化文献(BERT 处理),挖掘更全面的药物-疾病关联。
  • 图网络 + 注意力:用 GCN 处理 “药物-疾病” 关联的图结构,注意力机制强化关键特征,提升预测准确性。

  1. 相似性计算
    • 多源数据提取特征,计算药物、疾病的相似性,构建关联矩阵
    • 药物相似性(Drug-Drug):
      整合 3 类结构化数据 + 文献语义:
      • 化学结构(Drugbank 数据库,药物分子结构)
      • 副作用(SIDER 数据库,药物-副作用关联)
      • 靶点(Drugbank 数据库,药物-靶点关联)
      • 文献语义(BERT 模型处理文献,挖掘药物间语义关联)
        最终加权融合(α、β、γ 为权重),输出药物相似性矩阵
    • 疾病相似性(Disease-Disease):
      整合 2 类数据: -MeSH 数据库(疾病树编号,疾病分类体系)
      • 文献语义(BERT 模型处理文献,挖掘疾病间语义关联)
        输出疾病相似性矩阵
    • 药物-疾病关联(Drug-Disease):
      直接从 CTD 数据库(比较毒理学数据库)获取已知关联矩阵,标记已验证的药物-疾病对。
  2. 特征表示
    • 将上一步得到的 药物相似性矩阵、疾病相似性矩阵、已知关联矩阵 拼接,形成模型输入的融合特征矩阵,统一表征药物和疾病的多源信息。
  3. 编码器
    • 带注意力机制的图卷积网络(GCN) 学习药物、疾病的嵌入表示:
    • 两层 GCN(Graph Convolution Encoder Layer)逐层提取特征,ReLU 激活增加非线性。
    • 注意力机制(Attention mechanism)动态分配权重,突出关键特征(比如强关联的药物-疾病对)。
    • 最终输出 药物 + 疾病的嵌入向量(维度 (m + n)×d ,m 是药物数,n 是疾病数,d 是嵌入维度 )。
  4. 解码器
    • 通过矩阵乘法还原关联预测:
      • 药物嵌入($Eₘₓ×d$ )、权重矩阵($W_d×d$ )、疾病嵌入($Eₙₓ×d $)相乘,重建药物-疾病关联得分。
  5. 预测输出潜在关联
    • 实线:已知关联(来自 CTD 数据库)。
    • 虚线:模型预测的潜在关联(未被验证,但算法判定有高可能性的药物-疾病对 ),可辅助药物重定位研究。
BERT在文中

预训练

  • 数据准备
    • 筛选包含药物、疾病名称的科学文献(如从 PubMed 获取,文中提到的 673,665 篇相关文献 ),这些文献包含药物-疾病关联的语义描述(如治疗、关联、机制等表述 )。
    • 将文献中疾病、药物相关文本构建为“药物文本-疾病文本” 对作为输入序列。
  • Masked LM
    • 让BERT预测被遮盖内容,如[MASK]可以治疗糖尿病,需要推断出是药物X。
  • NSP
    • 真实对:药物A[SEP]疾病B
    • 虚假对:药物C[SEP] 疾病D
    • 需要判断文本对是否是真实对

模型微调

  • 数据
    • 使用CTD等数据库中已知的药物-疾病关联对。存在关联为正例,无关联为负例
  • 输出语义特征
    • 经过预训练 + 微调后,BERT 对输入的 “药物-疾病文本对”,会输出包含语义关联信息的向量表示

研究结果

测试集
指标表现

和SOTA模型进行比较,分别是

  1. 图神经网络(GNN):DRHGCN、LAGCN、REDDA
  2. 矩阵分解与正则化:BNNR、DRWBNCF
  3. 矩阵补全与神经归纳:NIMCGCN
  4. 核融合与传统机器学习:DDA-SKF

LBMFF在所有指标上都体现出了领先。

此外,LBMFF在TL-HGBI在多数指标上仍优于对比方法,证明方法在大规模数据集上的泛化能力


LLM进行阴性数据标注

Improving drug repositioning with negative data labeling using large language models-PubMed

问题与回答

Q1. LLM在Repurposing中的应用情况

LLM引入了自己的推理能力来修改训练数据。

Q2. 是否有基于文本结构,引入大模型知识作为一部分特征?

没有。这里大模型的作用是通过自身的知识,在文本中筛选出更好的数据来提升最终效果的。

Q3. 测试集是什么

测试集是由AACT 数据库得到。作者手动选择了一部分数据(5 阳性 + 11 阴性 )作为测试集验证泛化能力。

Q4. 传统模型/基于网络的模型的准确率

见研究结果。本文通过提升数据集中真阴性数据的质量来提高了最终的模型效果。具体来说,提升的效果还是比较显著的。

解决的问题

在药物重新定位中,监督机器学习模型因缺乏可靠的阴性数据(即因无效或毒性失败的药物)而预测准确性和泛化能力不足。

传统的 Positive-Unlabeled(PU)学习方法通过随机采样或简单分类未标记数据作为阴性,存在误分类或决策边界简化的问题,导致模型性能受限。

LLM通过进行分析文献和数据,系统挖掘真阴性数据,提升了阴性数据的质量。

面临的挑战

  • 阴性数据获取困难:多数数据库会把试验中止就等同于阴性,但终止原因可能并不是因为药物疗效/毒性问题,而是资金不足等原因。
  • PU学习方法的局限性:随机采样未标记数据作为阴性会引入分类偏差,而基于聚类等策略的阴性筛选假设正负样本边界清晰,与真实场景不符,导致模型泛化能力差。
  • 临床数据处理复杂性:临床试验文本存在表述不规范、结果不完整等问题,传统方法难以准确解析并识别真正的阴性药物。

核心方法

GPT-4 系统性挖掘真阴性数据,为药物重定位提供 “高质量标注 + 精准模型” 方案,可扩展到其他疾病。

临床试验药物标注流程

  • 临床数据获取:从 AACT 数据库获取 2539 个前列腺癌相关临床试验,排除未公布结果和因非疗效原因终止的试验后,剩余 1442 个试验由 GPT-4 分析。
  • GPT-4的训练和验证:使用 22 个手动策划的试验对 GPT-4 进行验证,其中包括 14 个无关试验、4 个阳性试验和 4 个阴性试验,GPT-4 成功正确分类所有试验。
  • 特征构建
    • 知识-based 特征:从 DrugBank 获取药物-基因、药物-靶点、药物-通路相互作用、结构特性和靶点类别等,转换为独热编码。
    • network-based 特征:构建包含药物-药物相似性、蛋白质-蛋白质相互作用和基因本体论的多层生物网络,提取拓扑特征。
  • 对比策略
    • GPT-4 标注:使用 GPT-4 识别的 26 个阳性和 54 个阴性药物。
    • 无采样 PU:将所有未标记药物视为阴性,导致类别不平衡。
    • 下采样 PU:从未标记药物中随机采样 43 个阴性,重复 100 次以控制类别不平衡。

训练集和测试集来自于作者自己收集和整理。

研究结果

使用六种机器学习算法和5折交叉验证训练模型,测试集验证泛化能力(5 阳性 + 11 阴性 )。

1. 训练集表现(图 A):
  • GPT-4(🔴):多数算法(如 LogL1、RF、SVM )平衡准确率接近 0.9,说明用 GPT-4 标注的高质量数据,模型在训练集上 “学的好”,分类稳定。
  • No sampling(🟢):部分算法(如 ANN、NB )准确率暴跌,因阴性样本太多,学不到有效模式。
  • Under sampling(🔵):表现居中,虽平衡了类别,但随机丢数据,训练效果不如 GPT-4 标注。
2. 测试集表现(图 B):
  • GPT-4(🔴):多数算法(如 LogL1、RF、SVM )MCC 显著高于其他策略,尤其是 LogL1、RF,说明模型泛化能力强,用 GPT-4 标注数据训练的模型,在真实测试集上 “预测准”。
  • No sampling(🟢):MCC 普遍低(如 NB 甚至接近 0 ),模型被类别不平衡拖垮。
  • Under sampling(🔵):MCC 比 GPT-4 低,因下采样丢了很多真实阴性信息,模型学到的规律不完整。

其他

DrugGen

DrugGen enhances drug discovery with large language models and reinforcement learning | Scientific Reports

这篇文章介绍了一个基于DrugGPT的模型DrugGen,通过监督微调、近端策略优化和强化学习来引导模型生成更高质量的分子。

DrugReAlign

DrugReAlign: a multisource prompt framework for drug repurposing based on large language models - PubMed

提出了一个多源提示的LLM药物重定位框架。

Benchmark:LLM在八项化学任务中的表现

What can Large Language Models do in chemistry? A comprehensive benchmark on eight tasks

评估了LLM在八项具体的化学任务中的表现,采用零样本、少样本上下文学习设置,最后得出GPT-4最佳,Davinci-003次之,GPT-3.5第三。

BioBERT

BioBERT: a pre-trained biomedical language representation model for biomedical text mining | Bioinformatics | Oxford Academic

介绍了一个用于生物医学领域的预训练语言表示模型,其在BERT的基础上使用生物医学领域语料库进行预训练。

使用 Hugo 构建
主题 StackJimmy 设计