AIDR | Reasoning-based Drug Repurposing

Reasoning-based drug repurposing

问题&回答

问题

LLM在Repurposing中的应用情况
是否有基于文本结构，引入大模型知识作为一部分特征？
测试集是什么
传统模型/基于网络的模型的准确率

回答

有两种情况。第一种，引入LLM后的文本信息作为向量嵌入到GNN中；第二种，LLM作为筛选数据的方法，从数据层面提升最终效果。
有的。将文本以特定的形式组织，如"药物A[SEP]疾病B"，然后将其变成向量，嵌入到GNN中。
阅读了几篇，测试集有
1. B-dataset（SCMFDD-S/L）：来自于 Predicting drug-disease associations by using similarity constrained matrix factorization | BMC Bioinformatics | Full Text，这篇文章里主要介绍了一个相似性约束矩阵分解的方法，里面编制了 SCMFDD-S 和 SCMFDD-L 数据集，其中的前者是这里的 B-dataset，适用于常规场景。
2. C-dataset：来自于 Drug repositioning based on comprehensive similarity measures and Bi-Random walk algorithm | Bioinformatics | Oxford Academic，由 Dndataset 和 F-dataset 整合而成，结合了药物的 ATC 编码和疾病的 DO 术语。包含 963 种药物、1263 种疾病和 54921 个药物-疾病关系。适用于多源数据融合场景。
3. F-dataset：来自于 PREDICT: a method for inferring novel drug indications with application to personalized medicine | Molecular Systems Biology，侧重于模型对文本知识的分析能力。
4. R-dataset：整合 C-dataset、F-dataset 和 KEGG 数据库的信息，用于极端稀疏和不平衡数据下的鲁棒性。
模型准确率在不同的数据集上不同。这里的B、C、F数据集使用得比较多，一般来说衡量标准是AUC、AUPR、F1-score和Precision。

Action

Week

week1

相关论文调研：是否有用大模型推理在repurposing里做的？是否有基于文本&结构特征做repurposing，然后把大模型reasoning的知识作为一部分feature加入，能够提升其效果，找出可复现的工作。

week2

找出可复现的工作（上周遗留）， repurposing任务的测试集是什么？在这个测试集上传统大模型是多少准确率，基于网络的方式是多少准确率？

相关论文调研

LLM-DDA

Empowering Graph Neural Network-Based Computational Drug Repositioning with Large Language Model-Inferred Knowledge Representation - PubMed

问题与回答

Q1. LLM在Repurposing中的应用情况

LLM的推理信息在这里被引入了GNN中作为一部分特征

Q2. 是否有基于文本结构，引入大模型知识作为一部分特征？

文本结构经过LLM编码后的向量，引入到GNN网络中

Q3. 测试集是什么

见下面的数据集部分。一共使用了四个数据集。

Q4. 传统模型/基于网络的模型的准确率

与下面四种baseline进行比较
1. 机器学习方法：DDA-SKF、NIMCGCN；
2. 矩阵分解方法：SCPMF、DRWBNCF；
3. 深度学习/GNN方法：REDDA、LAGCN、HDGAT
4. LLM 直接预测DirectPred

这里的前三种就是传统模型等其他方法。在下方的结果处说明了AUC、AUPR、F1-score和Precision的值。

解决的问题

现有图神经网络（GNN）方法过度依赖网络拓扑结构，受限于不完整、含噪声的网络数据，且忽略生物医学领域丰富知识的问题。通过整合大语言模型（LLM）推断的知识表示，提升 DDA 预测的准确性和可靠性。

面临挑战

数据层面：传统GNN方法以来药物-疾病异构网络存在稀疏性和标签不平衡的问题
模型层面：现有方法难以捕捉复杂关联
知识利用：LLM生成的离散文本如何转化为适合GNN推理的连续数值表示，并设计高效融合架构

核心方法

流程图

TL;DR：关键在于知识挖掘（LLM 提示）→ 语义编码（嵌入生成）→ 图模型融合（关联预测）

Step1：构建异质网络

Step2：利用LLM的知识来拓展潜在知识

Step3：基于LLM的嵌入生成

Step4：构建LLM-DDA模型

一、药物-疾病异质网络构建（Drug-disease heterogeneous network construction）

数据来源：整合 DrugBank（药物数据库）、OMIM（人类孟德尔遗传数据库）、MeSH（医学主题词表）等生物医学数据库。
构建逻辑：
- 先计算 药物-药物、疾病-疾病的成对相似度（Pairwise similarities）（如化学结构、基因功能相似性）。
- 再结合已知 药物-疾病关联（Drug-disease associations） ，构建成包含药物、疾病节点，以及相似度、关联关系边的异质图网络 ，为后续分析提供拓扑结构基础。

二、零样本提示工程（Zero-shot prompt engineering）

核心动作：设计 基于化学生物特征的提示模板（Chemobiomedical characteristics-based prompt template design） ，把药物 / 疾病的专业属性（如靶点、作用通路、临床特征等）转化为大语言模型（LLM）可理解的指令。
功能价值：借助 GPT-4 的知识推理能力，生成目标药物 / 疾病的详细描述 ，挖掘数据库外的潜在知识关联，引入LLM知识。

三、基于 LLM 的嵌入生成

双模型进行嵌入生成：
- 用 ChatGPT-4 Turbo（通用大模型）、BioBERTpt（生物医学专用预训练模型），对 GPT-4 生成的文本描述做编码。
- 输出 LLM 嵌入，把生物医学语义信息转化为数值向量，让后续图模型能理解语言知识。

四、LLM-DDA 模型构建（LLM-DDA model construction）

多架构覆盖：提供 3 种融合策略，适配不同场景需求：
- LLM-DDA (node feat)：直接把 LLM 嵌入作为节点特征，融入传统图神经网络，轻量且易部署。
- LLM-DDA (graph-graph)：双图网络并行，分别处理 LLM 嵌入图与原始异质图，再融合结果，强化多源信息互补。
- LLM-DDA (graph-ae)：结合图自动编码器（Graph-AE），优化嵌入特征与拓扑结构的融合，适合挖掘深层关联。
输入衔接：模型输入关联两部分：
- Similarity features（相似度特征）：来自第一步异质网络的拓扑计算。
- Adjacency matrix（邻接矩阵）：刻画药物-疾病的关联结构，让模型同时学习知识语义（LLM 嵌入）和网络拓扑（图结构），提升药物-疾病关联预测精度。

数据集

四个药物-疾病的基准数据集

Dataset	Drugs	Diseases	Drug-disease Associations	Pos-Neg Ratio
B-dataset	269	598	18,416	11.45%
C-dataset	663	409	2,532	1.57%
F-dataset	593	313	1,933	1.05%
R-dataset	894	454	2,704	0.67%

B-dataset：来自于Predicting drug-disease associations by using similarity constrained matrix factorization | BMC Bioinformatics | Full Text，这篇文章里主要介绍了一个相似性约束矩阵分解的方法，里面编制了SCMFDD-S和SCMFDD-L数据集，其中的前者是这里的B-dataset，适用于常规场景。
C-dataset：来自于Drug repositioning based on comprehensive similarity measures and Bi-Random walk algorithm | Bioinformatics | Oxford Academic，由Dndataset和F-dataset整合而成，结合了药物的ATC编码和疾病的DO术语。适用于多源数据融合场景。
F-dataset：来自于PREDICT: a method for inferring novel drug indications with application to personalized medicine | Molecular Systems Biology，侧重于模型对文本知识的分析能力。
R-dataset：本文自己提出。整合C-dataset、F-dataset和KEGG数据库的信息，用于极端稀疏和不平衡数据下的鲁棒性。

指标结果

AUC、AUPR、F1和五折交叉验证结果
与下面四种baseline进行比较
1. 机器学习方法：DDA-SKF、NIMCGCN；
2. 矩阵分解方法：SCPMF、DRWBNCF；
3. 深度学习/GNN方法：REDDA、LAGCN、HDGAT
4. LLM 直接预测DirectPred

分别通过AUC、AUPR、F1-score和Precision来判断效果。

最优模型为粗体，次优为下划线
最终平均结果

LBMFF

Frontiers | Drug–disease association prediction with literature based multi-feature fusion

问题与回答

Q1. LLM在Repurposing中的应用情况

这里使用了BERT来挖掘文献中的关联关系。

Q2. 是否有基于文本结构，引入大模型知识作为一部分特征？

BERT经过预训练和微调之后，能够学习文献中的一些关联关系，输出包含语义关联信息的向量表示，从而文献中的药物-药物相似性关系和疾病-疾病相似性关系知识。

Q3. 测试集是什么

见下面的数据集部分。一共使用了两个数据集。

Q4. 传统模型/基于网络的模型的准确率

对比的模型分为如下部分，都是各自领域的SOTA模型。

图神经网络（GNN）：DRHGCN、LAGCN、REDDA
矩阵分解与正则化：BNNR、DRWBNCF
矩阵补全与神经归纳：NIMCGCN
核融合与传统机器学习：DDA-SKF

对比结果如研究结果部分所示。

解决的问题

药物重定位中的关联预测问题

面临的挑战

文献信息利用不够充分：现在大多数计算方法都是依赖结构化数据库，但是科学文献中有很多未被充分挖掘的药物-疾病关联关系。
多特征难以有效融合：药物和疾病的特征具有异质性。

核心方法

提出了LBMFF（基于文献的多特征融合方法）。

多源融合：同时用结构化数据库（Drugbank、SIDER 等）和非结构化文献（BERT 处理），挖掘更全面的药物-疾病关联。
图网络 + 注意力：用 GCN 处理 “药物-疾病” 关联的图结构，注意力机制强化关键特征，提升预测准确性。

相似性计算
- 从多源数据提取特征，计算药物、疾病的相似性，构建关联矩阵
- 药物相似性（Drug-Drug）：
  整合 3 类结构化数据 + 文献语义：
  - 化学结构（Drugbank 数据库，药物分子结构）
  - 副作用（SIDER 数据库，药物-副作用关联）
  - 靶点（Drugbank 数据库，药物-靶点关联）
  - 文献语义（BERT 模型处理文献，挖掘药物间语义关联）
    最终加权融合（α、β、γ 为权重），输出药物相似性矩阵。
- 疾病相似性（Disease-Disease）：
  整合 2 类数据： -MeSH 数据库（疾病树编号，疾病分类体系）
  - 文献语义（BERT 模型处理文献，挖掘疾病间语义关联）
    输出疾病相似性矩阵。
- 药物-疾病关联（Drug-Disease）：
  直接从 CTD 数据库（比较毒理学数据库）获取已知关联矩阵，标记已验证的药物-疾病对。
特征表示
- 将上一步得到的 药物相似性矩阵、疾病相似性矩阵、已知关联矩阵 拼接，形成模型输入的融合特征矩阵，统一表征药物和疾病的多源信息。
编码器
- 用带注意力机制的图卷积网络（GCN） 学习药物、疾病的嵌入表示：
- 两层 GCN（Graph Convolution Encoder Layer）逐层提取特征，ReLU 激活增加非线性。
- 注意力机制（Attention mechanism）动态分配权重，突出关键特征（比如强关联的药物-疾病对）。
- 最终输出 药物 + 疾病的嵌入向量（维度 (m + n)×d ，m 是药物数，n 是疾病数，d 是嵌入维度）。
解码器
- 通过矩阵乘法还原关联预测：
  - 药物嵌入（$Eₘₓ×d$ ）、权重矩阵（$W_d×d$ ）、疾病嵌入（$Eₙₓ×d $）相乘，重建药物-疾病关联得分。
预测输出潜在关联
- 实线：已知关联（来自 CTD 数据库）。
- 虚线：模型预测的潜在关联（未被验证，但算法判定有高可能性的药物-疾病对），可辅助药物重定位研究。

BERT在文中

预训练

数据准备
- 筛选包含药物、疾病名称的科学文献（如从 PubMed 获取，文中提到的 673,665 篇相关文献），这些文献包含药物-疾病关联的语义描述（如治疗、关联、机制等表述）。
- 将文献中疾病、药物相关文本构建为“药物文本-疾病文本” 对作为输入序列。
Masked LM
- 让BERT预测被遮盖内容，如[MASK]可以治疗糖尿病，需要推断出是药物X。
NSP
- 真实对：药物A[SEP]疾病B
- 虚假对：药物C[SEP] 疾病D
- 需要判断文本对是否是真实对

模型微调

数据
- 使用CTD等数据库中已知的药物-疾病关联对。存在关联为正例，无关联为负例
输出语义特征
- 经过预训练 + 微调后，BERT 对输入的 “药物-疾病文本对”，会输出包含语义关联信息的向量表示

研究结果

测试集

Zhang（SCMFDD-S）：来自于Predicting drug-disease associations by using similarity constrained matrix factorization | BMC Bioinformatics | Full Text，在上面被称为B-dataset。包含269种药物、598种疾病和18416个药物-疾病关系。本文中还从其他数据库中填充了化学结构、药物-靶点关系和药物副作用、疾病树作为药物-药物相似性度量的数据。
TL-HGBI：来自于Drug repositioning by integrating target information through a heterogeneous network model | Bioinformatics | Oxford Academic。包含963种药物、1263种疾病和54921个药物-疾病关系。同样地，也进行了信息填充来进行相似性度量。

指标表现

和SOTA模型进行比较，分别是

图神经网络（GNN）：DRHGCN、LAGCN、REDDA
矩阵分解与正则化：BNNR、DRWBNCF
矩阵补全与神经归纳：NIMCGCN
核融合与传统机器学习：DDA-SKF

LBMFF在所有指标上都体现出了领先。

此外，LBMFF在TL-HGBI在多数指标上仍优于对比方法，证明方法在大规模数据集上的泛化能力。

LLM进行阴性数据标注

Improving drug repositioning with negative data labeling using large language models-PubMed

问题与回答

Q1. LLM在Repurposing中的应用情况

LLM引入了自己的推理能力来修改训练数据。

Q2. 是否有基于文本结构，引入大模型知识作为一部分特征？

没有。这里大模型的作用是通过自身的知识，在文本中筛选出更好的数据来提升最终效果的。

Q3. 测试集是什么

测试集是由AACT 数据库得到。作者手动选择了一部分数据（5 阳性 + 11 阴性）作为测试集验证泛化能力。

Q4. 传统模型/基于网络的模型的准确率

见研究结果。本文通过提升数据集中真阴性数据的质量来提高了最终的模型效果。具体来说，提升的效果还是比较显著的。

解决的问题

在药物重新定位中，监督机器学习模型因缺乏可靠的阴性数据（即因无效或毒性失败的药物）而预测准确性和泛化能力不足。

传统的 Positive-Unlabeled（PU）学习方法通过随机采样或简单分类未标记数据作为阴性，存在误分类或决策边界简化的问题，导致模型性能受限。

LLM通过进行分析文献和数据，系统挖掘真阴性数据，提升了阴性数据的质量。

面临的挑战

阴性数据获取困难：多数数据库会把试验中止就等同于阴性，但终止原因可能并不是因为药物疗效/毒性问题，而是资金不足等原因。
PU学习方法的局限性：随机采样未标记数据作为阴性会引入分类偏差，而基于聚类等策略的阴性筛选假设正负样本边界清晰，与真实场景不符，导致模型泛化能力差。
临床数据处理复杂性：临床试验文本存在表述不规范、结果不完整等问题，传统方法难以准确解析并识别真正的阴性药物。

核心方法

GPT-4 系统性挖掘真阴性数据，为药物重定位提供 “高质量标注 + 精准模型” 方案，可扩展到其他疾病。

临床试验药物标注流程

临床数据获取：从 AACT 数据库获取 2539 个前列腺癌相关临床试验，排除未公布结果和因非疗效原因终止的试验后，剩余 1442 个试验由 GPT-4 分析。
GPT-4的训练和验证：使用 22 个手动策划的试验对 GPT-4 进行验证，其中包括 14 个无关试验、4 个阳性试验和 4 个阴性试验，GPT-4 成功正确分类所有试验。
特征构建：
- 知识-based 特征：从 DrugBank 获取药物-基因、药物-靶点、药物-通路相互作用、结构特性和靶点类别等，转换为独热编码。
- network-based 特征：构建包含药物-药物相似性、蛋白质-蛋白质相互作用和基因本体论的多层生物网络，提取拓扑特征。
对比策略：
- GPT-4 标注：使用 GPT-4 识别的 26 个阳性和 54 个阴性药物。
- 无采样 PU：将所有未标记药物视为阴性，导致类别不平衡。
- 下采样 PU：从未标记药物中随机采样 43 个阴性，重复 100 次以控制类别不平衡。

训练集和测试集来自于作者自己收集和整理。

研究结果

使用六种机器学习算法和5折交叉验证训练模型，测试集验证泛化能力（5 阳性 + 11 阴性）。

1. 训练集表现（图 A）：

GPT-4（🔴）：多数算法（如 LogL1、RF、SVM ）平衡准确率接近 0.9，说明用 GPT-4 标注的高质量数据，模型在训练集上 “学的好”，分类稳定。
No sampling（🟢）：部分算法（如 ANN、NB ）准确率暴跌，因阴性样本太多，学不到有效模式。
Under sampling（🔵）：表现居中，虽平衡了类别，但随机丢数据，训练效果不如 GPT-4 标注。

2. 测试集表现（图 B）：

GPT-4（🔴）：多数算法（如 LogL1、RF、SVM ）MCC 显著高于其他策略，尤其是 LogL1、RF，说明模型泛化能力强，用 GPT-4 标注数据训练的模型，在真实测试集上 “预测准”。
No sampling（🟢）：MCC 普遍低（如 NB 甚至接近 0 ），模型被类别不平衡拖垮。
Under sampling（🔵）：MCC 比 GPT-4 低，因下采样丢了很多真实阴性信息，模型学到的规律不完整。

其他

DrugGen

DrugGen enhances drug discovery with large language models and reinforcement learning | Scientific Reports

这篇文章介绍了一个基于DrugGPT的模型DrugGen，通过监督微调、近端策略优化和强化学习来引导模型生成更高质量的分子。

DrugReAlign

DrugReAlign: a multisource prompt framework for drug repurposing based on large language models - PubMed

提出了一个多源提示的LLM药物重定位框架。

Benchmark：LLM在八项化学任务中的表现

What can Large Language Models do in chemistry? A comprehensive benchmark on eight tasks

评估了LLM在八项具体的化学任务中的表现，采用零样本、少样本上下文学习设置，最后得出GPT-4最佳，Davinci-003次之，GPT-3.5第三。

BioBERT

BioBERT: a pre-trained biomedical language representation model for biomedical text mining | Bioinformatics | Oxford Academic

介绍了一个用于生物医学领域的预训练语言表示模型，其在BERT的基础上使用生物医学领域语料库进行预训练。