基于图神经网络进行分子活性预测
该项目通过利用图神经网络来解析和预测化学分子结构对HIV的活性,展示了深度学习在药物发现领域的应用潜力。项目的核心是如何从分子结构中有效提取特征,并利用这些特征进行准确的活性预测。通过解决数据不平衡问题,以及优化模型结构和参数,该项目旨在提高预测HIV活性化合物的准确性。以下是对项目各部分的更加详细的介绍: 数据集介绍 该数据集源自药物治疗计划(Drug Treatment Program, DTP)的抗HIV病毒筛选项目,涉及超过40,000种化合物对HIV复制能力的测试。这些化合物的筛选结果被分为三个类别: 为了简化分析,项目将后两类(CA和CM)合并,形成一个二分类问题:无活性(CI)与有活性(CA和CM)。原始数据包含SMILES格式的分子结构,以及与这些结构相关的活性标签。 训练集示例如下: 项目结构和文件 3.1 config.py 该文件包含模型构建和训练所需的各种超参数。项目中采用了基于贝叶斯的超参数优化策略,通过“mango”库在给定的参数空间内搜索最优的参数组合。 3.2 dataset.py 这个脚本基于torch_geometric包扩展了Dataset类。通过使用rdkit库的Chem包的Chem.MolFromSmiles函数计算分子的性质,这些性质被作为特征输入到图神经网络中进行计算。 3.3 dataset_featurer.py 这是dataset.py的简化版,其功能是用deepchem库中的feat.MolGraphConvFeaturizer函数来获取分子特征,替代了dataset.py中的相关功能。 3.4 model.py […]


