Prediction of Mutagenicity of Organic Molecules by Ensemble Learning

Masamoto Arakawa, K. Funatsu
{"title":"Prediction of Mutagenicity of Organic Molecules by Ensemble Learning","authors":"Masamoto Arakawa, K. Funatsu","doi":"10.2751/JCAC.12.26","DOIUrl":null,"url":null,"abstract":"本研究では、有機化合物の変異原性を予測するためのクラス分類モデルの構築を行った。変異原性を評価するための標準的な方法である復帰突然変異試験を対象とし、その評価結果を高い精度で予測することの出来るモデルの構築を目指した。クラス分類モデル構築のための手法として、複数のSupport Vector Machine(SVM)モデルをサブモデルとして構築し、それらを組み合わせることで予測を行うアンサンブル手法を提案する。データセットから一部の化合物および構造記述子をランダムに抜き出し、SVMを用いてサブモデルを構築する。このとき、SVMのパラメータについても乱数によって無作為に決定する。この操作を複数回繰り返した後、精度の高いサブモデルの予測結果を統合することで変異原性の予測を行う。Hansenら[K. Hansen, et al., J. Chem. Inf. Model., 49, 2077-2081] が収集・整理した、6,512化合物からなる復帰突然変異試験のデータセットを用い、モデルの構築および評価を行った。その結果、テストセットに対する予測正解率79.6%のモデルを構築することに成功した。これは、通常のSVMによって得られるモデルと比較し高い精度を示すものであった。また、The Area Under ROC-Curve(AUC)は0.866であり、Hansenらの結果と同等以上の結果であることが確認された。これらのことから、変異原性の予測にあたってはSVMおよびアンサンブルモデルを用いることが有力であるとの結論が得られた。","PeriodicalId":41457,"journal":{"name":"Journal of Computer Aided Chemistry","volume":"12 1","pages":"26-36"},"PeriodicalIF":0.0000,"publicationDate":"2011-01-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Journal of Computer Aided Chemistry","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.2751/JCAC.12.26","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0

Abstract

本研究では、有機化合物の変異原性を予測するためのクラス分類モデルの構築を行った。変異原性を評価するための標準的な方法である復帰突然変異試験を対象とし、その評価結果を高い精度で予測することの出来るモデルの構築を目指した。クラス分類モデル構築のための手法として、複数のSupport Vector Machine(SVM)モデルをサブモデルとして構築し、それらを組み合わせることで予測を行うアンサンブル手法を提案する。データセットから一部の化合物および構造記述子をランダムに抜き出し、SVMを用いてサブモデルを構築する。このとき、SVMのパラメータについても乱数によって無作為に決定する。この操作を複数回繰り返した後、精度の高いサブモデルの予測結果を統合することで変異原性の予測を行う。Hansenら[K. Hansen, et al., J. Chem. Inf. Model., 49, 2077-2081] が収集・整理した、6,512化合物からなる復帰突然変異試験のデータセットを用い、モデルの構築および評価を行った。その結果、テストセットに対する予測正解率79.6%のモデルを構築することに成功した。これは、通常のSVMによって得られるモデルと比較し高い精度を示すものであった。また、The Area Under ROC-Curve(AUC)は0.866であり、Hansenらの結果と同等以上の結果であることが確認された。これらのことから、変異原性の予測にあたってはSVMおよびアンサンブルモデルを用いることが有力であるとの結論が得られた。
查看原文
分享 分享
微信好友 朋友圈 QQ好友 复制链接
本刊更多论文
基于集成学习的有机分子诱变性预测
本研究构建了用于预测有机化合物变异源性的类别分类模型。以作为评价变原性的标准方法的回归突变试验为对象,目标是构建能够高精度预测其评价结果的模型。作为一种用于构建类分类模型的方法,我们提出了一种通过将多个辅助向量机(SVM)模型作为子模型构建并组合它们来进行预测的协同方法。我们从数据集中随机抽取一些化合物和结构描述符,利用SVM建立子模型。此时,也通过随机数随机地确定SVM的参数。重复多次该操作后,通过综合准确度较高的子模型预测结果来预测变异源性。汉森等[K.汉森,et al., J. Chem. Inf. Model., 49,2077-2081]收集整理的由6512个化合物组成的回归突变试验数据集,用于建立和评估模型。结果,成功建立了对测试集的预测正确率为79.6%的模型。与普通SVM得到的模型相比,这显示了更高的精度。另外,The Area Under ROC-Curve (AUC)为0.866,与Hansen等人的结果相同或更高。由此得出结论,在预测变异源性时,使用SVM和合奏模型是最有力的方法。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
求助全文
约1分钟内获得全文 去求助
来源期刊
Journal of Computer Aided Chemistry
Journal of Computer Aided Chemistry CHEMISTRY, MULTIDISCIPLINARY-
自引率
0.00%
发文量
0
期刊最新文献
A method to search the most stable reaction pathway and its application to the Pinner Pyrimidine Synthesis reaction Extended Regression Modeling of the Toxicity of Phenol Derivatives to Tetrahymena pyriformis Using the Electronic-Structure Informatics Descriptor Solvatochromism of 4-(diethylamino)-4’-nitroazobenzene: explanation based on CNDO/S calculation results Prediction of Compound Cytotoxicity Based on Compound Structures and Cell Line Molecular Characteristics [Special Issue for Honor Award dedicating to Prof Kimito Funatsu]Kimito Funatsu – Driving Force of Japanese-French Collaboration in Chemoinformatics
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
现在去查看 取消
×
提示
确定
0
微信
客服QQ
Book学术公众号 扫码关注我们
反馈
×
意见反馈
请填写您的意见或建议
请填写您的手机或邮箱
已复制链接
已复制链接
快去分享给好友吧!
我知道了
×
扫码分享
扫码分享
Book学术官方微信
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术
文献互助 智能选刊 最新文献 互助须知 联系我们:info@booksci.cn
Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。
Copyright © 2023 Book学术 All rights reserved.
ghs 京公网安备 11010802042870号 京ICP备2023020795号-1