基于自动编码器的有机化合物的结构化表示

Ignacio Pérez Correa, Pablo D. Giunta, J. A. Francesconi, Fernando J. Mariño
{"title":"基于自动编码器的有机化合物的结构化表示","authors":"Ignacio Pérez Correa, Pablo D. Giunta, J. A. Francesconi, Fernando J. Mariño","doi":"10.1109/ARGENCON55245.2022.9940035","DOIUrl":null,"url":null,"abstract":"En este trabajo proponemos la utilización de una red de tipo autoencoder para procesar compuestos orgánicos codificados en formato SMILES buscando evocar representaciones significativas en el espacio latente y utilizar estas representaciones para generar modelos de predicción de propiedades. Fueron utilizados 400.000 compuestos codificados mediante SMILES para el entrenamiento del autoencoder, dónde se encontró que una dimensión latente de 25 elementos logra reconstruir los datos adecuadamente. A partir de esto, se desarrollaron modelos de predicción para las 8 propiedades termodinámicas de interés (presión crítica, temperatura crítica, volumen crítico, temperatura de fusión, temperatura de ebullición y las entalpías de vaporización, fusión y formación). Para la regresión se utilizaron 1079 sustancias cuya capacidad de predicción también fue contrastada con el modelo de Joback y Reid, referencia en predicción de propiedades. El modelo propuesto presenta errores del 1% al 6% para las distintas propiedades (exceptuando el punto de fusión) que mejoran notablemente respecto del modelo de referencia que posee valores en el entorno de (3-9) % para las mismas propiedades. Respecto del punto de fusión, se observa que ambos modelos tienen dificultades en la estimación y que podría sugerir que se requieren otros indicadores para representar este fenómeno.","PeriodicalId":318846,"journal":{"name":"2022 IEEE Biennial Congress of Argentina (ARGENCON)","volume":"48 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2022-09-07","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":"{\"title\":\"Representación estructurada de compuestos orgánicos basada en autoencoders\",\"authors\":\"Ignacio Pérez Correa, Pablo D. Giunta, J. A. Francesconi, Fernando J. Mariño\",\"doi\":\"10.1109/ARGENCON55245.2022.9940035\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"En este trabajo proponemos la utilización de una red de tipo autoencoder para procesar compuestos orgánicos codificados en formato SMILES buscando evocar representaciones significativas en el espacio latente y utilizar estas representaciones para generar modelos de predicción de propiedades. Fueron utilizados 400.000 compuestos codificados mediante SMILES para el entrenamiento del autoencoder, dónde se encontró que una dimensión latente de 25 elementos logra reconstruir los datos adecuadamente. A partir de esto, se desarrollaron modelos de predicción para las 8 propiedades termodinámicas de interés (presión crítica, temperatura crítica, volumen crítico, temperatura de fusión, temperatura de ebullición y las entalpías de vaporización, fusión y formación). Para la regresión se utilizaron 1079 sustancias cuya capacidad de predicción también fue contrastada con el modelo de Joback y Reid, referencia en predicción de propiedades. El modelo propuesto presenta errores del 1% al 6% para las distintas propiedades (exceptuando el punto de fusión) que mejoran notablemente respecto del modelo de referencia que posee valores en el entorno de (3-9) % para las mismas propiedades. Respecto del punto de fusión, se observa que ambos modelos tienen dificultades en la estimación y que podría sugerir que se requieren otros indicadores para representar este fenómeno.\",\"PeriodicalId\":318846,\"journal\":{\"name\":\"2022 IEEE Biennial Congress of Argentina (ARGENCON)\",\"volume\":\"48 1\",\"pages\":\"0\"},\"PeriodicalIF\":0.0000,\"publicationDate\":\"2022-09-07\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"0\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"2022 IEEE Biennial Congress of Argentina (ARGENCON)\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.1109/ARGENCON55245.2022.9940035\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"\",\"JCRName\":\"\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"2022 IEEE Biennial Congress of Argentina (ARGENCON)","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.1109/ARGENCON55245.2022.9940035","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0

摘要

本文提出了一种基于自编码网络的方法来处理SMILES格式编码的有机化合物,寻求在潜在空间中产生有意义的表示,并利用这些表示生成属性预测模型。在自动编码器训练中使用了40万个SMILES编码的化合物,发现25个元素的潜在维度能够正确地重建数据。由此,开发了8种感兴趣的热力学性质(临界压力、临界温度、临界体积、熔化温度、沸腾温度和蒸发、熔化和形成焓)的预测模型。我们使用了1079种物质的回归,这些物质的预测能力也与Joback和Reid模型进行了比较,这是属性预测的参考。所提出的模型对不同性质(熔点以外)的误差在1%到6%之间,与参考模型相比有显著改善,参考模型的值在(3-9)%左右。关于熔点,两种模型在估计方面都有困难,这可能表明需要其他指标来表示这一现象。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
查看原文
分享 分享
微信好友 朋友圈 QQ好友 复制链接
本刊更多论文
Representación estructurada de compuestos orgánicos basada en autoencoders
En este trabajo proponemos la utilización de una red de tipo autoencoder para procesar compuestos orgánicos codificados en formato SMILES buscando evocar representaciones significativas en el espacio latente y utilizar estas representaciones para generar modelos de predicción de propiedades. Fueron utilizados 400.000 compuestos codificados mediante SMILES para el entrenamiento del autoencoder, dónde se encontró que una dimensión latente de 25 elementos logra reconstruir los datos adecuadamente. A partir de esto, se desarrollaron modelos de predicción para las 8 propiedades termodinámicas de interés (presión crítica, temperatura crítica, volumen crítico, temperatura de fusión, temperatura de ebullición y las entalpías de vaporización, fusión y formación). Para la regresión se utilizaron 1079 sustancias cuya capacidad de predicción también fue contrastada con el modelo de Joback y Reid, referencia en predicción de propiedades. El modelo propuesto presenta errores del 1% al 6% para las distintas propiedades (exceptuando el punto de fusión) que mejoran notablemente respecto del modelo de referencia que posee valores en el entorno de (3-9) % para las mismas propiedades. Respecto del punto de fusión, se observa que ambos modelos tienen dificultades en la estimación y que podría sugerir que se requieren otros indicadores para representar este fenómeno.
求助全文
通过发布文献求助,成功后即可免费获取论文全文。 去求助
来源期刊
自引率
0.00%
发文量
0
期刊最新文献
Propuestas de normativas para la disposición final de equipamientos de un parque eólico al finalizar su vida productiva Proyecto Laboratorios remotos en carreras de ingeniería de la Universidad Nacional de Tucumán Control de un convertidor DC-DC con puentes duales activos para adaptar niveles de tensión en microrredes de DC usando linealización por realimentación Las Competencias Transversales en Ingeniería. El Seminario Taller Como Herramienta Metodológica Procedimiento de sintonizado de tanques resonantes LCC para carga inalámbrica de vehículos eléctricos
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
现在去查看 取消
×
提示
确定
0
微信
客服QQ
Book学术公众号 扫码关注我们
反馈
×
意见反馈
请填写您的意见或建议
请填写您的手机或邮箱
已复制链接
已复制链接
快去分享给好友吧!
我知道了
×
扫码分享
扫码分享
Book学术官方微信
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术
文献互助 智能选刊 最新文献 互助须知 联系我们:info@booksci.cn
Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。
Copyright © 2023 Book学术 All rights reserved.
ghs 京公网安备 11010802042870号 京ICP备2023020795号-1