Nor Syahira Mohd Tombel, Hasan Firdaus Mohd Zaki, Hanna Farihin Mohd Fadglullah
{"title":"挥发性有机化合物气体识别的特征提取和监督学习","authors":"Nor Syahira Mohd Tombel, Hasan Firdaus Mohd Zaki, Hanna Farihin Mohd Fadglullah","doi":"10.31436/iiumej.v24i2.2832","DOIUrl":null,"url":null,"abstract":"The emergence of advanced technologies, particularly in the field of artificial intelligence (AI), has sparked significant interest in exploring their potential benefits for various industries, including healthcare. In the medical sector, the utilization of sensing systems has proven valuable for diagnosing pulmonary diseases by detecting volatile organic compounds (VOCs) in exhaled breath. However, the identification of the most informative and discriminating features from VOC sensor arrays remains an unresolved challenge, essential for achieving robust VOC class recognition. This research project aims to investigate effective feature extraction techniques that can be employed as discriminative features for machine learning algorithms. A preliminary dataset was used to predict VOC classification through the application of five supervised machine learning algorithms: k-Nearest Neighbors (kNN), Random Forest (RF), Support Vector Machines (SVM), Logistic Regression (LR), and Artificial Neural Networks (ANN). Ten feature extraction methods were proposed based on changes in sensor response as inputs to classify three types of gases in the dataset. The performance of each model was evaluated and compared using k-Fold cross-validation (k=10) and metrics derived from the confusion matrix. The results demonstrate that the RF model achieved the highest mean accuracy and standard deviation, with values of 0.813 ± 0.035, followed closely by kNN with 0.803 ± 0.033. Conversely, LR, SVM (kernel=Polynomial), and ANN exhibited poor performances when applied to the VOC dataset, with accuracies of 0.447 ± 0.035, 0.403 ± 0.041, and 0.419 ± 0.035, respectively. Therefore, this paper provides evidence that classifying VOC gases based on sensor responses is feasible and emphasizes the need for further research to explore sensor array analysis to enhance feature extraction techniques.\nABSTRAK: Perkembangan teknologi canggih, khususnya dalam bidang kecerdasan buatan (AI), telah mencetuskan minat yang ketara dalam menerokai manfaatnya untuk pelbagai industri, termasuk bidang kesihatan. Dalam sektor perubatan, penggunaan sistem penderiaan telah terbukti bernilai untuk mendiagnosis penyakit paru-paru dengan mengesan sebatian organik meruap (VOC) dalam nafas yang dihembus manusia. Walau bagaimanapun, pengenalpastian ciri yang paling bermaklumat dan mendiskriminasi daripada penderia VOC kekal sebagai cabaran yang tidak dapat diselesaikan, penting untuk mencapai pengiktirafan kelas VOC yang kukuh. Projek penyelidikan ini bertujuan untuk menyiasat teknik pengekstrakan ciri yang berkesan yang boleh digunakan sebagai ciri diskriminatif untuk algoritma pembelajaran mesin. Set data awal digunakan untuk meramalkan klasifikasi VOC melalui aplikasi lima algoritma pembelajaran mesin yang diselia: k-Nearest Neighbors (kNN), Random Forest (RF), Support Vector Machines (SVM), Logistic Regression (LR), dan Artificial Neural Networks (ANN). Sepuluh kaedah pengekstrakan ciri telah dicadangkan berdasarkan perubahan dalam tindak balas penderia sebagai input untuk mengklasifikasikan tiga jenis gas dalam set data. Prestasi setiap model telah dinilai dan dibandingkan menggunakan pengesahan silang k-Fold (k=10) dan metrik yang diperoleh daripada confusion matriks . Keputusan menunjukkan bahawa model RF mencapai ketepatan minima tertinggi dan sisihan piawai, dengan nilai 0.813 ± 0.035, diikuti oleh kNN dengan 0.803 ± 0.033. Sebaliknya, LR, SVM (kernel=Polinomial), dan ANN mempamerkan prestasi yang lemah apabila digunakan pada dataset VOC, dengan ketepatan masing-masing 0.447 ± 0.035, 0.403 ± 0.041 dan 0.419 ± 0.035. Oleh itu, kertas kerja ini memberikan bukti bahawa mengklasifikasikan gas VOC berdasarkan tindak balas penderia adalah boleh dilaksanakan dan menekankan keperluan untuk penyelidikan lanjut untuk meneroka analisis tatasusunan penderia untuk meningkatkan teknik pengekstrakan ciri.","PeriodicalId":13439,"journal":{"name":"IIUM Engineering Journal","volume":"100 1","pages":""},"PeriodicalIF":0.6000,"publicationDate":"2023-07-04","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":"{\"title\":\"FEATURE EXTRACTION AND SUPERVISED LEARNING FOR VOLATILE ORGANIC COMPOUNDS GAS RECOGNITION\",\"authors\":\"Nor Syahira Mohd Tombel, Hasan Firdaus Mohd Zaki, Hanna Farihin Mohd Fadglullah\",\"doi\":\"10.31436/iiumej.v24i2.2832\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"The emergence of advanced technologies, particularly in the field of artificial intelligence (AI), has sparked significant interest in exploring their potential benefits for various industries, including healthcare. In the medical sector, the utilization of sensing systems has proven valuable for diagnosing pulmonary diseases by detecting volatile organic compounds (VOCs) in exhaled breath. However, the identification of the most informative and discriminating features from VOC sensor arrays remains an unresolved challenge, essential for achieving robust VOC class recognition. This research project aims to investigate effective feature extraction techniques that can be employed as discriminative features for machine learning algorithms. A preliminary dataset was used to predict VOC classification through the application of five supervised machine learning algorithms: k-Nearest Neighbors (kNN), Random Forest (RF), Support Vector Machines (SVM), Logistic Regression (LR), and Artificial Neural Networks (ANN). Ten feature extraction methods were proposed based on changes in sensor response as inputs to classify three types of gases in the dataset. The performance of each model was evaluated and compared using k-Fold cross-validation (k=10) and metrics derived from the confusion matrix. The results demonstrate that the RF model achieved the highest mean accuracy and standard deviation, with values of 0.813 ± 0.035, followed closely by kNN with 0.803 ± 0.033. Conversely, LR, SVM (kernel=Polynomial), and ANN exhibited poor performances when applied to the VOC dataset, with accuracies of 0.447 ± 0.035, 0.403 ± 0.041, and 0.419 ± 0.035, respectively. Therefore, this paper provides evidence that classifying VOC gases based on sensor responses is feasible and emphasizes the need for further research to explore sensor array analysis to enhance feature extraction techniques.\\nABSTRAK: Perkembangan teknologi canggih, khususnya dalam bidang kecerdasan buatan (AI), telah mencetuskan minat yang ketara dalam menerokai manfaatnya untuk pelbagai industri, termasuk bidang kesihatan. Dalam sektor perubatan, penggunaan sistem penderiaan telah terbukti bernilai untuk mendiagnosis penyakit paru-paru dengan mengesan sebatian organik meruap (VOC) dalam nafas yang dihembus manusia. Walau bagaimanapun, pengenalpastian ciri yang paling bermaklumat dan mendiskriminasi daripada penderia VOC kekal sebagai cabaran yang tidak dapat diselesaikan, penting untuk mencapai pengiktirafan kelas VOC yang kukuh. Projek penyelidikan ini bertujuan untuk menyiasat teknik pengekstrakan ciri yang berkesan yang boleh digunakan sebagai ciri diskriminatif untuk algoritma pembelajaran mesin. Set data awal digunakan untuk meramalkan klasifikasi VOC melalui aplikasi lima algoritma pembelajaran mesin yang diselia: k-Nearest Neighbors (kNN), Random Forest (RF), Support Vector Machines (SVM), Logistic Regression (LR), dan Artificial Neural Networks (ANN). Sepuluh kaedah pengekstrakan ciri telah dicadangkan berdasarkan perubahan dalam tindak balas penderia sebagai input untuk mengklasifikasikan tiga jenis gas dalam set data. Prestasi setiap model telah dinilai dan dibandingkan menggunakan pengesahan silang k-Fold (k=10) dan metrik yang diperoleh daripada confusion matriks . Keputusan menunjukkan bahawa model RF mencapai ketepatan minima tertinggi dan sisihan piawai, dengan nilai 0.813 ± 0.035, diikuti oleh kNN dengan 0.803 ± 0.033. Sebaliknya, LR, SVM (kernel=Polinomial), dan ANN mempamerkan prestasi yang lemah apabila digunakan pada dataset VOC, dengan ketepatan masing-masing 0.447 ± 0.035, 0.403 ± 0.041 dan 0.419 ± 0.035. Oleh itu, kertas kerja ini memberikan bukti bahawa mengklasifikasikan gas VOC berdasarkan tindak balas penderia adalah boleh dilaksanakan dan menekankan keperluan untuk penyelidikan lanjut untuk meneroka analisis tatasusunan penderia untuk meningkatkan teknik pengekstrakan ciri.\",\"PeriodicalId\":13439,\"journal\":{\"name\":\"IIUM Engineering Journal\",\"volume\":\"100 1\",\"pages\":\"\"},\"PeriodicalIF\":0.6000,\"publicationDate\":\"2023-07-04\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"0\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"IIUM Engineering Journal\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.31436/iiumej.v24i2.2832\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"Q3\",\"JCRName\":\"ENGINEERING, MULTIDISCIPLINARY\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"IIUM Engineering Journal","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.31436/iiumej.v24i2.2832","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"Q3","JCRName":"ENGINEERING, MULTIDISCIPLINARY","Score":null,"Total":0}
引用次数: 0
摘要
先进技术的出现,特别是在人工智能(AI)领域,引发了人们对探索其对包括医疗保健在内的各个行业的潜在好处的极大兴趣。在医疗领域,传感系统的应用已被证明对通过检测呼出气体中的挥发性有机化合物(VOCs)来诊断肺部疾病很有价值。然而,从VOC传感器阵列中识别最具信息量和区别性的特征仍然是一个未解决的挑战,这对于实现强大的VOC类别识别至关重要。本研究项目旨在研究有效的特征提取技术,这些技术可以作为机器学习算法的判别特征。通过应用五种监督机器学习算法(k-Nearest Neighbors, kNN)、随机森林(Random Forest, RF)、支持向量机(Support Vector Machines, SVM)、逻辑回归(Logistic Regression, LR)和人工神经网络(Artificial Neural Networks, ANN)),使用初步数据集预测VOC分类。提出了基于传感器响应变化作为输入的10种特征提取方法,对数据集中的三种气体进行分类。使用k- fold交叉验证(k=10)和从混淆矩阵得出的指标对每个模型的性能进行评估和比较。结果表明,RF模型的平均精度和标准差最高,为0.813±0.035,kNN次之,为0.803±0.033。相反,LR、SVM (kernel=Polynomial)和ANN在VOC数据集上表现不佳,准确率分别为0.447±0.035、0.403±0.041和0.419±0.035。因此,本文提供了基于传感器响应的VOC气体分类是可行的证据,并强调需要进一步研究探索传感器阵列分析以增强特征提取技术。摘要/ abstract摘要:天津天津科技有限公司、天津天津科技有限公司、天津天津科技有限公司、天津天津科技有限公司、天津天津科技有限公司。大连,大连,大连,大连,大连,大连,大连,大连,大连,大连,大连,大连,大连,大连,大连,大连,大连,大连,大连,大连,大连,大连,大连,大连,大连,大连,大连,大连,大连,大连,大连。Walau bagaimanapun, pengenalpastian cii, yang, paldaripada penderia, kekal, sebagai, cabaran, dapat, diselesaikan, penkiktirafan kelas, VOC, yang kukuh。项目的penelidikan ini bertujuan untuk menyiasas,技术的pengekstrakan,杨伯克山,杨伯克山,digunakan, sebagai, circirdinriakan算法的penbelajaran mesin。数据集算法:k-近邻(kNN)、随机森林(RF)、支持向量机(SVM)、逻辑回归(LR)、人工神经网络(ANN)。Sepuluh kaedah pengekstrakan ciri telah dicadangkan berdasarkan perubahan dalam tindak balas penderia sebagai输入untuk mengklasifikasikan tiga jenis gas dalam set数据。Prestasi设置模型telah dinilai dan dibandingkan menggunakan pengesahan silang k- fold (k=10) dan metrik yang diperoleh daripada混淆矩阵。Keputusan menunjukkan bahawa模型RF mencapai ketepatan minimtertinggi dan sisihan piawai, dengan nilai 0.813±0.035,dikuti oleh kNN dengan 0.803±0.033。Sebaliknya, LR, SVM (kernel=Polinomial), dan ANN mempamerkan prestasi yang lemah apabila digunakan pagada dataset VOC, dengan ketepatan masing-masing 0.447±0.035,0.403±0.041 dan 0.419±0.035。Oleh itu, kertas kerja ini memberikkan bukti bahawa menglasifikasikan gas VOC berdasarkan tindak balas penderia adalah boleh dilaksanakan danmenekankan keperluan untuk penyelidikan lanjuk untuk meneroka分析tatasusunan penderia untuk meningkatkan teknik pengekstrakan ciri。
FEATURE EXTRACTION AND SUPERVISED LEARNING FOR VOLATILE ORGANIC COMPOUNDS GAS RECOGNITION
The emergence of advanced technologies, particularly in the field of artificial intelligence (AI), has sparked significant interest in exploring their potential benefits for various industries, including healthcare. In the medical sector, the utilization of sensing systems has proven valuable for diagnosing pulmonary diseases by detecting volatile organic compounds (VOCs) in exhaled breath. However, the identification of the most informative and discriminating features from VOC sensor arrays remains an unresolved challenge, essential for achieving robust VOC class recognition. This research project aims to investigate effective feature extraction techniques that can be employed as discriminative features for machine learning algorithms. A preliminary dataset was used to predict VOC classification through the application of five supervised machine learning algorithms: k-Nearest Neighbors (kNN), Random Forest (RF), Support Vector Machines (SVM), Logistic Regression (LR), and Artificial Neural Networks (ANN). Ten feature extraction methods were proposed based on changes in sensor response as inputs to classify three types of gases in the dataset. The performance of each model was evaluated and compared using k-Fold cross-validation (k=10) and metrics derived from the confusion matrix. The results demonstrate that the RF model achieved the highest mean accuracy and standard deviation, with values of 0.813 ± 0.035, followed closely by kNN with 0.803 ± 0.033. Conversely, LR, SVM (kernel=Polynomial), and ANN exhibited poor performances when applied to the VOC dataset, with accuracies of 0.447 ± 0.035, 0.403 ± 0.041, and 0.419 ± 0.035, respectively. Therefore, this paper provides evidence that classifying VOC gases based on sensor responses is feasible and emphasizes the need for further research to explore sensor array analysis to enhance feature extraction techniques.
ABSTRAK: Perkembangan teknologi canggih, khususnya dalam bidang kecerdasan buatan (AI), telah mencetuskan minat yang ketara dalam menerokai manfaatnya untuk pelbagai industri, termasuk bidang kesihatan. Dalam sektor perubatan, penggunaan sistem penderiaan telah terbukti bernilai untuk mendiagnosis penyakit paru-paru dengan mengesan sebatian organik meruap (VOC) dalam nafas yang dihembus manusia. Walau bagaimanapun, pengenalpastian ciri yang paling bermaklumat dan mendiskriminasi daripada penderia VOC kekal sebagai cabaran yang tidak dapat diselesaikan, penting untuk mencapai pengiktirafan kelas VOC yang kukuh. Projek penyelidikan ini bertujuan untuk menyiasat teknik pengekstrakan ciri yang berkesan yang boleh digunakan sebagai ciri diskriminatif untuk algoritma pembelajaran mesin. Set data awal digunakan untuk meramalkan klasifikasi VOC melalui aplikasi lima algoritma pembelajaran mesin yang diselia: k-Nearest Neighbors (kNN), Random Forest (RF), Support Vector Machines (SVM), Logistic Regression (LR), dan Artificial Neural Networks (ANN). Sepuluh kaedah pengekstrakan ciri telah dicadangkan berdasarkan perubahan dalam tindak balas penderia sebagai input untuk mengklasifikasikan tiga jenis gas dalam set data. Prestasi setiap model telah dinilai dan dibandingkan menggunakan pengesahan silang k-Fold (k=10) dan metrik yang diperoleh daripada confusion matriks . Keputusan menunjukkan bahawa model RF mencapai ketepatan minima tertinggi dan sisihan piawai, dengan nilai 0.813 ± 0.035, diikuti oleh kNN dengan 0.803 ± 0.033. Sebaliknya, LR, SVM (kernel=Polinomial), dan ANN mempamerkan prestasi yang lemah apabila digunakan pada dataset VOC, dengan ketepatan masing-masing 0.447 ± 0.035, 0.403 ± 0.041 dan 0.419 ± 0.035. Oleh itu, kertas kerja ini memberikan bukti bahawa mengklasifikasikan gas VOC berdasarkan tindak balas penderia adalah boleh dilaksanakan dan menekankan keperluan untuk penyelidikan lanjut untuk meneroka analisis tatasusunan penderia untuk meningkatkan teknik pengekstrakan ciri.
期刊介绍:
The IIUM Engineering Journal, published biannually (June and December), is a peer-reviewed open-access journal of the Faculty of Engineering, International Islamic University Malaysia (IIUM). The IIUM Engineering Journal publishes original research findings as regular papers, review papers (by invitation). The Journal provides a platform for Engineers, Researchers, Academicians, and Practitioners who are highly motivated in contributing to the Engineering disciplines, and Applied Sciences. It also welcomes contributions that address solutions to the specific challenges of the developing world, and address science and technology issues from an Islamic and multidisciplinary perspective. Subject areas suitable for publication are as follows: -Chemical and Biotechnology Engineering -Civil and Environmental Engineering -Computer Science and Information Technology -Electrical, Computer, and Communications Engineering -Engineering Mathematics and Applied Science -Materials and Manufacturing Engineering -Mechanical and Aerospace Engineering -Mechatronics and Automation Engineering