利用进化神经网络对环境声音进行分类

Yalçın DİNÇER, Özkan İNİK
{"title":"利用进化神经网络对环境声音进行分类","authors":"Yalçın DİNÇER, Özkan İNİK","doi":"10.36306/konjes.1201558","DOIUrl":null,"url":null,"abstract":"Çevresel faaliyetlerin sonuçlarını tahmin edebilecek ve aynı zamanda bu faaliyetlerin ortamı hakkında bilgi edinile bilinmesi için ses verisinin kullanılması çok önemlidir. Kentlerde meydana gelen gürültü kirliliği, güvenlik sistemleri, sağlık hizmetleri ve yerel hizmetler gibi faaliyetlerin işleyişini ve temel bilgilerini elde etmek için ses verisinden faydalanılmaktadır. Bu anlamda Çevresel Seslerin Sınıflandırması (ÇSS) kritik önem kazanmaktadır. Artan veri miktarı ve çözümlemedeki zaman kısıtlamalarından dolayı anlık otomatik olarak seslerin tanımlanmasını sağlayan yeni ve güçlü yapay zekâ yöntemlerine ihtiyaç duyulmaktadır. Bu sebeple yapılan çalışmada iki farklı ÇSS veri setinin sınıflandırılması için yeni bir yötem önerilmiştir. Bu yöntemde ilk olarak sesler görüntü formatına çevrilmiştir. Daha sonra görüntü formatındaki bu sesler için özgün Evrişimsel Sinir Ağları (ESA) modelleri tasarlanmıştır. Her bir veri seti için özgün olarak tasarlanan birden fazla ESA modelleri içerisinden en yüksek doğruluk oranına sahip ESA modelleri elde edilmiştir. Bu veri setleri sırasıyla ESC10 ve UrbanSound8K veri setleridir. Bu veri setlerindeki ses kayıtları 32x32x3 ve 224x224x3 boyutuna sahip görüntü formatına çevrilmiştir. Böylelikle toplamda 4 farklı görüntü formatında veri seti elde edilmiştir. Bu veri setlerini sınıflandırılması için geliştirilen özgün ESA modelleri sırasıyla, ESC10_ESA32, ESC10_ESA224, URBANSOUND8K_ESA32 ve URBANSOUND8K_ESA224 olarak isimlendirilmiştir. Bu modeller veri setleri üzerinde 10-Kat Çapraz Doğrulama yapılarak eğitilmiştir. Elde edilen sonuçlarda, ESC10_ESA32, ESC10_ESA224, URBANSOUND8K_ESA32 ve URBANSOUND8K_ESA224 modellerinin ortalama doğruluk oranları sırasıyla %80,75, %82,25, %88,60 ve %84,33 olarak elde edilmiştir. Elde edilen sonuçlar aynı veri setleri üzerinde literatürde yapılan diğer temel çalışmalarla karşılaştırıldığında önerilen modellerin daha iyi sonuçlar elde ettiği görülmüştür.","PeriodicalId":17899,"journal":{"name":"Konya Journal of Engineering Sciences","volume":"19 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2023-06-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":"{\"title\":\"ÇEVRESEL SESLERİN EVRİŞİMSEL SİNİR AĞLARI İLE SINIFLANDIRILMASI\",\"authors\":\"Yalçın DİNÇER, Özkan İNİK\",\"doi\":\"10.36306/konjes.1201558\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"Çevresel faaliyetlerin sonuçlarını tahmin edebilecek ve aynı zamanda bu faaliyetlerin ortamı hakkında bilgi edinile bilinmesi için ses verisinin kullanılması çok önemlidir. Kentlerde meydana gelen gürültü kirliliği, güvenlik sistemleri, sağlık hizmetleri ve yerel hizmetler gibi faaliyetlerin işleyişini ve temel bilgilerini elde etmek için ses verisinden faydalanılmaktadır. Bu anlamda Çevresel Seslerin Sınıflandırması (ÇSS) kritik önem kazanmaktadır. Artan veri miktarı ve çözümlemedeki zaman kısıtlamalarından dolayı anlık otomatik olarak seslerin tanımlanmasını sağlayan yeni ve güçlü yapay zekâ yöntemlerine ihtiyaç duyulmaktadır. Bu sebeple yapılan çalışmada iki farklı ÇSS veri setinin sınıflandırılması için yeni bir yötem önerilmiştir. Bu yöntemde ilk olarak sesler görüntü formatına çevrilmiştir. Daha sonra görüntü formatındaki bu sesler için özgün Evrişimsel Sinir Ağları (ESA) modelleri tasarlanmıştır. Her bir veri seti için özgün olarak tasarlanan birden fazla ESA modelleri içerisinden en yüksek doğruluk oranına sahip ESA modelleri elde edilmiştir. Bu veri setleri sırasıyla ESC10 ve UrbanSound8K veri setleridir. Bu veri setlerindeki ses kayıtları 32x32x3 ve 224x224x3 boyutuna sahip görüntü formatına çevrilmiştir. Böylelikle toplamda 4 farklı görüntü formatında veri seti elde edilmiştir. Bu veri setlerini sınıflandırılması için geliştirilen özgün ESA modelleri sırasıyla, ESC10_ESA32, ESC10_ESA224, URBANSOUND8K_ESA32 ve URBANSOUND8K_ESA224 olarak isimlendirilmiştir. Bu modeller veri setleri üzerinde 10-Kat Çapraz Doğrulama yapılarak eğitilmiştir. Elde edilen sonuçlarda, ESC10_ESA32, ESC10_ESA224, URBANSOUND8K_ESA32 ve URBANSOUND8K_ESA224 modellerinin ortalama doğruluk oranları sırasıyla %80,75, %82,25, %88,60 ve %84,33 olarak elde edilmiştir. Elde edilen sonuçlar aynı veri setleri üzerinde literatürde yapılan diğer temel çalışmalarla karşılaştırıldığında önerilen modellerin daha iyi sonuçlar elde ettiği görülmüştür.\",\"PeriodicalId\":17899,\"journal\":{\"name\":\"Konya Journal of Engineering Sciences\",\"volume\":\"19 1\",\"pages\":\"0\"},\"PeriodicalIF\":0.0000,\"publicationDate\":\"2023-06-01\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"0\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"Konya Journal of Engineering Sciences\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.36306/konjes.1201558\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"\",\"JCRName\":\"\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"Konya Journal of Engineering Sciences","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.36306/konjes.1201558","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0

摘要

利用声音数据来预测环境活动的结果,同时获取这些活动的环境信息,这一点非常重要。声音数据可用于获取城市中发生的噪声污染、安全系统、卫生服务和地方服务等活动的基本运行信息。从这个意义上说,环境声音分类(ESC)变得至关重要。由于数据量不断增加,分析时间有限,因此需要新的、强大的人工智能方法来即时自动识别声音。为此,本研究提出了一种新方法,用于对两个不同的 CSR 数据集进行分类。在这种方法中,首先将声音转换成图像格式。然后,针对这些图像格式的声音设计独特的卷积神经网络(DNN)模型。对于每个数据集,从为每个数据集独特设计的多个 ESA 模型中选出准确率最高的 ESA 模型。这些数据集分别是 ESC10 数据集和 UrbanSound8K 数据集。这些数据集中的音频被转换成 32x32x3 和 224x224x3 尺寸的图像格式。因此,总共获得了 4 种不同的图像格式数据集。为对这些数据集进行分类而开发的原始 ESA 模型分别命名为 ESC10_ESA32、ESC10_ESA224、URBANSOUND8K_ESA32 和 URBANSOUND8K_ESA224。这些模型通过 10 倍交叉验证在数据集上进行了训练。结果显示,ESC10_ESA32、ESC10_ESA224、URBANSOUND8K_ESA32 和 URBANSOUND8K_ESA224 模型的平均准确率分别为 80.75%、82.25%、88.60% 和 84.33%。将所获得的结果与文献中针对相同数据集的其他基本研究结果进行比较,可以发现所提出的模型取得了更好的结果。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
查看原文
分享 分享
微信好友 朋友圈 QQ好友 复制链接
本刊更多论文
ÇEVRESEL SESLERİN EVRİŞİMSEL SİNİR AĞLARI İLE SINIFLANDIRILMASI
Çevresel faaliyetlerin sonuçlarını tahmin edebilecek ve aynı zamanda bu faaliyetlerin ortamı hakkında bilgi edinile bilinmesi için ses verisinin kullanılması çok önemlidir. Kentlerde meydana gelen gürültü kirliliği, güvenlik sistemleri, sağlık hizmetleri ve yerel hizmetler gibi faaliyetlerin işleyişini ve temel bilgilerini elde etmek için ses verisinden faydalanılmaktadır. Bu anlamda Çevresel Seslerin Sınıflandırması (ÇSS) kritik önem kazanmaktadır. Artan veri miktarı ve çözümlemedeki zaman kısıtlamalarından dolayı anlık otomatik olarak seslerin tanımlanmasını sağlayan yeni ve güçlü yapay zekâ yöntemlerine ihtiyaç duyulmaktadır. Bu sebeple yapılan çalışmada iki farklı ÇSS veri setinin sınıflandırılması için yeni bir yötem önerilmiştir. Bu yöntemde ilk olarak sesler görüntü formatına çevrilmiştir. Daha sonra görüntü formatındaki bu sesler için özgün Evrişimsel Sinir Ağları (ESA) modelleri tasarlanmıştır. Her bir veri seti için özgün olarak tasarlanan birden fazla ESA modelleri içerisinden en yüksek doğruluk oranına sahip ESA modelleri elde edilmiştir. Bu veri setleri sırasıyla ESC10 ve UrbanSound8K veri setleridir. Bu veri setlerindeki ses kayıtları 32x32x3 ve 224x224x3 boyutuna sahip görüntü formatına çevrilmiştir. Böylelikle toplamda 4 farklı görüntü formatında veri seti elde edilmiştir. Bu veri setlerini sınıflandırılması için geliştirilen özgün ESA modelleri sırasıyla, ESC10_ESA32, ESC10_ESA224, URBANSOUND8K_ESA32 ve URBANSOUND8K_ESA224 olarak isimlendirilmiştir. Bu modeller veri setleri üzerinde 10-Kat Çapraz Doğrulama yapılarak eğitilmiştir. Elde edilen sonuçlarda, ESC10_ESA32, ESC10_ESA224, URBANSOUND8K_ESA32 ve URBANSOUND8K_ESA224 modellerinin ortalama doğruluk oranları sırasıyla %80,75, %82,25, %88,60 ve %84,33 olarak elde edilmiştir. Elde edilen sonuçlar aynı veri setleri üzerinde literatürde yapılan diğer temel çalışmalarla karşılaştırıldığında önerilen modellerin daha iyi sonuçlar elde ettiği görülmüştür.
求助全文
通过发布文献求助,成功后即可免费获取论文全文。 去求助
来源期刊
自引率
0.00%
发文量
0
期刊最新文献
GIS-AHP APPROACH FOR A COMPREHENSIVE FRAMEWORK TO DETERMINE THE SUITABLE REGIONS FOR GEOTHERMAL POWER PLANTS IN IZMIR, TÜRKİYE MACHINE WHELL EDGE DETECTION MORPHOLOGICAL OPERATIONS PRODUCTION OF CuO/ZrO2 NANOCOMPOSITES IN POWDER AND FIBER FORMS DETERMINATION BY NUMERICAL MODELING OF STRESS-STRAIN VARIATIONS RESULTING FROM GALLERY CROSS-SECTION CHANGES IN A LONGWALL TOP COAL CAVING PANEL ENCAPSULATION OF VITAMIN D IN THE EXINE-ALGINATE-CHITOSAN MICROCAPSULE SYSTEM
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
现在去查看 取消
×
提示
确定
0
微信
客服QQ
Book学术公众号 扫码关注我们
反馈
×
意见反馈
请填写您的意见或建议
请填写您的手机或邮箱
已复制链接
已复制链接
快去分享给好友吧!
我知道了
×
扫码分享
扫码分享
Book学术官方微信
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术
文献互助 智能选刊 最新文献 互助须知 联系我们:info@booksci.cn
Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。
Copyright © 2023 Book学术 All rights reserved.
ghs 京公网安备 11010802042870号 京ICP备2023020795号-1