{"title":"基于背景噪声分析的声图插入检测","authors":"Александр Иванович Максимов, И.А. Моисеев","doi":"10.25699/sssb.2023.49.3.018","DOIUrl":null,"url":null,"abstract":"В работе представлен метод анализа фрагментов фоновых шумов фонограммы для установления, были ли фрагменты фонограммы записаны в сходных условиях. Предложенный метод разрабатывался для решения прикладных задач криминалистики. Он предполагается для использования в качестве вспомогательного средства для эксперта при проведении криминалистической экспертизы звукозаписей, имеющих доказательное значение. При помощи предложенного метода можно определить наличие вставки в аудиозапись, так как фоновые шумы вставленного фрагмента будут отличаться от остальных. Метод состоит из трех последовательных этапов. Сначала производится предобработка исследуемых фрагментов звукового сигнала – из фрагментов удаляется голосовая составляющая, после чего полученные фрагменты фонового шума преобразуются в формат, подходящий для их последующей обработки с помощью нейронных сетей. В результате такого преобразования получается псевдо-изображение из мел-спектрограмм фрагментов фонового шума. Далее полученные псевдо-изображения поступают на вход нейросетевой модели, использующейся для выделения признаков. В итоге, между полученными векторами признаков вычисляется расстояние. Если расстояние оказалось выше эвристического порога, то условия записи фрагментов считаются различными, если меньше - аналогичными. В работе проведено экспериментальное исследование как различных методов предобработки фрагментов звуковых сигналов, так и нейросетевых моделей для выделения векторов признаков из предобработанных фрагментов шума. На основании анализа полученных результатов для исследованных этапов работы метода выбираются конкретные реализации метода предобработки и нейронной сети. Также в заключении работы авторы приводят направления дальнейших исследований для улучшения предложенного метода.\n In this paper, authors are considering a method for analyzing background noise fragments of a phonogram to determine whether its fragments were recorded under similar conditions. The proposed method was developed to solve applied problems of criminalistics. It is supposed to be used as an aid for the expert in the sound recordings forensic examination of evidentiary value. Using the proposed method, one can determine the presence of an insertion in an audio recording since the background noise of the inserted fragment will differ from the rest. The method consists of three successive stages. First, the preprocessing of the audio signal fragments is performed - the voice component is removed from the fragments, after which the resulting background noise fragments are converted into a format suitable for their subsequent processing using neural networks. As a result of such a transformation, a pseudo-image is obtained from the chalk spectrograms of background noise fragments. Further, the resulting pseudo-images are fed to the input of the neural network model used for feature extraction. As a result, the distance between the obtained feature vectors is calculated. If the distance turned out to be higher than the heuristic threshold, then the conditions for recording fragments are considered different, if less, they are similar. In this work, an experimental study of both methods for audio signal fragments preprocessing and neural network models for extracting feature vectors was carried out. Based on the analysis of the obtained results for the examined stages of the method, particular implementations of the preprocessing method and the neural network are selected. Also, in the conclusion of the work, the authors describe plans s for further research to improve the proposed method.","PeriodicalId":133432,"journal":{"name":"Южно-Сибирский научный вестник","volume":"123 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2023-06-30","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":"{\"title\":\"phonogram insertion detection by background noise analisys\",\"authors\":\"Александр Иванович Максимов, И.А. Моисеев\",\"doi\":\"10.25699/sssb.2023.49.3.018\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"В работе представлен метод анализа фрагментов фоновых шумов фонограммы для установления, были ли фрагменты фонограммы записаны в сходных условиях. Предложенный метод разрабатывался для решения прикладных задач криминалистики. Он предполагается для использования в качестве вспомогательного средства для эксперта при проведении криминалистической экспертизы звукозаписей, имеющих доказательное значение. При помощи предложенного метода можно определить наличие вставки в аудиозапись, так как фоновые шумы вставленного фрагмента будут отличаться от остальных. Метод состоит из трех последовательных этапов. Сначала производится предобработка исследуемых фрагментов звукового сигнала – из фрагментов удаляется голосовая составляющая, после чего полученные фрагменты фонового шума преобразуются в формат, подходящий для их последующей обработки с помощью нейронных сетей. В результате такого преобразования получается псевдо-изображение из мел-спектрограмм фрагментов фонового шума. Далее полученные псевдо-изображения поступают на вход нейросетевой модели, использующейся для выделения признаков. В итоге, между полученными векторами признаков вычисляется расстояние. Если расстояние оказалось выше эвристического порога, то условия записи фрагментов считаются различными, если меньше - аналогичными. В работе проведено экспериментальное исследование как различных методов предобработки фрагментов звуковых сигналов, так и нейросетевых моделей для выделения векторов признаков из предобработанных фрагментов шума. На основании анализа полученных результатов для исследованных этапов работы метода выбираются конкретные реализации метода предобработки и нейронной сети. Также в заключении работы авторы приводят направления дальнейших исследований для улучшения предложенного метода.\\n In this paper, authors are considering a method for analyzing background noise fragments of a phonogram to determine whether its fragments were recorded under similar conditions. The proposed method was developed to solve applied problems of criminalistics. It is supposed to be used as an aid for the expert in the sound recordings forensic examination of evidentiary value. Using the proposed method, one can determine the presence of an insertion in an audio recording since the background noise of the inserted fragment will differ from the rest. The method consists of three successive stages. First, the preprocessing of the audio signal fragments is performed - the voice component is removed from the fragments, after which the resulting background noise fragments are converted into a format suitable for their subsequent processing using neural networks. As a result of such a transformation, a pseudo-image is obtained from the chalk spectrograms of background noise fragments. Further, the resulting pseudo-images are fed to the input of the neural network model used for feature extraction. As a result, the distance between the obtained feature vectors is calculated. If the distance turned out to be higher than the heuristic threshold, then the conditions for recording fragments are considered different, if less, they are similar. In this work, an experimental study of both methods for audio signal fragments preprocessing and neural network models for extracting feature vectors was carried out. Based on the analysis of the obtained results for the examined stages of the method, particular implementations of the preprocessing method and the neural network are selected. Also, in the conclusion of the work, the authors describe plans s for further research to improve the proposed method.\",\"PeriodicalId\":133432,\"journal\":{\"name\":\"Южно-Сибирский научный вестник\",\"volume\":\"123 1\",\"pages\":\"0\"},\"PeriodicalIF\":0.0000,\"publicationDate\":\"2023-06-30\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"0\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"Южно-Сибирский научный вестник\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.25699/sssb.2023.49.3.018\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"\",\"JCRName\":\"\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"Южно-Сибирский научный вестник","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.25699/sssb.2023.49.3.018","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0
摘要
它提供了一种分析声纳背景噪声片段的方法,以确定是否有类似的录音条件。拟议中的方法是为了解决应用取证问题而开发的。它被认为是专家在对具有证据价值的录音进行法医鉴定时使用的辅助工具。建议的方法可以确定音频是否插入,因为插入片段的背景噪声将不同于其他声音。该方法由三个连续步骤组成。声音信号的研究片段首先被处理,声音片段被移除,然后背景噪声片段被转换成一种适合神经网络处理的格式。这种转换产生了一种假图像,由背景噪声片段的粉笔光谱仪组成。然后我们得到的假图像进入神经网络模型的输入,用于识别特征。因此,这些特征的向量之间的距离被计算出来。如果距离高于启发式阈值,那么碎片记录的条件是不同的,如果不那么相似的话。这项工作进行了一项实验研究,研究了不同的声音信号处理方法和神经网络模型,以分离出预加工噪声片段中的信号向量。通过分析研究阶段的结果,方法可以选择应用程序和神经网络的具体实现。提交人还总结了进一步研究的方向,以改进拟议的方法。在这张纸上,authors是一种治疗方法,用来分析背景音乐的声音。这种疗法是为了开发一种犯罪行为的独奏应用程序。这是为了让它更有吸引力,更有吸引力。《计划医学》,《计划医学》,《计划医学》,《计划医学》,《计划医学》,《计划医学》。这是三种不同的治疗方法。第一个是声音模式的预览是表演的,然后是声音从框架的声音回放,然后是背景音乐的回放。这是一个完整的传输,一个pseudo图像从背景噪音框架的chalk spectrograms中被屏蔽。Further, resulting pseudo-images是为了体验体验的新网络模型。这是一种解脱,一种被压抑的感觉,是一种召唤。如果距离的运动超越了重心,那么协同唱片框架的协同,If less, If similar。在这篇文章中,音频信号预览和新推出的虚拟虚拟网络模型都被上传了。他选择了一种不同的治疗方法,一种不同的治疗方法和新网络的选择。Also,在这首歌的协奏曲中,这是对未来医学的研究。
phonogram insertion detection by background noise analisys
В работе представлен метод анализа фрагментов фоновых шумов фонограммы для установления, были ли фрагменты фонограммы записаны в сходных условиях. Предложенный метод разрабатывался для решения прикладных задач криминалистики. Он предполагается для использования в качестве вспомогательного средства для эксперта при проведении криминалистической экспертизы звукозаписей, имеющих доказательное значение. При помощи предложенного метода можно определить наличие вставки в аудиозапись, так как фоновые шумы вставленного фрагмента будут отличаться от остальных. Метод состоит из трех последовательных этапов. Сначала производится предобработка исследуемых фрагментов звукового сигнала – из фрагментов удаляется голосовая составляющая, после чего полученные фрагменты фонового шума преобразуются в формат, подходящий для их последующей обработки с помощью нейронных сетей. В результате такого преобразования получается псевдо-изображение из мел-спектрограмм фрагментов фонового шума. Далее полученные псевдо-изображения поступают на вход нейросетевой модели, использующейся для выделения признаков. В итоге, между полученными векторами признаков вычисляется расстояние. Если расстояние оказалось выше эвристического порога, то условия записи фрагментов считаются различными, если меньше - аналогичными. В работе проведено экспериментальное исследование как различных методов предобработки фрагментов звуковых сигналов, так и нейросетевых моделей для выделения векторов признаков из предобработанных фрагментов шума. На основании анализа полученных результатов для исследованных этапов работы метода выбираются конкретные реализации метода предобработки и нейронной сети. Также в заключении работы авторы приводят направления дальнейших исследований для улучшения предложенного метода.
In this paper, authors are considering a method for analyzing background noise fragments of a phonogram to determine whether its fragments were recorded under similar conditions. The proposed method was developed to solve applied problems of criminalistics. It is supposed to be used as an aid for the expert in the sound recordings forensic examination of evidentiary value. Using the proposed method, one can determine the presence of an insertion in an audio recording since the background noise of the inserted fragment will differ from the rest. The method consists of three successive stages. First, the preprocessing of the audio signal fragments is performed - the voice component is removed from the fragments, after which the resulting background noise fragments are converted into a format suitable for their subsequent processing using neural networks. As a result of such a transformation, a pseudo-image is obtained from the chalk spectrograms of background noise fragments. Further, the resulting pseudo-images are fed to the input of the neural network model used for feature extraction. As a result, the distance between the obtained feature vectors is calculated. If the distance turned out to be higher than the heuristic threshold, then the conditions for recording fragments are considered different, if less, they are similar. In this work, an experimental study of both methods for audio signal fragments preprocessing and neural network models for extracting feature vectors was carried out. Based on the analysis of the obtained results for the examined stages of the method, particular implementations of the preprocessing method and the neural network are selected. Also, in the conclusion of the work, the authors describe plans s for further research to improve the proposed method.