对基于扩散的超分辨率技术在视频流压缩系统中的应用进行比较分析

Труды НИИР Pub Date : 2023-12-27 DOI:10.34832/niir.2023.14.3.003

А.А. Березкин, Х.Д.о. Фук, Д.Ле. Чан, Р.В. Киричек

{"title":"对基于扩散的超分辨率技术在视频流压缩系统中的应用进行比较分析","authors":"А.А. Березкин, Х.Д.о. Фук, Д.Ле. Чан, Р.В. Киричек","doi":"10.34832/niir.2023.14.3.003","DOIUrl":null,"url":null,"abstract":"Выполнен сравнительный анализ моделей с ультравысоким разрешением на основе диффузии, а именно моделей латентной диффузии и итеративно усовершенствованных моделей изображений с ультравысоким разрешением, в контексте восстановления изображений в системе сжатия видеопотока при управлении беспилотными системами от первого лица. Исследование сосредоточено на решении проблем получения кадров с разрешением FullHD, сжатых с использованием нейронной сетевой модели латентной диффузии. Работа демонстрирует, что модель суперразрешения изображения с итеративным усовершенствованием превосходит модель латентной диффузии на основе метрик, используемых для оценки качества цифровых изображений, а именно индекса структурной схожести и отношения сигнал-шум. Количественные результаты показывают, что по данным метрикам модель суперразрешения изображения с итеративным усовершенствованием превосходит модель латентной диффузии, что свидетельствует о более высоком сохранении структурной целостности изображения, а также указывает на снижение уровня шума и высокую степень достоверности изображения. Модель суперразрешения изображения с итеративным усовершенствованием может быть использована в задачах улучшения разрешения в системах сжатия видеопотока в системах управления от первого лица. This article compares diffusion-based ultra-high resolution models, namely latent diffusion models and iteratively refined ultra-high resolution image models, in the context of image reconstruction in a video stream compression system when controlling unmanned systems in the first person. The study is focused on solving the problems of obtaining FullHD resolution frames compressed by a neural network model of latent diffusion. The w ork demonstrates that an iteratively refined image superresolution model outperforms a latent diffusion model based on metrics used to assess the quality of digital images, namely structural similarity index and signal-to-noise ratio. Quantitative results show that the iteratively refined super-resolution image model outperforms the latent diffusion model on these metrics, indicating greater preservation of image structural integrity, and also indicating reduced noise and high image fidelity. The image super-resolution model with iterative improvement model can be used in resolution enhancement tasks in video compression systems in FPV control systems.","PeriodicalId":128426,"journal":{"name":"Труды НИИР","volume":"28 6","pages":""},"PeriodicalIF":0.0000,"publicationDate":"2023-12-27","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":"{\"title\":\"A COMPARATIVE ANALYSIS OF DIFFUSION-BASED SUPER-RESOLUTION TECHNIQUES IN A VIDEO STREAM COMPRESSION SYSTEM IN FPV CONTROL OF UNM ANNED SYSTEMS\",\"authors\":\"А.А. Березкин, Х.Д.о. Фук, Д.Ле. Чан, Р.В. Киричек\",\"doi\":\"10.34832/niir.2023.14.3.003\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"Выполнен сравнительный анализ моделей с ультравысоким разрешением на основе диффузии, а именно моделей латентной диффузии и итеративно усовершенствованных моделей изображений с ультравысоким разрешением, в контексте восстановления изображений в системе сжатия видеопотока при управлении беспилотными системами от первого лица. Исследование сосредоточено на решении проблем получения кадров с разрешением FullHD, сжатых с использованием нейронной сетевой модели латентной диффузии. Работа демонстрирует, что модель суперразрешения изображения с итеративным усовершенствованием превосходит модель латентной диффузии на основе метрик, используемых для оценки качества цифровых изображений, а именно индекса структурной схожести и отношения сигнал-шум. Количественные результаты показывают, что по данным метрикам модель суперразрешения изображения с итеративным усовершенствованием превосходит модель латентной диффузии, что свидетельствует о более высоком сохранении структурной целостности изображения, а также указывает на снижение уровня шума и высокую степень достоверности изображения. Модель суперразрешения изображения с итеративным усовершенствованием может быть использована в задачах улучшения разрешения в системах сжатия видеопотока в системах управления от первого лица. This article compares diffusion-based ultra-high resolution models, namely latent diffusion models and iteratively refined ultra-high resolution image models, in the context of image reconstruction in a video stream compression system when controlling unmanned systems in the first person. The study is focused on solving the problems of obtaining FullHD resolution frames compressed by a neural network model of latent diffusion. The w ork demonstrates that an iteratively refined image superresolution model outperforms a latent diffusion model based on metrics used to assess the quality of digital images, namely structural similarity index and signal-to-noise ratio. Quantitative results show that the iteratively refined super-resolution image model outperforms the latent diffusion model on these metrics, indicating greater preservation of image structural integrity, and also indicating reduced noise and high image fidelity. The image super-resolution model with iterative improvement model can be used in resolution enhancement tasks in video compression systems in FPV control systems.\",\"PeriodicalId\":128426,\"journal\":{\"name\":\"Труды НИИР\",\"volume\":\"28 6\",\"pages\":\"\"},\"PeriodicalIF\":0.0000,\"publicationDate\":\"2023-12-27\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"0\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"Труды НИИР\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.34832/niir.2023.14.3.003\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"\",\"JCRName\":\"\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"Труды НИИР","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.34832/niir.2023.14.3.003","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}

引用次数: 0

摘要

在用于无人系统第一人称控制的视频压缩系统中进行图像修复时，对基于扩散的超高分辨率模型（即潜在扩散模型和迭代改进的超高分辨率图像模型）进行了比较分析。研究的重点是解决利用神经网络潜在扩散模型压缩的全高清分辨率帧的获取问题。研究表明，根据用于评估数字图像质量的指标（即结构相似性指数和信噪比），迭代增强的图像超分辨率模型优于潜扩散模型。定量结果表明，基于这些指标，迭代增强的图像超分辨率模型优于潜扩散模型，这表明图像的结构完整性得到了更高的保留，同时也表明噪声减少，图像保真度高。具有迭代增强功能的图像超分辨率模型可用于第一人称控制系统中视频压缩系统的分辨率增强任务。本文比较了基于扩散的超高分辨率模型，即潜在扩散模型和迭代改进的超高分辨率图像模型，在视频流压缩系统中以第一人称控制无人系统时进行图像重建。这项研究的重点是解决获得由潜在扩散神经网络模型压缩的全高清分辨率帧的问题。研究表明，根据用于评估数字图像质量的指标（即结构相似性指数和信噪比），迭代改进的图像超分辨率模型优于潜在扩散模型。定量结果表明，在这些指标上，迭代改进的超分辨率图像模型优于潜在扩散模型，这表明图像结构的完整性得到了更好的保护，同时也表明噪声减少，图像保真度高。带有迭代改进模型的图像超分辨率模型可用于 FPV 控制系统中视频压缩系统的分辨率增强任务。

本文章由计算机程序翻译，如有差异，请以英文原文为准。

查看原文

微信好友朋友圈 QQ好友复制链接

本刊更多论文

A COMPARATIVE ANALYSIS OF DIFFUSION-BASED SUPER-RESOLUTION TECHNIQUES IN A VIDEO STREAM COMPRESSION SYSTEM IN FPV CONTROL OF UNM ANNED SYSTEMS

Выполнен сравнительный анализ моделей с ультравысоким разрешением на основе диффузии, а именно моделей латентной диффузии и итеративно усовершенствованных моделей изображений с ультравысоким разрешением, в контексте восстановления изображений в системе сжатия видеопотока при управлении беспилотными системами от первого лица. Исследование сосредоточено на решении проблем получения кадров с разрешением FullHD, сжатых с использованием нейронной сетевой модели латентной диффузии. Работа демонстрирует, что модель суперразрешения изображения с итеративным усовершенствованием превосходит модель латентной диффузии на основе метрик, используемых для оценки качества цифровых изображений, а именно индекса структурной схожести и отношения сигнал-шум. Количественные результаты показывают, что по данным метрикам модель суперразрешения изображения с итеративным усовершенствованием превосходит модель латентной диффузии, что свидетельствует о более высоком сохранении структурной целостности изображения, а также указывает на снижение уровня шума и высокую степень достоверности изображения. Модель суперразрешения изображения с итеративным усовершенствованием может быть использована в задачах улучшения разрешения в системах сжатия видеопотока в системах управления от первого лица. This article compares diffusion-based ultra-high resolution models, namely latent diffusion models and iteratively refined ultra-high resolution image models, in the context of image reconstruction in a video stream compression system when controlling unmanned systems in the first person. The study is focused on solving the problems of obtaining FullHD resolution frames compressed by a neural network model of latent diffusion. The w ork demonstrates that an iteratively refined image superresolution model outperforms a latent diffusion model based on metrics used to assess the quality of digital images, namely structural similarity index and signal-to-noise ratio. Quantitative results show that the iteratively refined super-resolution image model outperforms the latent diffusion model on these metrics, indicating greater preservation of image structural integrity, and also indicating reduced noise and high image fidelity. The image super-resolution model with iterative improvement model can be used in resolution enhancement tasks in video compression systems in FPV control systems.

求助全文

通过发布文献求助，成功后即可免费获取论文全文。去求助

来源期刊

Труды НИИР

自引率

0.00%

发文量