Understanding the impact of real-world data against synthetic degradation on single image super-resolution models

Silva, João Pedro Cosme da

Visualizar/abrir

Texto completo (inglês) (2.413Mb)

Data

2025

Autor

Silva, João Pedro Cosme da

Orientador

Jung, Claudio Rosito

Nível acadêmico

Graduação

Abstract

Single Image Super-Resolution (SISR) has advanced with the use of Deep Learning, however, the domain gap between synthetic training data and real degraded images remains an obstacle for practical applications. This work investigates the impact of data sources on the performance of super-resolution models in real-world scenarios. Using a dataset containing real low-resolution images and their high-resolution counterparts, two models were trained: SRGAN, focused on perceptual quality, and QuickSRNet, focused on efficiency. The experiment established two training modes: "Paired", utilizing naturally captured low-resolution images, and "Synthetic," utilizing a degradation pipeline to degrade high-resolution images. The results reveal differences in what the models learn: models trained with paired data are effective in color correction and sensor noise removal, but tend to smooth edges and textures. In contrast, models trained with synthetic data perform better in recovering structural details and achieving better perceptual metrics. The comparative analysis also highlighted the robustness of SRGAN against the generalization instability observed in QuickSRNet on test data. It is concluded that quantitative metrics on synthetic benchmarks are not reliable predictors of real-world performance, suggesting the need for hybrid training strategies to balance signal fidelity and perceptual quality, as even though using real image pairs for the training such models help in solving the issue of real-world image super-resolution, they can also make the models overfit to the characteristics of the specific pair of cameras used. ...

Resumo

A Super-Resolução de Imagem Única (SISR) tem avançado com o uso de Deep Learning, no entanto, ainda existe um problema de domínio entre dados de treinamento sintéticos e imagens reais degradadas, permanecendo um obstáculo para aplicações práticas. Este trabalho investiga o impacto da fonte de dados no desempenho de modelos de superresolução em cenários do mundo real, utilizando um dataset contendo imagens reais de baixa resolução e seus pares em alta resolução. Foram treinados dois modelos: a SRGAN, focada em qualidade perceptual, e a QuickSRNet, focada em eficiência. O experimento estabeleceu dois modos de treinamento: "Pareado", utilizando imagens de baixa resolu- ção capturadas naturalmente, e "Sintético", utilizando um pipeline de degradação para degradar as imagens em alta resolução. Os resultados revelam uma diferença no que o modelo aprende: modelos treinados com dados pareados atuam efetivamente na correção de cor e remoção de ruído de sensor, porém tendem a suavizar texturas finas. Enquanto isso, modelos treinados com dados sintéticos são superiores na recuperação de detalhes estruturais e métricas perceptuais. A análise comparativa também destacou a robustez da SRGAN frente à instabilidade de generalização observada na QuickSRNet em dados de teste. Conclui-se que métricas quantitativas em benchmarks sintéticos não são preditores confiáveis de desempenho no mundo real, sugerindo a necessidade de estratégias de treinamento híbridas para equilibrar fidelidade de sinal e qualidade perceptual, visto que mesmo com o uso de pares reais de imagens, os modelos ainda tendem a aprender a resolver a super-resolução especificamente para aquele par de câmeras. ...

Instituição

Universidade Federal do Rio Grande do Sul. Instituto de Informática. Curso de Ciência da Computação: Ênfase em Ciência da Computação: Bacharelado.

Coleções

Trabalhos de Conclusão de Curso de Graduação (40989)

TCC Ciência da Computação (1166)

Outras opções

Mostrar todos os metadados

Estatísticas

Este item está licenciado na Creative Commons License