이미지 생성의 새 지평: Latent Diffusion과 Pixel Diffusion 모델 비교
Pixel Diffusion
Pixel Diffusion 모델은 이미지 생성에 사용되는 확률적 생성 모델의 한 종류입니다. 이 모델은 데이터를 순차적으로 파괴하는 과정을 거쳐, 그 역과정을 학습하여 이미지를 생성합니다. 기본적으로, Pixel Diffusion 모델은 트레이닝 데이터에 점진적으로 가우시안 노이즈를 추가하여 세부사항을 서서히 없애는 과정을 거칩니다. 이후, 신경망을 통해 이러한 노이즈를 제거하는 역과정을 학습하여 순수 노이즈로부터 데이터를 재생성합니다.
https://blog.research.google/2021/07/high-fidelity-image-generation-using.html?m=1
High Fidelity Image Generation Using Diffusion Models
Posted by Jonathan Ho, Research Scientist and Chitwan Saharia, Software Engineer, Google Research, Brain Team Natural image synthesis is a broad class of machine learning (ML) tasks with wide-ranging applications that pose a number of design challenges. On
blog.research.google
이 모델의 주요 특징은 데이터를 손상시키고 복구하는 과정을 통해 새로운 이미지를 생성한다는 점입니다. 먼저, 원본 이미지에 점차적으로 노이즈를 추가하여 이미지의 구조를 파괴합니다. 그런 다음 이러한 파괴된 이미지에서 노이즈를 제거하여 새로운 이미지를 생성합니다. 이 과정은 모델이 원래 데이터 분포를 예측하는 데 도움이 됩니다.
https://learnopencv.com/image-generation-using-diffusion-models/
Diffusion Models for Image Generation – A Comprehensive Guide
In this article, we explore the Diffusion models for Image generation and art generation. We cover models like Dall-E 2, Imagen, Stable Diffusion, and Midjourney
learnopencv.com
Pixel Diffusion 모델은 고해상도 이미지를 생성하는 데 있어서 몇 가지 도전과제를 가지고 있습니다. 예를 들어, 고해상도 특징 맵은 메모리를 많이 사용하며, 낮은 채널 수를 사용하면 연산 성능이 떨어질 수 있습니다. 이를 해결하기 위해, 이미지를 다운샘플링하여 네트워크의 첫 단계로 사용하고, 마지막 단계에서 업샘플링하는 방법이 제안되었습니다.
https://ar5iv.labs.arxiv.org/html/2301.11093
simple diffusion: End-to-end diffusion for high resolution images
Currently, applying diffusion models in pixel space of high resolution images is difficult. Instead, existing approaches focus on diffusion in lower dimensional spaces (latent diffusion), or have multiple super-resolut…
ar5iv.labs.arxiv.org
최근에는 Pixel Diffusion 모델을 개선하고 확장하기 위한 다양한 방법들이 연구되고 있습니다. 예를 들어, Google의 연구에서는 SR3라는 이미지 초해상도 확산 모델과 CDM이라는 클래스 조건부 이미지넷 생성을 위한 확산 모델이 소개되었습니다. 이러한 모델들은 기존의 접근 방식들을 능가하는 이미지 생성 품질을 달성했습니다.

Pixel Diffusion은 이미지 생성 분야에서 중요한 발전을 이루고 있으며, 계속해서 새로운 연구와 개선이 이루어지고 있습니다.
Latent Diffusion
Latent Diffusion 모델은 최근 이미지 생성에서 주목을 받고 있는 기술입니다. 이 기술은 강력한 사전 학습된 오토인코더의 잠재 공간에서 확산 모델을 적용하여 이미지 생성 과정의 복잡성을 줄이고 세부 사항을 유지하는데 도움을 줍니다. 잠재 공간은 픽셀 공간과 유사한 시각적 표현을 제공하지만 계산 복잡도가 상당히 낮아집니다. 이 모델은 이미지 수정, 클래스 조건부 이미지 합성, 텍스트-이미지 합성, 조건 없는 이미지 생성, 이미지 초해상도와 같은 다양한 작업에서 새로운 상태의 예술 결과를 달성했습니다.
https://ar5iv.labs.arxiv.org/html/2112.10752
High-Resolution Image Synthesis with Latent Diffusion Models
By decomposing the image formation process into a sequential application of denoising autoencoders, diffusion models (DMs) achieve state-of-the-art synthesis results on image data and beyond. Additionally, their formul…
ar5iv.labs.arxiv.org
Latent Diffusion 모델은 효율적인 잠재 표현을 사용함으로써 고해상도 이미지 생성에 필요한 계산 시간을 대폭 줄입니다. 이는 이미지의 잠재 공간을 효율적으로 인코딩하고, 다양한 모달리티의 입력을 처리할 수 있는 크로스-어텐션 레이어를 도입하여 달성됩니다. 예를 들어, 텍스트나 이미지와 같은 조건 입력을 잠재 공간의 이미지 표현과 결합하여 사용할 수 있습니다.
https://www.louisbouchard.ai/latent-diffusion-models/
How Stable Diffusion works? Latent Diffusion Models Explained
A High-Resolution Image Synthesis Architecture: Latent Diffusion
www.louisbouchard.ai
이러한 특성 덕분에 Latent Diffusion 모델은 복잡한 이미지 생성 작업에서 효과적이며, 특히 고해상도 이미지나 다양한 조건부 생성 작업에 매우 유용합니다. 이러한 기능은 이미지 생성 분야에서 혁신을 가져올 수 있는 중요한 발전으로 간주됩니다.
https://creatis-myriad.github.io/2023/12/19/latent-diffusion-models.html
High-resolution image synthesis with latent diffusion models
Notes
creatis-myriad.github.io
비교
Latent Diffusion은 계산적으로 더 효율적일 수 있습니다. 픽셀 수준에서 작업하는 것보다 잠재 공간에서 작업하는 것이 일반적으로 더 빠르고 메모리 사용량도 적습니다. Pixel Diffusion은 더 높은 해상도의 이미지와 세밀한 픽셀 조작이 가능하나, Latent Diffusion은 이미지의 전반적인 구조와 스타일을 더 잘 잡아낼 수 있습니다. Pixel Diffusion은 픽셀 수준에서의 세밀한 조정이 중요한 고품질 이미지 생성에 적합하고, Latent Diffusion은 복잡한 이미지의 고차원적 특성을 포착하는 데 유용합니다. 이 두 기술은 각각의 장점과 용도에 따라 선택되며, 특정 응용 분야나 요구 사항에 따라 적절한 기술을 선택하는 것이 중요합니다.