Ë
    ¢ÙbiŠÍ  ã                   óL  — d dl mZmZmZmZ d dlZd dlmZ d dlmc m	Z
 d dlZddlmZmZ ddlmZ ddlmZ ddlmZ dd	lmZ dd
lmZ ddlmZ ddlmZmZ  ej<                  e«      Z dZ! G d„ dejD                  «      Z# G d„ dejD                  «      Z$ G d„ dejJ                  «      Z& G d„ dejD                  «      Z' G d„ dejP                  «      Z) G d„ dejD                  «      Z* G d„ dejD                  «      Z+ G d„ dejD                  «      Z, G d„ dejD                  «      Z- G d „ d!ejD                  «      Z. G d"„ d#ejD                  «      Z/ G d$„ d%ejD                  «      Z0 G d&„ d'ejD                  «      Z1 G d(„ d)ejD                  «      Z2d*„ Z3d+„ Z4 G d,„ d-eee«      Z5y).é    )ÚListÚOptionalÚTupleÚUnionNé   )ÚConfigMixinÚregister_to_config)ÚFromOriginalModelMixin)Úlogging)Úapply_forward_hooké   )Úget_activation)ÚAutoencoderKLOutput)Ú
ModelMixiné   )ÚDecoderOutputÚDiagonalGaussianDistributionc                   óZ   ‡ — e Zd Z	 dˆ fd„	Zdej
                  dej
                  fd„Zˆ xZS )Ú	AvgDown3Dc                 ó  •— t         ‰|   «        || _        || _        || _        || _        | j                  | j
                  z  | j
                  z  | _        || j                  z  |z  dk(  sJ ‚|| j                  z  |z  | _        y ©Nr   )ÚsuperÚ__init__Úin_channelsÚout_channelsÚfactor_tÚfactor_sÚfactorÚ
group_size©Úselfr   r   r   r   Ú	__class__s        €úk/home/cdr/jupyterlab/.venv/lib/python3.12/site-packages/diffusers/models/autoencoders/autoencoder_kl_wan.pyr   zAvgDown3D.__init__&   s|   ø€ ô 	‰ÑÔØ&ˆÔØ(ˆÔØ ˆŒØ ˆŒØ—m‘m d§m¡mÑ3°d·m±mÑCˆŒà˜TŸ[™[Ñ(¨<Ñ7¸1Ò<Ð<Ð<Ø%¨¯©Ñ3°|ÑCˆó    ÚxÚreturnc           
      ó0  — | j                   |j                  d   | j                   z  z
  | j                   z  }dddd|df}t        j                  ||«      }|j                  \  }}}}}|j	                  |||| j                   z  | j                   || j
                  z  | j
                  || j
                  z  | j
                  «      }|j                  dddddddd«      j                  «       }|j	                  ||| j                  z  || j                   z  || j
                  z  || j
                  z  «      }|j	                  || j                  | j                  || j                   z  || j
                  z  || j
                  z  «      }|j                  d¬	«      }|S )
Nr   r   r   r   é   é   é   é   ©Údim)r   ÚshapeÚFÚpadÚviewr   ÚpermuteÚ
contiguousr   r   r   Úmean)	r!   r%   Úpad_tr0   ÚBÚCÚTÚHÚWs	            r#   ÚforwardzAvgDown3D.forward7   so  € Ø—‘ §¡¨¡¨d¯m©mÑ!;Ñ;¸t¿}¹}ÑLˆØ!Q˜˜5 !Ð$ˆÜE‰E!S‹MˆØŸ™‰ˆˆ1ˆaAØF‰FØØØ—‘ÑØM‰MØ—‘ÑØM‰MØ—‘ÑØM‰Mó	
ˆð I‰Ia˜˜A˜q ! Q¨¨1Ó-×8Ñ8Ó:ˆØF‰FØØ—‘‰OØ—‘ÑØ—‘ÑØ—‘Ñó
ˆð F‰FØØ×ÑØO‰OØ—‘ÑØ—‘ÑØ—‘Ñó
ˆð F‰FqˆF‹MˆØˆr$   ©r   )Ú__name__Ú
__module__Ú__qualname__r   ÚtorchÚTensorr;   Ú__classcell__©r"   s   @r#   r   r   %   s)   ø„ ð õDð" ˜Ÿ™ð  ¨%¯,©,÷  r$   r   c                   óf   ‡ — e Zd Z	 ddedefˆ fd„Zddej                  dej                  fd„Zˆ xZS )	ÚDupUp3Dr   r   c                 ó  •— t         ‰|   «        || _        || _        || _        || _        | j                  | j
                  z  | j
                  z  | _        || j                  z  |z  dk(  sJ ‚|| j                  z  |z  | _        y r   )r   r   r   r   r   r   r   Úrepeatsr    s        €r#   r   zDupUp3D.__init__[   s|   ø€ ô 	‰ÑÔØ&ˆÔØ(ˆÔà ˆŒØ ˆŒØ—m‘m d§m¡mÑ3°d·m±mÑCˆŒà˜dŸk™kÑ)¨KÑ7¸1Ò<Ð<Ð<Ø# d§k¡kÑ1°[Ñ@ˆr$   r%   r&   c                 óÎ  — |j                  | j                  d¬«      }|j                  |j                  d«      | j                  | j
                  | j                  | j                  |j                  d«      |j                  d«      |j                  d«      «      }|j                  ddddddd	d«      j                  «       }|j                  |j                  d«      | j                  |j                  d«      | j
                  z  |j                  d«      | j                  z  |j                  d«      | j                  z  «      }|r!|d d …d d …| j
                  dz
  d …d d …d d …f   }|S )
Nr   r,   r   r   r   r*   r(   r+   r)   )	Úrepeat_interleaverG   r1   Úsizer   r   r   r2   r3   )r!   r%   Úfirst_chunks      r#   r;   zDupUp3D.forwardm   s#  € Ø×Ñ §¡°!ÐÓ4ˆØF‰FØF‰F1‹IØ×ÑØM‰MØM‰MØM‰MØF‰F1‹IØF‰F1‹IØF‰F1‹Ió	
ˆð I‰Ia˜˜A˜q ! Q¨¨1Ó-×8Ñ8Ó:ˆØF‰FØF‰F1‹IØ×ÑØF‰F1‹I˜Ÿ™Ñ%ØF‰F1‹I˜Ÿ™Ñ%ØF‰F1‹I˜Ÿ™Ñ%ó
ˆñ Ø’!’Q˜Ÿ™¨Ñ)Ñ+ªQ²Ð1Ñ2ˆAØˆr$   r<   )F)	r=   r>   r?   Úintr   r@   rA   r;   rB   rC   s   @r#   rE   rE   Z   s=   ø„ ð ñAàðAð õAñ$˜Ÿ™ð ¸U¿\¹\÷ r$   rE   c                   ó   ‡ — e Zd ZdZ	 	 ddededeeeeeef   f   deeeeeef   f   deeeeeef   f   ddfˆ fd	„Zdˆ fd
„	Zˆ xZ	S )ÚWanCausalConv3dau  
    A custom 3D causal convolution layer with feature caching support.

    This layer extends the standard Conv3D layer by ensuring causality in the time dimension and handling feature
    caching for efficient inference.

    Args:
        in_channels (int): Number of channels in the input image
        out_channels (int): Number of channels produced by the convolution
        kernel_size (int or tuple): Size of the convolving kernel
        stride (int or tuple, optional): Stride of the convolution. Default: 1
        padding (int or tuple, optional): Zero-padding added to all three sides of the input. Default: 0
    r   r   Úkernel_sizeÚstrideÚpaddingr&   Nc                 óÞ   •— t         ‰|   |||||¬«       | j                  d   | j                  d   | j                  d   | j                  d   d| j                  d   z  df| _        d| _        y )N)r   r   rO   rP   rQ   r   r   r   ©r   r   r   )r   r   rQ   Ú_padding)r!   r   r   rO   rP   rQ   r"   s         €r#   r   zWanCausalConv3d.__init__•   sx   ø€ ô 	‰ÑØ#Ø%Ø#ØØð 	ô 	
ð Ÿ™ a™¨$¯,©,°q©/¸4¿<¹<È¹?ÈDÏLÉLÐYZÉOÐ]^Ðae×amÑamÐnoÑapÑ]pÐrsÐtˆŒØ ˆr$   c                 ó<  •— t        | j                  «      }|`| j                  d   dkD  rN|j                  |j                  «      }t	        j
                  ||gd¬«      }|dxx   |j                  d   z  cc<   t        j                  ||«      }t        ‰| )  |«      S )Nr*   r   r   r,   )ÚlistrT   ÚtoÚdevicer@   Úcatr.   r/   r0   r   r;   )r!   r%   Úcache_xrQ   r"   s       €r#   r;   zWanCausalConv3d.forward©   sƒ   ø€ Üt—}‘}Ó%ˆØÐ 4§=¡=°Ñ#3°aÒ#7Ø—j‘j §¡Ó*ˆGÜ—	‘	˜7 A˜,¨AÔ.ˆAØA‹J˜'Ÿ-™-¨Ñ*Ñ*‹JÜE‰E!WÓˆÜ‰w‰˜qÓ!Ð!r$   )r   r   ©N)
r=   r>   r?   Ú__doc__rL   r   r   r   r;   rB   rC   s   @r#   rN   rN   †   s˜   ø„ ñð& 45Ø45ñ!àð!ð ð!ð ˜3  c¨3° mÑ 4Ð4Ñ5ð	!ð
 c˜5  c¨3 Ñ/Ð/Ñ0ð!ð s˜E # s¨C -Ñ0Ð0Ñ1ð!ð 
õ!÷("ñ "r$   rN   c                   ó@   ‡ — e Zd ZdZd
dededededdf
ˆ fd„Zd	„ Zˆ xZS )ÚWanRMS_norma®  
    A custom RMS normalization layer.

    Args:
        dim (int): The number of dimensions to normalize over.
        channel_first (bool, optional): Whether the input tensor has channels as the first dimension.
            Default is True.
        images (bool, optional): Whether the input represents image data. Default is True.
        bias (bool, optional): Whether to include a learnable bias term. Default is False.
    r-   Úchannel_firstÚimagesÚbiasr&   Nc                 ó.  •— t         ‰|   «        |sdnd}|r|g|¢­n|f}|| _        |dz  | _        t	        j
                  t        j                  |«      «      | _        |r.t	        j
                  t        j                  |«      «      | _
        y d| _
        y )N)r   r   r   )r   r   g      à?ç        )r   r   r_   ÚscaleÚnnÚ	Parameterr@   ÚonesÚgammaÚzerosra   )r!   r-   r_   r`   ra   Úbroadcastable_dimsr.   r"   s          €r#   r   zWanRMS_norm.__init__¿   sy   ø€ Ü‰ÑÔÙ.4™Y¸&ÐÙ.;Ð*Ð)Ò*À#Àˆà*ˆÔØ˜#‘XˆŒ
Ü—\‘\¤%§*¡*¨UÓ"3Ó4ˆŒ
Ù8<”B—L‘L¤§¡¨UÓ!3Ó4ˆ	À#ˆ	r$   c                 óš   — t        j                  || j                  rdnd¬«      | j                  z  | j                  z  | j
                  z   S )Nr   éÿÿÿÿr,   )r/   Ú	normalizer_   rd   rh   ra   )r!   r%   s     r#   r;   zWanRMS_norm.forwardÉ   s>   € Ü{‰{˜1¨×(:Ò(:¡1ÀÔDÀtÇzÁzÑQÐTX×T^ÑT^Ñ^Ðae×ajÑajÑjÐjr$   ©TTF)	r=   r>   r?   r\   rL   Úboolr   r;   rB   rC   s   @r#   r^   r^   ³   s>   ø„ ñ	ñF˜Cð F°ð FÀTð FÐX\ð FÐimõ Fökr$   r^   c                   ó"   ‡ — e Zd ZdZˆ fd„Zˆ xZS )ÚWanUpsamplea   
    Perform upsampling while ensuring the output tensor has the same data type as the input.

    Args:
        x (torch.Tensor): Input tensor to be upsampled.

    Returns:
        torch.Tensor: Upsampled tensor with the same data type as the input.
    c                 ó\   •— t         ‰|   |j                  «       «      j                  |«      S r[   )r   r;   ÚfloatÚtype_as)r!   r%   r"   s     €r#   r;   zWanUpsample.forwardØ   s#   ø€ Ü‰w‰˜qŸw™w›yÓ)×1Ñ1°!Ó4Ð4r$   )r=   r>   r?   r\   r;   rB   rC   s   @r#   rq   rq   Í   s   ø„ ñ÷5ð 5r$   rq   c            	       óD   ‡ — e Zd ZdZd
dedededdfˆ fd„Zddgfd	„Zˆ xZS )ÚWanResampleax  
    A custom resampling module for 2D and 3D data.

    Args:
        dim (int): The number of input/output channels.
        mode (str): The resampling mode. Must be one of:
            - 'none': No resampling (identity operation).
            - 'upsample2d': 2D upsampling with nearest-exact interpolation and convolution.
            - 'upsample3d': 3D upsampling with nearest-exact interpolation, convolution, and causal 3D convolution.
            - 'downsample2d': 2D downsampling with zero-padding and convolution.
            - 'downsample3d': 3D downsampling with zero-padding, convolution, and causal 3D convolution.
    Nr-   ÚmodeÚupsample_out_dimr&   c           	      ó  •— t         ‰|   «        || _        || _        |€|dz  }|dk(  r>t	        j
                  t        dd¬«      t	        j                  ||dd¬«      «      | _        y |d	k(  rUt	        j
                  t        dd¬«      t	        j                  ||dd¬«      «      | _        t        ||dz  d
d¬«      | _
        y |dk(  rFt	        j
                  t	        j                  d«      t	        j                  ||dd¬«      «      | _        y |dk(  r[t	        j
                  t	        j                  d«      t	        j                  ||dd¬«      «      | _        t        ||d
dd¬«      | _
        y t	        j                  «       | _        y )Nr   Ú
upsample2d)ç       @r{   znearest-exact)Úscale_factorrw   r   r   ©rQ   Ú
upsample3d)r   r   r   )r   r   r   Údownsample2d)r   r   r   r   )r   r   )rP   Údownsample3d)r   r   r   rS   )rP   rQ   )r   r   r-   rw   re   Ú
Sequentialrq   ÚConv2dÚresamplerN   Ú	time_convÚ	ZeroPad2dÚIdentity)r!   r-   rw   rx   r"   s       €r#   r   zWanResample.__init__ê   sD  ø€ Ü‰ÑÔØˆŒØˆŒ	ð Ð#Ø" a™xÐð <ÒÜŸM™MÜ¨¸/ÔJÜ—	‘	˜#Ð/°¸AÔ>óˆDMð \Ò!ÜŸM™MÜ¨¸/ÔJÜ—	‘	˜#Ð/°¸AÔ>óˆDŒMô -¨S°#¸±'¸9ÈiÔXˆDNà^Ò#ÜŸM™M¬"¯,©,°|Ó*DÄbÇiÁiÐPSÐUXÐZ[ÐdjÔFkÓlˆDMØ^Ò#ÜŸM™M¬"¯,©,°|Ó*DÄbÇiÁiÐPSÐUXÐZ[ÐdjÔFkÓlˆDŒMÜ,¨S°#°yÈÐ\eÔfˆDNô ŸK™K›MˆDMr$   r   c                 ó‚  — |j                  «       \  }}}}}| j                  dk(  rÌ|É|d   }	||	   €d||	<   |dxx   dz  cc<   n«|d d …d d …t         d …d d …d d …f   j                  «       }
|
j                  d   dk  ra||	   \||	   dk7  rTt        j                  ||	   d d …d d …dd d …d d …f   j                  d«      j                  |
j                  «      |
gd¬«      }
|
j                  d   dk  rR||	   M||	   dk(  rEt        j                  t        j                  |
«      j                  |
j                  «      |
gd¬«      }
||	   dk(  r| j                  |«      }n| j                  |||	   «      }|
||	<   |dxx   dz  cc<   |j                  |d||||«      }t        j                  |d d …dd d …d d …d d …d d …f   |d d …dd d …d d …d d …d d …f   fd«      }|j                  |||dz  ||«      }|j                  d   }|j                  ddddd	«      j                  ||z  |||«      }| j                  |«      }|j!                  |||j                  d«      |j                  d«      |j                  d«      «      j                  ddddd	«      }| j                  d
k(  rž|œ|d   }	||	   €"|j                  «       ||	<   |dxx   dz  cc<   |S |d d …d d …dd …d d …d d …f   j                  «       }
| j                  t        j                  ||	   d d …d d …dd …d d …d d …f   |gd«      «      }|
||	<   |dxx   dz  cc<   |S )Nr~   r   ÚRepr   r   rl   r,   r   r*   r€   )rJ   rw   ÚCACHE_TÚcloner.   r@   rY   Ú	unsqueezerW   rX   Ú
zeros_liker„   ÚreshapeÚstackr2   rƒ   r1   )r!   r%   Ú
feat_cacheÚfeat_idxÚbÚcÚtÚhÚwÚidxrZ   s              r#   r;   zWanResample.forward	  s5  € ØŸ™›‰ˆˆ1ˆaAØ9‰9˜Ó$ØÑ%Ø˜q‘kØ˜c‘?Ð*Ø&+J˜s‘OØ˜Q“K 1Ñ$•Kà¢¢1¤w h¡i²²AÐ 5Ñ6×<Ñ<Ó>GØ—}‘} QÑ'¨!Ò+°
¸3±Ð0KÐPZÐ[^ÑP_ÐchÒPhä"'§)¡)Ø'¨™_ªQ²°2²qº!¨^Ñ<×FÑFÀqÓI×LÑLÈWÏ^É^Ó\Ð^eÐfÐlmô#˜ð —}‘} QÑ'¨!Ò+°
¸3±Ð0KÐPZÐ[^ÑP_ÐchÒPhÜ"'§)¡)¬U×-=Ñ-=¸gÓ-F×-IÑ-IÈ'Ï.É.Ó-YÐ[bÐ,cÐijÔ"k˜Ø! #‘¨%Ò/Ø ŸN™N¨1Ó-™à ŸN™N¨1¨j¸©oÓ>˜Ø&-J˜s‘OØ˜Q“K 1Ñ$“KàŸ	™	 ! Q¨¨1¨a°Ó3AÜŸ™ Q¢q¨!ªQ²²1²aÐ'7Ñ%8¸!ºA¸qÂ!ÂQÊÊ1Ð<LÑ:MÐ$NÐPQÓRAØŸ	™	 ! Q¨¨A©¨q°!Ó4AØG‰GA‰JˆØI‰Ia˜˜A˜q !Ó$×,Ñ,¨Q°©U°A°q¸!Ó<ˆØM‰M˜!ÓˆØF‰F1a˜Ÿ™ › A§F¡F¨1£I¨q¯v©v°a«yÓ9×AÑAÀ!ÀQÈÈ1ÈaÓPˆà9‰9˜Ò&ØÐ%Ø˜q‘kØ˜c‘?Ð*Ø&'§g¡g£iJ˜s‘OØ˜Q“K 1Ñ$“Kð ˆð	  ¢¢1 b¡cª1ªa Ñ0×6Ñ6Ó8GØŸ™¤u§y¡y°*¸S±/Â!ÂQÈÉÊQÒPQÀ/Ñ2RÐTUÐ1VÐXYÓ'ZÓ[AØ&-J˜s‘OØ˜Q“K 1Ñ$“KØˆr$   r[   )	r=   r>   r?   r\   rL   Ústrr   r;   rB   rC   s   @r#   rv   rv   Ü   s7   ø„ ññ*˜Cð * sð *¸cð *ÈTõ *ð> %)°A°3÷ +r$   rv   c                   óL   ‡ — e Zd ZdZ	 	 ddededededdf
ˆ fd„Zdd	gfd
„Zˆ xZ	S )ÚWanResidualBlockaE  
    A custom residual block module.

    Args:
        in_dim (int): Number of input channels.
        out_dim (int): Number of output channels.
        dropout (float, optional): Dropout rate for the dropout layer. Default is 0.0.
        non_linearity (str, optional): Type of non-linearity to use. Default is "silu".
    Úin_dimÚout_dimÚdropoutÚnon_linearityr&   Nc                 óŒ  •— t         ‰|   «        || _        || _        t	        |«      | _        t        |d¬«      | _        t        ||dd¬«      | _	        t        |d¬«      | _
        t        j                  |«      | _        t        ||dd¬«      | _        ||k7  rt        ||d«      | _        y t        j                  «       | _        y )NF©r`   r   r   r}   )r   r   rš   r›   r   Únonlinearityr^   Únorm1rN   Úconv1Únorm2re   ÚDropoutrœ   Úconv2r†   Úconv_shortcut)r!   rš   r›   rœ   r   r"   s        €r#   r   zWanResidualBlock.__init__B  s¦   ø€ ô 	‰ÑÔØˆŒØˆŒÜ*¨=Ó9ˆÔô ! °Ô6ˆŒ
Ü$ V¨W°aÀÔCˆŒ
Ü  °Ô7ˆŒ
Ü—z‘z 'Ó*ˆŒÜ$ W¨g°qÀ!ÔDˆŒ
ØDJÈgÒDUœ_¨V°W¸aÓ@ˆÕÔ[]×[fÑ[fÓ[hˆÕr$   r   c           	      ó(  — | j                  |«      }| j                  |«      }| j                  |«      }|¿|d   }|d d …d d …t         d …d d …d d …f   j	                  «       }|j
                  d   dk  rY||   Tt        j                  ||   d d …d d …dd d …d d …f   j                  d«      j                  |j                  «      |gd¬«      }| j                  |||   «      }|||<   |dxx   dz  cc<   n| j                  |«      }| j                  |«      }| j                  |«      }| j                  |«      }|Ã|d   }|d d …d d …t         d …d d …d d …f   j	                  «       }|j
                  d   dk  rY||   Tt        j                  ||   d d …d d …dd d …d d …f   j                  d«      j                  |j                  «      |gd¬«      }| j                  |||   «      }|||<   |dxx   dz  cc<   ||z   S | j                  |«      }||z   S ©Nr   r   rl   r,   r   )r¦   r¡   r    r‰   rŠ   r.   r@   rY   r‹   rW   rX   r¢   r£   rœ   r¥   )r!   r%   r   r   r”   r–   rZ   s          r#   r;   zWanResidualBlock.forwardV  s  € à×Ñ˜qÓ!ˆð J‰Jq‹MˆØ×Ñ˜aÓ ˆàÐ!Ø˜1‘+ˆCØšš1œw˜h™iªªAÐ-Ñ.×4Ñ4Ó6ˆGØ}‰}˜QÑ !Ò#¨
°3©Ð(CÜŸ)™) Z°¡_²Qº¸2ºqÂ!°^Ñ%D×%NÑ%NÈqÓ%Q×%TÑ%TÐU\×UcÑUcÓ%dÐfmÐ$nÐtuÔvà—
‘
˜1˜j¨™oÓ.ˆAØ%ˆJs‰OØQ‹K˜1ÑŒKà—
‘
˜1“ˆAð J‰Jq‹MˆØ×Ñ˜aÓ ˆð L‰L˜‹OˆàÐ!Ø˜1‘+ˆCØšš1œw˜h™iªªAÐ-Ñ.×4Ñ4Ó6ˆGØ}‰}˜QÑ !Ò#¨
°3©Ð(CÜŸ)™) Z°¡_²Qº¸2ºqÂ!°^Ñ%D×%NÑ%NÈqÓ%Q×%TÑ%TÐU\×UcÑUcÓ%dÐfmÐ$nÐtuÔvà—
‘
˜1˜j¨™oÓ.ˆAØ%ˆJs‰OØQ‹K˜1Ñ‹Kð
 1‰uˆð —
‘
˜1“ˆAð 1‰uˆr$   )rc   Úsilu©
r=   r>   r?   r\   rL   rs   r—   r   r;   rB   rC   s   @r#   r™   r™   7  sY   ø„ ñð Ø#ñiàðið ðið ð	ið
 ðið 
õið( %)°A°3÷ (r$   r™   c                   ó(   ‡ — e Zd ZdZˆ fd„Zd„ Zˆ xZS )ÚWanAttentionBlockz}
    Causal self-attention with a single head.

    Args:
        dim (int): The number of channels in the input tensor.
    c                 óÆ   •— t         ‰|   «        || _        t        |«      | _        t        j                  ||dz  d«      | _        t        j                  ||d«      | _        y )Nr   r   )	r   r   r-   r^   Únormre   r‚   Úto_qkvÚproj)r!   r-   r"   s     €r#   r   zWanAttentionBlock.__init__‰  sO   ø€ Ü‰ÑÔØˆŒô   Ó$ˆŒ	Ü—i‘i  S¨1¡W¨aÓ0ˆŒÜ—I‘I˜c 3¨Ó*ˆ	r$   c                 óŒ  — |}|j                  «       \  }}}}}|j                  ddddd«      j                  ||z  |||«      }| j                  |«      }| j	                  |«      }|j                  ||z  d|dz  d«      }|j                  dddd«      j                  «       }|j                  dd¬«      \  }	}
}t        j                  |	|
|«      }|j                  d«      j                  ddd«      j                  ||z  |||«      }| j                  |«      }|j                  |||||«      }|j                  ddddd«      }||z   S )Nr   r   r   r   r*   rl   r,   )rJ   r2   r   r®   r¯   r3   Úchunkr/   Úscaled_dot_product_attentionÚsqueezer°   r1   )r!   r%   ÚidentityÚ
batch_sizeÚchannelsÚtimeÚheightÚwidthÚqkvÚqÚkÚvs               r#   r;   zWanAttentionBlock.forward’  sH  € ØˆØ45·F±F³HÑ1ˆ
H˜d F¨EàI‰Ia˜˜A˜q !Ó$×,Ñ,¨Z¸$Ñ->ÀÈ&ÐRWÓXˆØI‰Ia‹Lˆð k‰k˜!‹nˆØk‰k˜* tÑ+¨Q°¸1±¸bÓAˆØk‰k˜!˜Q  1Ó%×0Ñ0Ó2ˆØ—)‘)˜A 2)Ó&‰ˆˆ1ˆaô ×*Ñ*¨1¨a°Ó3ˆàI‰Ia‹L× Ñ   A qÓ)×1Ñ1°*¸tÑ2CÀXÈvÐW\Ó]ˆð I‰Ia‹Lˆð F‰F:˜t X¨v°uÓ=ˆØI‰Ia˜˜A˜q !Ó$ˆà8‰|Ðr$   )r=   r>   r?   r\   r   r;   rB   rC   s   @r#   r¬   r¬     s   ø„ ñô+ör$   r¬   c            	       óD   ‡ — e Zd ZdZd
dedededefˆ fd„Zddgfd	„Zˆ xZ	S )ÚWanMidBlockz×
    Middle block for WanVAE encoder and decoder.

    Args:
        dim (int): Number of input/output channels.
        dropout (float): Dropout rate.
        non_linearity (str): Type of non-linearity to use.
    r-   rœ   r   Ú
num_layersc           	      óV  •— t         ‰|   «        || _        t        ||||«      g}g }t	        |«      D ]9  }|j                  t        |«      «       |j                  t        ||||«      «       Œ; t        j                  |«      | _	        t        j                  |«      | _
        d| _        y )NF)r   r   r-   r™   ÚrangeÚappendr¬   re   Ú
ModuleListÚ
attentionsÚresnetsÚgradient_checkpointing)	r!   r-   rœ   r   rÁ   rÇ   rÆ   Ú_r"   s	           €r#   r   zWanMidBlock.__init__¸  s›   ø€ Ü‰ÑÔØˆŒô $ C¨¨g°}ÓEÐFˆØˆ
ÜzÓ"ò 	OˆAØ×ÑÔ/°Ó4Ô5ØN‰NÔ+¨C°°g¸}ÓMÕNð	Oô Ÿ-™-¨
Ó3ˆŒÜ—}‘} WÓ-ˆŒà&+ˆÕ#r$   Nr   c                 ó²   —  | j                   d   |||«      }t        | j                  | j                   dd  «      D ]  \  }}| ||«      } ||||«      }Œ |S )Nr   r   )rÇ   ÚziprÆ   )r!   r%   r   r   ÚattnÚresnets         r#   r;   zWanMidBlock.forwardÇ  si   € àˆDL‰L˜‰O˜A˜z¨8Ó4ˆô   §¡°·±¸a¸bÐ1AÓBò 	0‰LˆD&ØÐÙ˜“Gáq˜* hÓ/‰Að		0ð ˆr$   )rc   r©   r   rª   rC   s   @r#   rÀ   rÀ   ®  s8   ø„ ññ,˜Cð ,¨%ð ,Àcð ,Ð`cõ ,ð %)°A°3÷ r$   rÀ   c                   ó.   ‡ — e Zd Zdˆ fd„	Zddgfd„Zˆ xZS )ÚWanResidualDownBlockc                 ó2  •— t         ‰
|   «        t        |||rdnd|rdnd¬«      | _        g }t	        |«      D ]   }|j                  t        |||«      «       |}Œ" t        j                  |«      | _	        |r|rdnd}	t        ||	¬«      | _        y d | _        y )Nr   r   ©r   r   r€   r   ©rw   )r   r   r   Úavg_shortcutrÃ   rÄ   r™   re   rÅ   rÇ   rv   Údownsampler)r!   rš   r›   rœ   Únum_res_blocksÚtemperal_downsampleÚ	down_flagrÇ   rÉ   rw   r"   s             €r#   r   zWanResidualDownBlock.__init__Ö  sž   ø€ Ü‰ÑÔô &ØØÙ-‘Q°1Ù#‘Q¨ô	
ˆÔð ˆÜ~Ó&ò 	ˆAØN‰NÔ+¨F°G¸WÓEÔFØ‰Fð	ô —}‘} WÓ-ˆŒñ Ù%8‘>¸nˆDÜ*¨7¸Ô>ˆDÕà#ˆDÕr$   Nr   c                 ó¾   — |j                  «       }| j                  D ]  } ||||«      }Œ | j                  | j                  |||«      }|| j                  |«      z   S r[   )rŠ   rÇ   rÔ   rÓ   )r!   r%   r   r   Úx_copyrÍ   s         r#   r;   zWanResidualDownBlock.forwardï  sd   € Ø—‘“ˆØ—l‘lò 	0ˆFÙq˜* hÓ/‰Að	0à×ÑÐ'Ø× Ñ   J°Ó9ˆAà4×$Ñ$ VÓ,Ñ,Ð,r$   )FF)r=   r>   r?   r   r;   rB   rC   s   @r#   rÏ   rÏ   Õ  s   ø„ õ$ð2 %)°A°3÷ -r$   rÏ   c            
       ó\   ‡ — e Zd ZdZdddg d¢dg g d¢dd	d
f
dededefˆ fd„Zddgfd„Zˆ xZ	S )ÚWanEncoder3dao  
    A 3D encoder module.

    Args:
        dim (int): The base number of channels in the first layer.
        z_dim (int): The dimensionality of the latent space.
        dim_mult (list of int): Multipliers for the number of channels in each block.
        num_res_blocks (int): Number of residual blocks in each block.
        attn_scales (list of float): Scales at which to apply attention mechanisms.
        temperal_downsample (list of bool): Whether to downsample temporally in each block.
        dropout (float): Dropout rate for the dropout layers.
        non_linearity (str): Type of non-linearity to use.
    r   é€   r*   ©r   r   r*   r*   r   rn   rc   r©   Fr   r   Úis_residualc                 óô  •— t         ‰|   «        || _        || _        || _        || _        || _        || _        t        |	«      | _	        dg|z   D cg c]  }||z  ‘Œ	 }}d}t        ||d   dd¬«      | _        t        j                  g «      | _        t        t!        |d d |dd  «      «      D ]  \  }\  }}|
rP| j                  j#                  t%        |||||t'        |«      dz
  k7  r||   nd|t'        |«      dz
  k7  ¬«      «       Œ\t)        |«      D ]R  }| j                  j#                  t+        |||«      «       ||v r$| j                  j#                  t-        |«      «       |}ŒT |t'        |«      dz
  k7  sŒÎ||   rd	nd
}| j                  j#                  t/        ||¬«      «       |dz  }Œ t1        ||	d¬«      | _        t5        |d¬«      | _        t        ||dd¬«      | _        d| _        y c c}w )Nr   ç      ð?r   r   r}   rl   F)rÖ   r×   r€   r   rÒ   r{   ©rÁ   rŸ   )r   r   r-   Úz_dimÚdim_multrÕ   Úattn_scalesrÖ   r   r    rN   Úconv_inre   rÅ   Údown_blocksÚ	enumeraterË   rÄ   rÏ   ÚlenrÃ   r™   r¬   rv   rÀ   Ú	mid_blockr^   Únorm_outÚconv_outrÈ   )r!   r   r-   râ   rã   rÕ   rä   rÖ   rœ   r   rÞ   ÚuÚdimsrd   Úirš   r›   rÉ   rw   r"   s                      €r#   r   zWanEncoder3d.__init__  s  ø€ ô 	‰ÑÔØˆŒØˆŒ
Ø ˆŒØ,ˆÔØ&ˆÔØ#6ˆÔ Ü*¨=Ó9ˆÔð #$  x¡Ö0˜Aa“Ð0ˆÐ0Øˆô ' {°D¸±G¸QÈÔJˆŒô Ÿ=™=¨Ó,ˆÔÜ$-¬c°$°s¸°)¸TÀ!À"¸XÓ.FÓ$Gó 	!Ñ ˆAÑ ˜áØ× Ñ ×'Ñ'Ü(ØØØØ&ØFGÌ3ÈxË=Ð[\ÑK\ÒF\Ð,?ÀÒ,BÐbgØ"#¤s¨8£}°qÑ'8Ñ"8ôõ	ô ˜~Ó.ò %AØ×$Ñ$×+Ñ+Ô,<¸VÀWÈgÓ,VÔWØ Ñ+Ø×(Ñ(×/Ñ/Ô0AÀ'Ó0JÔKØ$‘Fð	%ð œ˜H›¨Ñ)Ó)Ø-@ÀÒ-C™>ÈDØ×$Ñ$×+Ñ+¬K¸ÀdÔ,KÔLØ˜S‘L’Eð1	!ô6 % W¨g°}ÐQRÔSˆŒô $ G°EÔ:ˆŒÜ'¨°¸À1ÔEˆŒà&+ˆÕ#ùòS 1s   ÁG5Nr   c           	      ó  — |¿|d   }|d d …d d …t          d …d d …d d …f   j                  «       }|j                  d   dk  rY||   Tt        j                  ||   d d …d d …dd d …d d …f   j                  d«      j                  |j                  «      |gd¬«      }| j                  |||   «      }|||<   |dxx   dz  cc<   n| j                  |«      }| j                  D ]  }| ||||«      }Œ ||«      }Œ | j                  |||«      }| j                  |«      }| j                  |«      }|À|d   }|d d …d d …t          d …d d …d d …f   j                  «       }|j                  d   dk  rY||   Tt        j                  ||   d d …d d …dd d …d d …f   j                  d«      j                  |j                  «      |gd¬«      }| j                  |||   «      }|||<   |dxx   dz  cc<   |S | j                  |«      }|S r¨   )r‰   rŠ   r.   r@   rY   r‹   rW   rX   rå   ræ   ré   rê   r    rë   )r!   r%   r   r   r–   rZ   Úlayers          r#   r;   zWanEncoder3d.forwardJ  s  € ØÐ!Ø˜1‘+ˆCØšš1œw˜h™iªªAÐ-Ñ.×4Ñ4Ó6ˆGØ}‰}˜QÑ !Ò#¨
°3©Ð(CäŸ)™) Z°¡_²Qº¸2ºqÂ!°^Ñ%D×%NÑ%NÈqÓ%Q×%TÑ%TÐU\×UcÑUcÓ%dÐfmÐ$nÐtuÔvØ—‘˜Q 
¨3¡Ó0ˆAØ%ˆJs‰OØQ‹K˜1ÑŒKà—‘˜Q“ˆAð ×%Ñ%ò 	ˆEØÐ%Ù˜!˜Z¨Ó2‘á˜!“H‘ð		ð N‰N˜1˜j¨(Ó3ˆð M‰M˜!ÓˆØ×Ñ˜aÓ ˆØÐ!Ø˜1‘+ˆCØšš1œw˜h™iªªAÐ-Ñ.×4Ñ4Ó6ˆGØ}‰}˜QÑ !Ò#¨
°3©Ð(CäŸ)™) Z°¡_²Qº¸2ºqÂ!°^Ñ%D×%NÑ%NÈqÓ%Q×%TÑ%TÐU\×UcÑUcÓ%dÐfmÐ$nÐtuÔvØ—‘˜a ¨C¡Ó1ˆAØ%ˆJs‰OØQ‹K˜1Ñ‹Kð ˆð —‘˜aÓ ˆAØˆr$   )
r=   r>   r?   r\   rL   r—   ro   r   r;   rB   rC   s   @r#   rÛ   rÛ   ù  s\   ø„ ñð  ØØÚØØÚ/ØØ#Ø!ñ@,àð@,ð ð@,ð õ@,ðD %)°A°3÷ %r$   rÛ   c                   óZ   ‡ — e Zd ZdZ	 	 	 	 ddedededededed	efˆ fd
„Zddgdfd„Z	ˆ xZ
S )ÚWanResidualUpBlocka±  
    A block that handles upsampling for the WanVAE decoder.

    Args:
        in_dim (int): Input dimension
        out_dim (int): Output dimension
        num_res_blocks (int): Number of residual blocks
        dropout (float): Dropout rate
        temperal_upsample (bool): Whether to upsample on temporal dimension
        up_flag (bool): Whether to upsample or not
        non_linearity (str): Type of non-linearity to use
    Frš   r›   rÕ   rœ   Útemperal_upsampleÚup_flagr   c           	      ó„  •— t         ‰|   «        || _        || _        |rt	        |||rdndd¬«      | _        nd | _        g }|}	t        |dz   «      D ]!  }
|j                  t        |	|||«      «       |}	Œ# t        j                  |«      | _        |r!|rdnd}t        |||¬«      | _        d| _        y d | _        d| _        y )Nr   r   rÑ   r~   rz   )rw   rx   F)r   r   rš   r›   rE   rÓ   rÃ   rÄ   r™   re   rÅ   rÇ   rv   Ú	upsamplerrÈ   )r!   rš   r›   rÕ   rœ   ró   rô   r   rÇ   Úcurrent_dimrÉ   Úupsample_moder"   s               €r#   r   zWanResidualUpBlock.__init__€  sÖ   ø€ ô 	‰ÑÔØˆŒØˆŒáÜ 'ØØÙ/™°QØô	!ˆDÕð !%ˆDÔð ˆØˆÜ~¨Ñ)Ó*ò 	"ˆAØN‰NÔ+¨K¸À'È=ÓYÔZØ!‰Kð	"ô —}‘} WÓ-ˆŒñ Ù,=™LÀ<ˆMÜ(¨°}ÐW^Ô_ˆDŒNð ',ˆÕ#ð "ˆDŒNà&+ˆÕ#r$   Nr   c                 ó  — |j                  «       }| j                  D ]  }| ||||«      }Œ ||«      }Œ | j                  '|| j                  |||«      }n| j                  |«      }| j                  || j                  ||¬«      z   }|S )áI  
        Forward pass through the upsampling block.

        Args:
            x (torch.Tensor): Input tensor
            feat_cache (list, optional): Feature cache for causal convolutions
            feat_idx (list, optional): Feature index for cache management

        Returns:
            torch.Tensor: Output tensor
        ©rK   )rŠ   rÇ   rö   rÓ   )r!   r%   r   r   rK   rÙ   rÍ   s          r#   r;   zWanResidualUpBlock.forwardª  sœ   € ð —‘“ˆà—l‘lò 	ˆFØÐ%Ù˜1˜j¨(Ó3‘á˜1“I‘ð		ð >‰>Ð%ØÐ%Ø—N‘N 1 j°(Ó;‘à—N‘N 1Ó%à×ÑÐ(ØD×%Ñ% f¸+Ð%ÓFÑFˆAàˆr$   )rc   FFr©   )r=   r>   r?   r\   rL   rs   ro   r—   r   r;   rB   rC   s   @r#   rò   rò   r  sp   ø„ ñð$ Ø"'ØØ#ñ(,àð(,ð ð(,ð ð	(,ð
 ð(,ð  ð(,ð ð(,ð õ(,ðT %)°A°3ÀE÷ r$   rò   c                   óZ   ‡ — e Zd ZdZ	 	 	 ddededededee   defˆ fd	„Zdd
gdfd„Z	ˆ xZ
S )Ú
WanUpBlockaŒ  
    A block that handles upsampling for the WanVAE decoder.

    Args:
        in_dim (int): Input dimension
        out_dim (int): Output dimension
        num_res_blocks (int): Number of residual blocks
        dropout (float): Dropout rate
        upsample_mode (str, optional): Mode for upsampling ('upsample2d' or 'upsample3d')
        non_linearity (str): Type of non-linearity to use
    Nrš   r›   rÕ   rœ   rø   r   c           	      óJ  •— t         ‰
|   «        || _        || _        g }|}t	        |dz   «      D ]!  }	|j                  t        ||||«      «       |}Œ# t        j                  |«      | _	        d | _
        |&t        j                  t        ||¬«      g«      | _
        d| _        y )Nr   rÒ   F)r   r   rš   r›   rÃ   rÄ   r™   re   rÅ   rÇ   Ú
upsamplersrv   rÈ   )r!   rš   r›   rÕ   rœ   rø   r   rÇ   r÷   rÉ   r"   s             €r#   r   zWanUpBlock.__init__×  s£   ø€ ô 	‰ÑÔØˆŒØˆŒð ˆàˆÜ~¨Ñ)Ó*ò 	"ˆAØN‰NÔ+¨K¸À'È=ÓYÔZØ!‰Kð	"ô —}‘} WÓ-ˆŒð ˆŒØÐ$Ü Ÿm™m¬[¸À}Ô-UÐ,VÓWˆDŒOà&+ˆÕ#r$   r   c                 óÊ   — | j                   D ]  }| ||||«      }Œ ||«      }Œ | j                  0| | j                  d   |||«      }|S  | j                  d   |«      }|S )rú   r   )rÇ   rÿ   )r!   r%   r   r   rK   rÍ   s         r#   r;   zWanUpBlock.forwardõ  s‚   € ð —l‘lò 	ˆFØÐ%Ù˜1˜j¨(Ó3‘á˜1“I‘ð		ð ?‰?Ð&ØÐ%Ø&D—O‘O AÑ& q¨*°hÓ?ð ˆð 'D—O‘O AÑ& qÓ)Øˆr$   )rc   Nr©   )r=   r>   r?   r\   rL   rs   r   r—   r   r;   rB   rC   s   @r#   rý   rý   Ê  sf   ø„ ñ
ð" Ø'+Ø#ñ,àð,ð ð,ð ð	,ð
 ð,ð   ‘}ð,ð õ,ð< %)°A°3ÀD÷ r$   rý   c            
       ó^   ‡ — e Zd ZdZddg d¢dg g d¢ddd	d
f
dededefˆ fd„Zddgd
fd„Zˆ xZ	S )ÚWanDecoder3dak  
    A 3D decoder module.

    Args:
        dim (int): The base number of channels in the first layer.
        z_dim (int): The dimensionality of the latent space.
        dim_mult (list of int): Multipliers for the number of channels in each block.
        num_res_blocks (int): Number of residual blocks in each block.
        attn_scales (list of float): Scales at which to apply attention mechanisms.
        temperal_upsample (list of bool): Whether to upsample temporally in each block.
        dropout (float): Dropout rate for the dropout layers.
        non_linearity (str): Type of non-linearity to use.
    rÜ   r*   rÝ   r   ©FTTrc   r©   r   Fr   r   rÞ   c           
      óþ  •— t         ‰|   «        || _        || _        || _        || _        || _        || _        t        |«      | _	        |d   g|d d d…   z   D cg c]  }||z  ‘Œ	 }}t        ||d   dd¬«      | _        t        |d   ||d¬«      | _        t        j                  g «      | _        t#        t%        |d d |dd  «      «      D ]}  \  }\  }}|dkD  r|
s|dz  }|t'        |«      dz
  k7  }d }|r||   rd}n|rd	}|
rt)        |||||r||   nd
||¬«      }nt+        ||||||¬«      }| j                   j-                  |«       Œ t/        d
¬«      | _        t        ||	dd¬«      | _        d
| _        y c c}w )Nrl   r   r   r   r}   rá   r   r~   rz   F)rš   r›   rÕ   rœ   ró   rô   r   )rš   r›   rÕ   rœ   rø   r   rŸ   )r   r   r-   râ   rã   rÕ   rä   ró   r   r    rN   rå   rÀ   ré   re   rÅ   Ú	up_blocksrç   rË   rè   rò   rý   rÄ   r^   rê   rë   rÈ   )r!   r-   râ   rã   rÕ   rä   ró   rœ   r   r   rÞ   rì   rí   rî   rš   r›   rô   rø   Úup_blockr"   s                      €r#   r   zWanDecoder3d.__init__  s¿  ø€ ô 	‰ÑÔØˆŒØˆŒ
Ø ˆŒØ,ˆÔØ&ˆÔØ!2ˆÔä*¨=Ó9ˆÔð #+¨2¡, °(¹4¸R¸4±.Ñ!@ÖA˜Aa“ÐAˆÐAô ' u¨d°1©g°qÀ!ÔDˆŒô % T¨!¡W¨g°}ÐQRÔSˆŒô Ÿ™ rÓ*ˆŒÜ$-¬c°$°s¸°)¸TÀ!À"¸XÓ.FÓ$Gò "	,Ñ ˆAÑ ˜à1Šu™[à 1™ð œ3˜x›=¨1Ñ,Ñ,ˆGà ˆMÙÐ,¨QÒ/Ø ,‘ÙØ ,áÜ-Ø!Ø#Ø#1Ø#Ù>EÐ&7¸Ò&:È5Ø#Ø"/ô‘ô &Ø!Ø#Ø#1Ø#Ø"/Ø"/ôð N‰N×!Ñ! (Õ+ðE"	,ôJ $ G°EÔ:ˆŒÜ'¨°¸qÈ!ÔLˆŒà&+ˆÕ#ùòe Bs   ÁE:Nr   c           	      óô  — |¿|d   }|d d …d d …t          d …d d …d d …f   j                  «       }|j                  d   dk  rY||   Tt        j                  ||   d d …d d …dd d …d d …f   j                  d«      j                  |j                  «      |gd¬«      }| j                  |||   «      }|||<   |dxx   dz  cc<   n| j                  |«      }| j                  |||«      }| j                  D ]  } |||||¬«      }Œ | j                  |«      }| j                  |«      }|À|d   }|d d …d d …t          d …d d …d d …f   j                  «       }|j                  d   dk  rY||   Tt        j                  ||   d d …d d …dd d …d d …f   j                  d«      j                  |j                  «      |gd¬«      }| j                  |||   «      }|||<   |dxx   dz  cc<   |S | j                  |«      }|S )Nr   r   rl   r,   r   rû   )r‰   rŠ   r.   r@   rY   r‹   rW   rX   rå   ré   r  rê   r    rë   )r!   r%   r   r   rK   r–   rZ   r  s           r#   r;   zWanDecoder3d.forwardj  s   € àÐ!Ø˜1‘+ˆCØšš1œw˜h™iªªAÐ-Ñ.×4Ñ4Ó6ˆGØ}‰}˜QÑ !Ò#¨
°3©Ð(CäŸ)™) Z°¡_²Qº¸2ºqÂ!°^Ñ%D×%NÑ%NÈqÓ%Q×%TÑ%TÐU\×UcÑUcÓ%dÐfmÐ$nÐtuÔvØ—‘˜Q 
¨3¡Ó0ˆAØ%ˆJs‰OØQ‹K˜1ÑŒKà—‘˜Q“ˆAð N‰N˜1˜j¨(Ó3ˆð Ÿ™ò 	KˆHÙ˜˜J¨¸kÔJ‰Að	Kð M‰M˜!ÓˆØ×Ñ˜aÓ ˆØÐ!Ø˜1‘+ˆCØšš1œw˜h™iªªAÐ-Ñ.×4Ñ4Ó6ˆGØ}‰}˜QÑ !Ò#¨
°3©Ð(CäŸ)™) Z°¡_²Qº¸2ºqÂ!°^Ñ%D×%NÑ%NÈqÓ%Q×%TÑ%TÐU\×UcÑUcÓ%dÐfmÐ$nÐtuÔvØ—‘˜a ¨C¡Ó1ˆAØ%ˆJs‰OØQ‹K˜1Ñ‹Kð ˆð —‘˜aÓ ˆAØˆr$   )
r=   r>   r?   r\   r—   rL   ro   r   r;   rB   rC   s   @r#   r  r    s`   ø„ ñð  ØÚØØÚ-ØØ#ØØ!ñJ,ð ðJ,ð ðJ,ð õJ,ðX %)°A°3ÀE÷ #r$   r  c           	      óž  — |dk(  r| S | j                  «       dk7  rt        d| j                  › «      ‚| j                  \  }}}}}||z  dk7  s||z  dk7  rt        d|› d|› d|› d«      ‚| j                  |||||z  |||z  |«      } | j	                  ddd	d
ddd«      j                  «       } | j                  |||z  |z  |||z  ||z  «      } | S )Nr   r(   úInvalid input shape: r   zHeight (z) and width (z#) must be divisible by patch_size (ú)r+   r*   r   r   ©r-   Ú
ValueErrorr.   r1   r2   r3   )r%   Ú
patch_sizer¶   r·   Úframesr¹   rº   s          r#   Úpatchifyr    s  € ØQ‚Øˆà‡uuƒw!‚|ÜÐ0°·±°	Ð:Ó;Ð;à23·'±'Ñ/€J˜& &¨%ð 
Ñ˜aÒ 5¨:Ñ#5¸Ò#:Ü˜8 F 8¨=¸¸Ð?bÐcmÐbnÐnoÐpÓqÐqð 	
‰ˆz˜8 V¨V°zÑ-AÀ:ÈuÐXbÑObÐdnÓo€Að 	
	‰	!Q˜˜1˜a  AÓ&×1Ñ1Ó3€AØ	‰ˆz˜8 jÑ0°:Ñ=¸vÀvÐQ[ÑG[Ð]bÐfpÑ]pÓq€Aà€Hr$   c           	      óL  — |dk(  r| S | j                  «       dk7  rt        d| j                  › «      ‚| j                  \  }}}}}|||z  z  }| j                  |||||||«      } | j	                  ddddddd«      j                  «       } | j                  |||||z  ||z  «      } | S )	Nr   r(   r	  r   r*   r   r+   r   r  )r%   r  r¶   Ú	c_patchesr  r¹   rº   r·   s           r#   Ú
unpatchifyr  §  s»   € ØQ‚Øˆà‡uuƒw!‚|ÜÐ0°·±°	Ð:Ó;Ð;à34·7±7Ñ0€J	˜6 6¨5Ø˜Z¨*Ñ4Ñ5€Hð 	
‰ˆz˜8 Z°¸VÀVÈUÓS€Að 	
	‰	!Q˜˜1˜a  AÓ&×1Ñ1Ó3€AØ	‰ˆz˜8 V¨V°jÑ-@À%È*ÑBTÓU€Aà€Hr$   c            $       óœ  ‡ — e Zd ZdZdZedddg d¢dg g d¢d	g d
¢g d¢ddddddfdedee   dedee   dede	e
   de	e   de
de	e
   de	e
   dedededee   dee   dee   ddf"ˆ fd „«       Z	 	 	 	 d<d!ee   d"ee   d#ee
   d$ee
   ddf
d%„Zd=d&„Zd=d'„Zd=d(„Zd)„ Zd*ej&                  fd+„Ze	 d>d*ej&                  d,edeeee   f   fd-„«       Zd>d.ej&                  d,efd/„Zed>d.ej&                  d,edeeej&                  f   fd0„«       Zd1ej&                  d2ej&                  d3edej&                  fd4„Zd1ej&                  d2ej&                  d3edej&                  fd5„Zd*ej&                  defd6„Zd>d.ej&                  d,edeeej&                  f   fd7„Z 	 	 	 d?d8ej&                  d9ed,ed:eejB                     deeej&                  f   f
d;„Z"ˆ xZ#S )@ÚAutoencoderKLWana;  
    A VAE model with KL loss for encoding videos into latents and decoding latent representations into videos.
    Introduced in [Wan 2.1].

    This model inherits from [`ModelMixin`]. Check the superclass documentation for it's generic methods implemented
    for all models (such as downloading or saving).
    Fé`   Né   rÝ   r   r  rc   )gµ¦yÇ):è¿gM„O¯æ¿gšž^)í¿g…ëQ¸…»?g¼t“VÆ¿gˆ…ZÓ¼ãî?gBÏfÕçjÃ¿gU0*©Ðø?gL¦
F%uÚ?gçû©ñÒM²¿g€&Â†§á?g‘z6«>×¿gF%ušÈ¿gÀ[ Añcî¿gMŒJêÐ?g¨WÊ2Ä±Ò¿)g_˜LŒ@gNÑ‘\þC÷?g…ëQ¸ž@g¼?@gÁ9#J{ƒó?gÚ|a2Uü?gHPüs×@g¾0™*˜ @gJ{ƒ/L&
@gñôJY†8@g]þCúíë@g°çŒ(íø?gKê46ú?gS£’:ò?gÒo_Î™@g-²ï§þ?r   r*   é   Úbase_dimÚdecoder_base_dimrâ   rã   rÕ   rä   rÖ   rœ   Úlatents_meanÚlatents_stdrÞ   r   r   r  Úscale_factor_temporalÚscale_factor_spatialr&   c                 ó¬  •— t         ‰|   «        || _        || _        |d d d…   | _        |€|}t        |||dz  ||||||¬«	      | _        t        |dz  |dz  d«      | _        t        ||d«      | _	        t        |||||| j                  |||¬«	      | _        dt        | j                  «      z  | _        d| _        d| _        d| _        d| _        d| _        d| _        | j                  *t)        d	„ | j                  j+                  «       D «       «      nd
| j                  *t)        d„ | j                  j+                  «       D «       «      nd
dœ| _        y )Nrl   r   )	r   r-   râ   rã   rÕ   rä   rÖ   rœ   rÞ   r   )	r-   râ   rã   rÕ   rä   ró   rœ   r   rÞ   Fé   éÀ   c              3   ó<   K  — | ]  }t        |t        «      –— Œ y ­wr[   ©Ú
isinstancerN   ©Ú.0Úms     r#   ú	<genexpr>z,AutoencoderKLWan.__init__.<locals>.<genexpr>4  ó   è ø€ ÒZ¸aœ: a¬×9ÑZùó   ‚r   c              3   ó<   K  — | ]  }t        |t        «      –— Œ y ­wr[   r"  r$  s     r#   r'  z,AutoencoderKLWan.__init__.<locals>.<genexpr>7  r(  r)  )ÚdecoderÚencoder)r   r   râ   rÖ   ró   rÛ   r,  rN   Ú
quant_convÚpost_quant_convr  r+  rè   Úspatial_compression_ratioÚuse_slicingÚ
use_tilingÚtile_sample_min_heightÚtile_sample_min_widthÚtile_sample_stride_heightÚtile_sample_stride_widthÚsumÚmodulesÚ_cached_conv_counts)r!   r  r  râ   rã   rÕ   rä   rÖ   rœ   r  r  rÞ   r   r   r  r  r  r"   s                    €r#   r   zAutoencoderKLWan.__init__Æ  sq  ø€ ôl 	‰ÑÔàˆŒ
Ø#6ˆÔ Ø!4±T°r°TÑ!:ˆÔàÐ#Ø'Ðä#Ø#ØØ˜!‘)ØØ)Ø#Ø 3ØØ#ô

ˆŒô *¨%°!©)°U¸Q±YÀÓBˆŒÜ.¨u°e¸QÓ?ˆÔä#Ø ØØØ)Ø#Ø"×4Ñ4ØØ%Ø#ô

ˆŒð *+¬c°$×2JÑ2JÓ.KÑ)KˆÔ&ð !ˆÔð
  ˆŒð '*ˆÔ#Ø%(ˆÔ"ð *-ˆÔ&Ø(+ˆÔ%ð
 |‰|Ð'ô ÑZÀ4Ç<Á<×CWÑCWÓCYÔZÔZàà|‰|Ð'ô ÑZÀ4Ç<Á<×CWÑCWÓCYÔZÔZàñ$
ˆÕ r$   r2  r3  r4  r5  c                 óº   — d| _         |xs | j                  | _        |xs | j                  | _        |xs | j                  | _        |xs | j                  | _        y)aX  
        Enable tiled VAE decoding. When this option is enabled, the VAE will split the input tensor into tiles to
        compute decoding and encoding in several steps. This is useful for saving a large amount of memory and to allow
        processing larger images.

        Args:
            tile_sample_min_height (`int`, *optional*):
                The minimum height required for a sample to be separated into tiles across the height dimension.
            tile_sample_min_width (`int`, *optional*):
                The minimum width required for a sample to be separated into tiles across the width dimension.
            tile_sample_stride_height (`int`, *optional*):
                The minimum amount of overlap between two consecutive vertical tiles. This is to ensure that there are
                no tiling artifacts produced across the height dimension.
            tile_sample_stride_width (`int`, *optional*):
                The stride between two consecutive horizontal tiles. This is to ensure that there are no tiling
                artifacts produced across the width dimension.
        TN)r1  r2  r3  r4  r5  )r!   r2  r3  r4  r5  s        r#   Úenable_tilingzAutoencoderKLWan.enable_tiling<  sW   € ð0 ˆŒØ&<Ò&[À×@[Ñ@[ˆÔ#Ø%:Ò%X¸d×>XÑ>XˆÔ"Ø)BÒ)dÀd×FdÑFdˆÔ&Ø(@Ò(aÀD×DaÑDaˆÕ%r$   c                 ó   — d| _         y)zœ
        Disable tiled VAE decoding. If `enable_tiling` was previously enabled, this method will go back to computing
        decoding in one step.
        FN)r1  ©r!   s    r#   Údisable_tilingzAutoencoderKLWan.disable_tilingZ  s   € ð
  ˆr$   c                 ó   — d| _         y)zç
        Enable sliced VAE decoding. When this option is enabled, the VAE will split the input tensor in slices to
        compute decoding in several steps. This is useful to save some memory and allow larger batch sizes.
        TN©r0  r<  s    r#   Úenable_slicingzAutoencoderKLWan.enable_slicinga  s   € ð
  ˆÕr$   c                 ó   — d| _         y)zž
        Disable sliced VAE decoding. If `enable_slicing` was previously enabled, this method will go back to computing
        decoding in one step.
        FNr?  r<  s    r#   Údisable_slicingz AutoencoderKLWan.disable_slicingh  s   € ð
 !ˆÕr$   c                 óÈ   — | j                   d   | _        dg| _        d g| j                  z  | _        | j                   d   | _        dg| _        d g| j                  z  | _        y )Nr+  r   r,  )r8  Ú	_conv_numÚ	_conv_idxÚ	_feat_mapÚ_enc_conv_numÚ_enc_conv_idxÚ_enc_feat_mapr<  s    r#   Úclear_cachezAutoencoderKLWan.clear_cacheo  sa   € à×1Ñ1°)Ñ<ˆŒØ˜ˆŒØ˜ $§.¡.Ñ0ˆŒà!×5Ñ5°iÑ@ˆÔØ˜SˆÔØ"˜V d×&8Ñ&8Ñ8ˆÕr$   r%   c           
      óø  — |j                   \  }}}}}| j                  r/|| j                  kD  s|| j                  kD  r| j	                  |«      S | j                  «        | j                  j                  !t        || j                  j                  ¬«      }d|dz
  dz  z   }t        |«      D ]«  }dg| _
        |dk(  r;| j                  |d d …d d …d d…d d …d d …f   | j                  | j                  ¬«      }ŒK| j                  |d d …d d …dd|dz
  z  z   dd|z  z   …d d …d d …f   | j                  | j                  ¬«      }	t        j                  |	gd«      }Œ­ | j                  «      }
| j                  «        |
S )N©r  r   r*   r   ©r   r   r   )r.   r1  r3  r2  Útiled_encoderJ  Úconfigr  r  rÃ   rH  r,  rI  r@   rY   r-  )r!   r%   rÉ   Ú	num_framer¹   rº   Úiter_rî   ÚoutÚout_Úencs              r#   Ú_encodezAutoencoderKLWan._encodey  sm  € Ø)*¯©Ñ&ˆˆ1ˆi˜ à?Š? ¨×(BÑ(BÒ BÀfÈt×OjÑOjÒFjØ×$Ñ$ QÓ'Ð'à×ÑÔØ;‰;×!Ñ!Ð-Ü˜ t§{¡{×'=Ñ'=Ô>ˆAØY ‘] qÑ(Ñ(ˆÜu“ò 
	0ˆAØ"# ˆDÔØAŠvØ—l‘l 1¢Qª¨2¨A¨2ªq²! ^Ñ#4À×ASÑASÐ^b×^pÑ^plÓq‘à—|‘|Ø’aš˜A  Q¨¡U¡™O¨a°!°a±%©iÐ7ººAÐ=Ñ>Ø#×1Ñ1Ø!×/Ñ/ð $ó ô
 —i‘i  d ¨QÓ/‘ð
	0ð o‰o˜cÓ"ˆØ×ÑÔØˆ
r$   Úreturn_dictc                 ó(  — | j                   rU|j                  d   dkD  rC|j                  d«      D cg c]  }| j                  |«      ‘Œ }}t	        j
                  |«      }n| j                  |«      }t        |«      }|s|fS t        |¬«      S c c}w )a  
        Encode a batch of images into latents.

        Args:
            x (`torch.Tensor`): Input batch of images.
            return_dict (`bool`, *optional*, defaults to `True`):
                Whether to return a [`~models.autoencoder_kl.AutoencoderKLOutput`] instead of a plain tuple.

        Returns:
                The latent representations of the encoded videos. If `return_dict` is True, a
                [`~models.autoencoder_kl.AutoencoderKLOutput`] is returned, otherwise a plain `tuple` is returned.
        r   r   )Úlatent_dist)r0  r.   ÚsplitrU  r@   rY   r   r   )r!   r%   rV  Úx_sliceÚencoded_slicesr”   Ú	posteriors          r#   ÚencodezAutoencoderKLWan.encode“  s€   € ð  ×Ò §¡¨¡
¨Q¢ØCDÇ7Á7È1Ã:ÖN¸˜dŸl™l¨7Õ3ÐNˆNÐNÜ—	‘	˜.Ó)‰Aà—‘˜Q“ˆAÜ0°Ó3ˆ	áØ<ÐÜ"¨yÔ9Ð9ùò Os   ²BÚzc           
      ó`  — |j                   \  }}}}}| j                  | j                  z  }| j                  | j                  z  }| j                  r||kD  s||kD  r| j                  ||¬«      S | j                  «        | j                  |«      }	t        |«      D ]£  }
dg| _	        |
dk(  r?| j                  |	d d …d d …|
|
dz   …d d …d d …f   | j                  | j                  d¬«      }ŒO| j                  |	d d …d d …|
|
dz   …d d …d d …f   | j                  | j                  ¬«      }t        j                  |gd«      }Œ¥ | j                  j                  !t!        | j                  j                  ¬«      }t        j"                  d	d
¬«      }| j                  «        |s|fS t%        |¬«      S )N©rV  r   r   T)r   r   rK   rM  r   rL  g      ð¿rà   )ÚminÚmax©Úsample)r.   r2  r/  r3  r1  Útiled_decoderJ  r.  rÃ   rE  r+  rF  r@   rY   rO  r  r  Úclampr   )r!   r^  rV  rÉ   rP  r¹   rº   Útile_latent_min_heightÚtile_latent_min_widthr%   rî   rR  rS  s                r#   Ú_decodezAutoencoderKLWan._decode®  s™  € Ø)*¯©Ñ&ˆˆ1ˆi˜ Ø!%×!<Ñ!<À×@^Ñ@^Ñ!^ÐØ $× :Ñ :¸d×>\Ñ>\Ñ \Ðà?Š? Ð(=Ò =ÀÐJ`ÒA`Ø×$Ñ$ Q°KÐ$Ó@Ð@à×ÑÔØ× Ñ  Ó#ˆÜyÓ!ò 	0ˆAØ˜SˆDŒNØAŠvØ—l‘lØ’aš˜A  A¡˜I¢qª!Ð+Ñ,¸¿¹ÐRV×R`ÑR`Ðnrð #ó ‘ð —|‘| A¢aª¨A°°A±¨I²qº!Ð&;Ñ$<ÈÏÉÐbf×bpÑbp|ÓqÜ—i‘i  d ¨QÓ/‘ð	0ð ;‰;×!Ñ!Ð-Ü˜S¨T¯[©[×-CÑ-CÔDˆCäk‰k˜# 4¨SÔ1ˆà×ÑÔÙØ6ˆMä CÔ(Ð(r$   c                 ó:  — | j                   r_|j                  d   dkD  rM|j                  d«      D cg c]  }| j                  |«      j                  ‘Œ }}t        j                  |«      }n| j                  |«      j                  }|s|fS t        |¬«      S c c}w )aë  
        Decode a batch of images.

        Args:
            z (`torch.Tensor`): Input batch of latent vectors.
            return_dict (`bool`, *optional*, defaults to `True`):
                Whether to return a [`~models.vae.DecoderOutput`] instead of a plain tuple.

        Returns:
            [`~models.vae.DecoderOutput`] or `tuple`:
                If return_dict is True, a [`~models.vae.DecoderOutput`] is returned, otherwise a plain `tuple` is
                returned.
        r   r   rc  )r0  r.   rY  ri  rd  r@   rY   r   )r!   r^  rV  Úz_sliceÚdecoded_slicesÚdecodeds         r#   ÚdecodezAutoencoderKLWan.decodeÍ  sƒ   € ð ×Ò §¡¨¡
¨Q¢ØJKÏ'É'ÐRSË*ÖU¸w˜dŸl™l¨7Ó3×:Ó:ÐUˆNÐUÜ—i‘i Ó/‰Gà—l‘l 1“o×,Ñ,ˆGáØ:ÐÜ GÔ,Ð,ùò Vs   ²"BÚar‘   Úblend_extentc           	      ó  — t        |j                  d   |j                  d   |«      }t        |«      D ]J  }|d d …d d …d d …| |z   d d …f   d||z  z
  z  |d d …d d …d d …|d d …f   ||z  z  z   |d d …d d …d d …|d d …f<   ŒL |S )Néþÿÿÿr   ©ra  r.   rÃ   )r!   ro  r‘   rp  Úys        r#   Úblend_vzAutoencoderKLWan.blend_væ  s    € Ü˜1Ÿ7™7 2™;¨¯©°©°\ÓBˆÜ|Ó$ò 	ˆAØ ¢¢A¢q¨<¨-¸!Ñ*;ºQÐ!>Ñ?À1ÀqÈ<ÑGWÑCWÑXÐ[\Ò]^Ò`aÒcdÐfgÒijÐ]jÑ[kØLÑ ñ\ñ  ˆAŠa’’Aqš!ˆmÒð	ð ˆr$   c                 ó  — t        |j                  d   |j                  d   |«      }t        |«      D ]J  }|d d …d d …d d …d d …| |z   f   d||z  z
  z  |d d …d d …d d …d d …|f   ||z  z  z   |d d …d d …d d …d d …|f<   ŒL |S )Nrl   r   rs  )r!   ro  r‘   rp  r%   s        r#   Úblend_hzAutoencoderKLWan.blend_hî  s    € Ü˜1Ÿ7™7 2™;¨¯©°©°\ÓBˆÜ|Ó$ò 	ˆAØ ¢¢A¢qª!¨l¨]¸QÑ->Ð!>Ñ?À1ÀqÈ<ÑGWÑCWÑXÐ[\Ò]^Ò`aÒcdÒfgÐijÐ]jÑ[kØLÑ ñ\ñ  ˆAŠa’’A’q˜!ˆmÒð	ð ˆr$   c                 óæ  — |j                   \  }}}}}|| j                  z  }|| j                  z  }| j                  | j                  z  }| j                  | j                  z  }	| j                  | j                  z  }
| j
                  | j                  z  }||
z
  }|	|z
  }g }t        d|| j                  «      D ]J  }g }t        d|| j
                  «      D ]  }| j                  «        g }d|dz
  dz  z   }t        |«      D ]Å  }dg| _        |dk(  r/|dd…dd…dd…||| j                  z   …||| j                  z   …f   }n=|dd…dd…dd|dz
  z  z   dd|z  z   …||| j                  z   …||| j                  z   …f   }| j                  || j                  | j                  ¬«      }| j                  |«      }|j                  |«       ŒÇ |j                  t        j                  |d¬«      «       Œ |j                  |«       ŒM | j                  «        g }t        |«      D ]¢  \  }}g }t        |«      D ]g  \  }}|dkD  r| j!                  ||dz
     |   ||«      }|dkD  r| j#                  ||dz
     ||«      }|j                  |dd…dd…dd…d|
…d|…f   «       Œi |j                  t        j                  |d¬«      «       Œ¤ t        j                  |d	¬«      dd…dd…dd…d|…d|…f   }|S )
zíEncode a batch of images using a tiled encoder.

        Args:
            x (`torch.Tensor`): Input batch of videos.

        Returns:
            `torch.Tensor`:
                The latent representation of the encoded videos.
        r   r   r*   NrM  r   r,   rl   r   )r.   r/  r2  r3  r4  r5  rÃ   rJ  rH  r,  rI  r-  rÄ   r@   rY   rç   ru  rw  )r!   r%   rÉ   Ú
num_framesr¹   rº   Úlatent_heightÚlatent_widthrg  rh  Útile_latent_stride_heightÚtile_latent_stride_widthÚblend_heightÚblend_widthÚrowsrî   ÚrowÚjr¸   Úframe_ranger½   ÚtileÚresult_rowsÚ
result_rowrT  s                            r#   rN  zAutoencoderKLWan.tiled_encodeö  s9  € ð +,¯'©'Ñ'ˆˆ1ˆj˜& %Ø $×"@Ñ"@Ñ@ˆØ × >Ñ >Ñ>ˆà!%×!<Ñ!<À×@^Ñ@^Ñ!^ÐØ $× :Ñ :¸d×>\Ñ>\Ñ \ÐØ$(×$BÑ$BÀd×FdÑFdÑ$dÐ!Ø#'×#@Ñ#@ÀD×DbÑDbÑ#bÐ à-Ð0IÑIˆØ+Ð.FÑFˆð ˆÜq˜& $×"@Ñ"@ÓAó 	ˆAØˆCÜ˜1˜e T×%BÑ%BÓCó 3Ø× Ñ Ô"ØØ :°¡>°aÑ"7Ñ7Ü˜{Ó+ò &AØ*+¨DÔ&Ø˜A’vØ ¢¢A r¨ r¨1¨q°4×3NÑ3NÑ/NÐ+NÐPQÐTUÐX\×XrÑXrÑTrÐPrÐ!rÑs™à ÚÚØ  Q¨¡U¡™O¨a°!°a±%©iÐ7Ø  D×$?Ñ$?Ñ ?Ð?Ø  D×$>Ñ$>Ñ >Ð>ð	@ñ ˜ð  Ÿ<™<¨¸×9KÑ9KÐVZ×VhÑVh˜<ÓiDØŸ?™?¨4Ó0DØ—K‘K Õ%ð&ð —
‘
œ5Ÿ9™9 T¨qÔ1Ö2ð'3ð( K‰K˜Öð-	ð. 	×ÑÔàˆÜ “oò 
	>‰FˆAˆsØˆJÜ$ S›>ò h‘4ð q’5ØŸ<™<¨¨Q°©U©°A©¸¸lÓKDØq’5ØŸ<™<¨¨A°©E©
°D¸+ÓFDØ×!Ñ! $¢qª!ªQÐ0JÐ1JÐ0JÐLeÐMeÐLeÐ'eÑ"fÕgðhð ×ÑœuŸy™y¨¸Ô<Õ=ð
	>ô i‰i˜¨Ô+ªAªq²!°^°m°^À]ÀlÀ]Ð,RÑSˆØˆ
r$   c                 óŽ  — |j                   \  }}}}}|| j                  z  }|| j                  z  }| j                  | j                  z  }	| j                  | j                  z  }
| j                  | j                  z  }| j
                  | j                  z  }| j                  | j                  z
  }| j                  | j
                  z
  }g }t        d||«      D ]Þ  }g }t        d||«      D ]¹  }| j                  «        g }t        |«      D ]q  }dg| _        |dd…dd…||dz   …|||	z   …|||
z   …f   }| j                  |«      }| j                  || j                  | j                  ¬«      }|j                  |«       Œs |j                  t        j                  |d¬«      «       Œ» |j                  |«       Œà | j                  «        g }t        |«      D ]¶  \  }}g }t        |«      D ]{  \  }}|dkD  r| j!                  ||dz
     |   ||«      }|dkD  r| j#                  ||dz
     ||«      }|j                  |dd…dd…dd…d| j                  …d| j
                  …f   «       Œ} |j                  t        j                  |d¬«      «       Œ¸ t        j                  |d¬«      dd…dd…dd…d|…d|…f   }|s|fS t%        |¬	«      S )
a  
        Decode a batch of images using a tiled decoder.

        Args:
            z (`torch.Tensor`): Input batch of latent vectors.
            return_dict (`bool`, *optional*, defaults to `True`):
                Whether or not to return a [`~models.vae.DecoderOutput`] instead of a plain tuple.

        Returns:
            [`~models.vae.DecoderOutput`] or `tuple`:
                If return_dict is True, a [`~models.vae.DecoderOutput`] is returned, otherwise a plain `tuple` is
                returned.
        r   Nr   rM  r   r,   rl   r   rc  )r.   r/  r2  r3  r4  r5  rÃ   rJ  rE  r.  r+  rF  rÄ   r@   rY   rç   ru  rw  r   )r!   r^  rV  rÉ   ry  r¹   rº   Úsample_heightÚsample_widthrg  rh  r|  r}  r~  r  r€  rî   r  r‚  r¸   r½   r„  rm  r…  r†  Údecs                             r#   re  zAutoencoderKLWan.tiled_decode8  sã  € ð +,¯'©'Ñ'ˆˆ1ˆj˜& %Ø ×!?Ñ!?Ñ?ˆØ˜t×=Ñ=Ñ=ˆà!%×!<Ñ!<À×@^Ñ@^Ñ!^ÐØ $× :Ñ :¸d×>\Ñ>\Ñ \ÐØ$(×$BÑ$BÀd×FdÑFdÑ$dÐ!Ø#'×#@Ñ#@ÀD×DbÑDbÑ#bÐ à×2Ñ2°T×5SÑ5SÑSˆØ×0Ñ0°4×3PÑ3PÑPˆð ˆÜq˜&Ð";Ó<ò 	ˆAØˆCÜ˜1˜eÐ%=Ó>ò 	3Ø× Ñ Ô"ØÜ˜zÓ*ò )AØ&' SD”NØšQ¢ 1 q¨1¡u 9¨a°!Ð6LÑ2LÐ.LÈaÐRSÐVkÑRkÐNkÐkÑlDØ×/Ñ/°Ó5DØ"Ÿl™l¨4¸D¿N¹NÐUY×UcÑUc˜lÓdGØ—K‘K Õ(ð)ð —
‘
œ5Ÿ9™9 T¨qÔ1Õ2ð	3ð K‰K˜Õð	ð 	×ÑÔàˆÜ “oò 
	>‰FˆAˆsØˆJÜ$ S›>ò t‘4ð q’5ØŸ<™<¨¨Q°©U©°A©¸¸lÓKDØq’5ØŸ<™<¨¨A°©E©
°D¸+ÓFDØ×!Ñ! $¢qª!ªQÐ0P°$×2PÑ2PÐ0PÐRqÐTX×TqÑTqÐRqÐ'qÑ"rÕsðtð ×ÑœuŸy™y¨¸Ô<Õ=ð
	>ô i‰i˜¨Ô+ªAªq²!°^°m°^À]ÀlÀ]Ð,RÑSˆáØ6ˆMÜ CÔ(Ð(r$   rd  Úsample_posteriorÚ	generatorc                 ó°   — |}| j                  |«      j                  }|r|j                  |¬«      }n|j                  «       }| j	                  ||¬«      }|S )zã
        Args:
            sample (`torch.Tensor`): Input sample.
            return_dict (`bool`, *optional*, defaults to `True`):
                Whether or not to return a [`DecoderOutput`] instead of a plain tuple.
        )rŒ  r`  )r]  rX  rd  rw   rn  )	r!   rd  r‹  rV  rŒ  r%   r\  r^  rŠ  s	            r#   r;   zAutoencoderKLWan.forwardw  sU   € ð ˆØ—K‘K “N×.Ñ.ˆ	ÙØ× Ñ ¨9Ð Ó5‰Aà—‘Ó ˆAØk‰k˜!¨ˆkÓ5ˆØˆ
r$   )NNNN)r&   N)T)FTN)$r=   r>   r?   r\   Ú _supports_gradient_checkpointingr	   rL   r   r   r   rs   ro   r   r:  r=  r@  rB  rJ  r@   rA   rU  r   r   r   r   r]  ri  r   rn  ru  rw  rN  re  Ú	Generatorr;   rB   rC   s   @r#   r  r  »  s`  ø„ ñð (-Ð$àð Ø*.ØÚ+ØØ#%Ú*=Øò%
ò$$
ð$ "ØØØ$(Ø/0Ø./ñgs
àðs
ð # 3™-ðs
ð ð	s
ð
 ˜‘*ðs
ð ðs
ð ˜%‘[ðs
ð " $™Zðs
ð ðs
ð ˜5‘kðs
ð8 ˜%‘[ð9s
ð\ ð]s
ð^ ð_s
ð` ðas
ðb ˜S‘Mðcs
ðd  (¨™}ðes
ðf ' s™mðgs
ðh 
ôis
ó ðs
ðn 15Ø/3Ø59Ø48ñbà (¨¡ðbð  (¨™}ðbð $,¨E¡?ð	bð
 #+¨5¡/ðbð 
óbó< ó ó!ò9ð˜Ÿ™ó ð4 à37ñ:Ø—‘ð:Ø,0ð:à	Ð" EÐ*FÑ$GÐGÑ	Hò:ó ð:ñ4)˜Ÿ™ð )°Dó )ð> ñ-˜Ÿ™ð -°4ð -À5ÈÐX]×XdÑXdÐIdÑCeò -ó ð-ð0˜Ÿ™ð ¨%¯,©,ð Àcð ÈeÏlÉló ð˜Ÿ™ð ¨%¯,©,ð Àcð ÈeÏlÉló ð@˜eŸl™lð @Ð/Bó @ñD=)˜eŸl™lð =)¸ð =)ÈÈ}Ð^c×^jÑ^jÐOjÑIkó =)ðD "'Ø Ø/3ñà—‘ðð ðð ð	ð
 ˜EŸO™OÑ,ðð 
ˆ}˜eŸl™lÐ*Ñ	+÷r$   r  )6Útypingr   r   r   r   r@   Útorch.nnre   Útorch.nn.functionalÚ
functionalr/   Útorch.utils.checkpointÚconfiguration_utilsr   r	   Úloadersr
   Úutilsr   Úutils.accelerate_utilsr   Úactivationsr   Úmodeling_outputsr   Úmodeling_utilsr   Úvaer   r   Ú
get_loggerr=   Úloggerr‰   ÚModuler   rE   ÚConv3drN   r^   ÚUpsamplerq   rv   r™   r¬   rÀ   rÏ   rÛ   rò   rý   r  r  r  r  © r$   r#   ú<module>r£     sd  ð÷ 0Ó /ã Ý ß Ð Û ç BÝ -Ý Ý 8Ý (Ý 2Ý 'ß <ð 
ˆ×	Ñ	˜HÓ	%€à
€ô2—	‘	ô 2ôj)ˆbi‰iô )ôX*"b—i‘iô *"ôZk"—)‘)ô kô45"—+‘+ô 5ôX"—)‘)ô XôvGr—y‘yô GôT*˜Ÿ	™	ô *ôZ$"—)‘)ô $ôN!-˜2Ÿ9™9ô !-ôHv2—9‘9ô vôrU˜Ÿ™ô UôpB—‘ô BôJ~2—9‘9ô ~òBò.ô(Pz ;Ð0Fõ Pr$   