Ë
    ¢Ùbij  ã                   óÊ  — d dl mZmZmZ d dlZd dlZd dlmZ d dlmZ d dl	m
Z d dlmZmZmZ d dlmZmZ d dlmZmZmZmZmZ d d	lmZ d d
lmZmZ  ej<                  e«      Z  G d„ dejB                  «      Z" G d„ dejB                  «      Z# G d„ dejB                  «      Z$ G d„ dejB                  «      Z% G d„ dejB                  «      Z& G d„ de«      Z' G d„ de«      Z(y)é    )ÚOptionalÚTupleÚUnionN)Únn)ÚBertTokenizer)ÚQuickGELUActivation)Ú)BaseModelOutputWithPastAndCrossAttentionsÚBaseModelOutputWithPoolingÚ,BaseModelOutputWithPoolingAndCrossAttentions)ÚBlip2ConfigÚBlip2VisionConfig)ÚBlip2EncoderÚBlip2PreTrainedModelÚBlip2QFormerAttentionÚBlip2QFormerIntermediateÚBlip2QFormerOutput)Úapply_chunking_to_forward)ÚloggingÚreplace_return_docstringsc                   ó2   ‡ — e Zd ZdZˆ fd„Z	 	 	 	 dd„Zˆ xZS )ÚBlip2TextEmbeddingsz;Construct the embeddings from word and position embeddings.c                 óL  •— t         ‰|   «        t        j                  |j                  |j
                  |j                  ¬«      | _        t        j                  |j                  |j
                  «      | _	        t        j                  |j
                  |j                  ¬«      | _
        t        j                  |j                  «      | _        | j                  dt!        j"                  |j                  «      j%                  d«      «       t'        |dd«      | _        || _        y )N)Úpadding_idx©ÚepsÚposition_ids)é   éÿÿÿÿÚposition_embedding_typeÚabsolute)ÚsuperÚ__init__r   Ú	EmbeddingÚ
vocab_sizeÚhidden_sizeÚpad_token_idÚword_embeddingsÚmax_position_embeddingsÚposition_embeddingsÚ	LayerNormÚlayer_norm_epsÚDropoutÚhidden_dropout_probÚdropoutÚregister_bufferÚtorchÚarangeÚexpandÚgetattrr   Úconfig©Úselfr4   Ú	__class__s     €úl/home/cdr/jupyterlab/.venv/lib/python3.12/site-packages/diffusers/pipelines/blip_diffusion/modeling_blip2.pyr"   zBlip2TextEmbeddings.__init__2   sÓ   ø€ Ü‰ÑÔÜ!Ÿ|™|¨F×,=Ñ,=¸v×?QÑ?QÐ_e×_rÑ_rÔsˆÔÜ#%§<¡<°×0NÑ0NÐPV×PbÑPbÓ#cˆÔ ô Ÿ™ f×&8Ñ&8¸f×>SÑ>SÔTˆŒÜ—z‘z &×"<Ñ"<Ó=ˆŒð 	×Ñ˜^¬U¯\©\¸&×:XÑ:XÓ-Y×-`Ñ-`ÐahÓ-iÔjÜ'.¨vÐ7PÐR\Ó']ˆÔ$àˆó    c                 óð  — ||j                  «       d   }nd}|€&| j                  d d …|||z   …f   j                  «       }|t| j                  |«      }| j                  dk(  r| j                  |«      }||z   }|>|j                  d   }|j                  |dd«      }t        j                  ||fd¬«      }n|}|j                  |j                  «      }| j                  |«      }| j                  |«      }|S )Nr   r   r    ©Údim)Úsizer   Úcloner'   r   r)   ÚshapeÚrepeatr0   ÚcatÚtoÚdtyper*   r.   )	r6   Ú	input_idsr   Úquery_embedsÚpast_key_values_lengthÚ
seq_lengthÚ
embeddingsr)   Ú
batch_sizes	            r8   ÚforwardzBlip2TextEmbeddings.forwardB   s
  € ð Ð Ø"Ÿ™Ó)¨!Ñ,‰JàˆJàÐØ×,Ñ,ªQÐ0FÈÐVlÑIlÐ0lÐ-lÑm×sÑsÓuˆLàÐ Ø×-Ñ-¨iÓ8ˆJØ×+Ñ+¨zÒ9Ø&*×&>Ñ&>¸|Ó&LÐ#Ø'Ð*=Ñ=
àÐ'Ø'×-Ñ-¨aÑ0
à+×2Ñ2°:¸qÀ!ÓDÜ"ŸY™Y¨°jÐ'AÀqÔI‘
à%ˆJØ—]‘] <×#5Ñ#5Ó6ˆ
Ø—^‘^ JÓ/ˆ
Ø—\‘\ *Ó-ˆ
ØÐr9   )NNNr   )Ú__name__Ú
__module__Ú__qualname__Ú__doc__r"   rJ   Ú__classcell__©r7   s   @r8   r   r   /   s   ø„ ÙEôð$ ØØØ ÷r9   r   c                   ó\   ‡ — e Zd Zdefˆ fd„Zdej                  dej                  fd„Zˆ xZS )ÚBlip2VisionEmbeddingsr4   c                 ór  •— t         ‰|   «        || _        |j                  | _        |j
                  | _        |j                  | _        t        j                  t        j                  dd| j                  «      «      | _        t        j                  d| j                  | j                  | j                  d¬«      | _        | j
                  | j                  z  dz  | _        | j                  dz   | _        t        j                  t        j                  d| j                  | j                  «      «      | _        y )Nr   é   F)Úin_channelsÚout_channelsÚkernel_sizeÚstrideÚbiasé   )r!   r"   r4   r%   Ú	embed_dimÚ
image_sizeÚ
patch_sizer   Ú	Parameterr0   ÚrandnÚclass_embeddingÚConv2dÚpatch_embeddingÚnum_patchesÚnum_positionsÚposition_embeddingr5   s     €r8   r"   zBlip2VisionEmbeddings.__init__f   sä   ø€ Ü‰ÑÔØˆŒØ×+Ñ+ˆŒØ ×+Ñ+ˆŒØ ×+Ñ+ˆŒä!Ÿ|™|¬E¯K©K¸¸1¸d¿n¹nÓ,MÓNˆÔä!Ÿy™yØ¨¯©ÀDÇOÁOÐ\`×\kÑ\kÐrwô 
ˆÔð !ŸO™O¨t¯©Ñ>À1ÑDˆÔØ!×-Ñ-°Ñ1ˆÔä"$§,¡,¬u¯{©{¸1¸d×>PÑ>PÐRV×R`ÑR`Ó/aÓ"bˆÕr9   Úpixel_valuesÚreturnc                 óä  — |j                   d   }| j                  j                  j                  }| j                  |j	                  |¬«      «      }|j                  d«      j                  dd«      }| j                  j                  |dd«      j	                  |«      }t        j                  ||gd¬«      }|| j                  d d …d |j                  d«      …d d …f   j	                  |«      z   }|S )Nr   ©rC   rZ   r   r   r;   )r?   rb   ÚweightrC   rB   ÚflattenÚ	transposer`   r2   r0   rA   re   r=   )r6   rf   rI   Útarget_dtypeÚpatch_embedsÚclass_embedsrH   s          r8   rJ   zBlip2VisionEmbeddings.forwardx   sÙ   € Ø!×'Ñ'¨Ñ*ˆ
Ø×+Ñ+×2Ñ2×8Ñ8ˆØ×+Ñ+¨L¯O©OÀ,¨OÓ,OÓPˆØ#×+Ñ+¨AÓ.×8Ñ8¸¸AÓ>ˆà×+Ñ+×2Ñ2°:¸qÀ"ÓE×HÑHÈÓVˆÜ—Y‘Y ¨lÐ;ÀÔCˆ
Ø $×"9Ñ"9º!Ð=Q¸z¿¹ÈqÓ?QÐ=QÒSTÐ:TÑ"U×"XÑ"XÐYeÓ"fÑfˆ
ØÐr9   )	rK   rL   rM   r   r"   r0   ÚTensorrJ   rO   rP   s   @r8   rR   rR   e   s-   ø„ ðcÐ0õ cð$	 E§L¡Lð 	°U·\±\÷ 	r9   rR   c                   ó:   ‡ — e Zd Zˆ fd„Z	 	 	 	 	 	 	 	 	 	 dd„Zˆ xZS )ÚBlip2QFormerEncoderc           	      óÒ   •— t         ‰|   «        || _        t        j                  t        |j                  «      D cg c]  }t        ||«      ‘Œ c}«      | _        d| _	        y c c}w )NF)
r!   r"   r4   r   Ú
ModuleListÚrangeÚnum_hidden_layersÚBlip2QFormerLayerÚlayerÚgradient_checkpointing©r6   r4   Ú	layer_idxr7   s      €r8   r"   zBlip2QFormerEncoder.__init__†   sV   ø€ Ü‰ÑÔØˆŒÜ—]‘]ÜCHÈ×IaÑIaÓCbÖc°iÔ˜v yÕ1Òcó
ˆŒ
ð ',ˆÕ#ùò ds   ½A$c                 ól  — |	rdnd }|rdnd }|rdnd }|rdnd }t        | j                  j                  «      D ]Ê  }| j                  |   }|	r||fz   }|||   nd }|||   nd }t	        | j                  dd«      rGt        j                  «       r3|rt        j                  d«       d}| j                  |||||||||«	      }n |||||||||«      }|d   }|r	||d   fz  }|sŒ¬||d   fz   }|j                  sŒÂ||d   fz   }ŒÌ |	r||fz   }|
st        d	„ |||||fD «       «      S t        |||||¬
«      S )N© ry   FzZ`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`...r   r   r   rZ   c              3   ó$   K  — | ]  }||–— Œ
 y ­w©Nr}   )Ú.0Úvs     r8   ú	<genexpr>z.Blip2QFormerEncoder.forward.<locals>.<genexpr>Ô   s   è ø€ ò 
àð =ô ñ
ùs   ‚)Úlast_hidden_stateÚpast_key_valuesÚhidden_statesÚ
attentionsÚcross_attentions)ru   r4   rv   rx   r3   r0   Úis_grad_enabledÚloggerÚwarningÚ_gradient_checkpointing_funcÚhas_cross_attentionÚtupler	   )r6   r…   Úattention_maskÚ	head_maskÚencoder_hidden_statesÚencoder_attention_maskr„   Ú	use_cacheÚoutput_attentionsÚoutput_hidden_statesÚreturn_dictÚquery_lengthÚall_hidden_statesÚall_self_attentionsÚall_cross_attentionsÚnext_decoder_cacheÚiÚlayer_moduleÚlayer_head_maskÚpast_key_valueÚlayer_outputss                        r8   rJ   zBlip2QFormerEncoder.forwardŽ   sÈ  € ñ #7™B¸DÐÙ$5™b¸4ÐÙ%6™r¸DÐá#,™R°$Ðät—{‘{×4Ñ4Ó5ò ,	VˆAØŸ:™: a™=ˆLÙ#Ø$5¸Ð8HÑ$HÐ!à.7Ð.C˜i¨šlÈˆOØ3BÐ3N˜_¨QÒ/ÐTXˆNät—{‘{Ð$<¸eÔDÌ×I^ÑI^ÔI`ÙÜ—N‘NØtôð !&Ià $× AÑ AØ Ø!Ø"Ø#Ø)Ø*Ø"Ø%Ø ó
!‘ñ !-Ø!Ø"Ø#Ø)Ø*Ø"Ø%Ø ó	!ð *¨!Ñ,ˆMÙØ" }°RÑ'8Ð&:Ñ:Ð"Ú Ø&9¸]È1Ñ=MÐ<OÑ&OÐ#Ø×3Ó3Ø+?À=ÐQRÑCSÐBUÑ+UÑ(ðY,	Vñ\  Ø 1°]Ð4DÑ DÐáÜñ 
ð "Ø&Ø%Ø'Ø(ðô
ó 
ð 
ô 9Ø+Ø.Ø+Ø*Ø1ô
ð 	
r9   )
NNNNNNFFTr   ©rK   rL   rM   r"   rJ   rO   rP   s   @r8   rr   rr   …   s.   ø„ ô,ð ØØ"Ø#ØØØØ"ØØ÷W
r9   rr   c                   ó@   ‡ — e Zd Zˆ fd„Z	 	 	 	 	 	 	 dd„Zd„ Zd„ Zˆ xZS )rw   c                 óf  •— t         ‰|   «        |j                  | _        d| _        t	        |«      | _        || _        ||j                  z  dk(  rt	        |d¬«      | _        d| _	        nd| _	        t        |«      | _        t        |«      | _        t        |«      | _        t        |«      | _        y )Nr   r   T)Úis_cross_attentionF)r!   r"   Úchunk_size_feed_forwardÚseq_len_dimr   Ú	attentionr{   Úcross_attention_frequencyÚcrossattentionrŒ   r   ÚintermediateÚintermediate_queryr   Úoutput_queryÚoutputrz   s      €r8   r"   zBlip2QFormerLayer.__init__ê   s   ø€ Ü‰ÑÔØ'-×'EÑ'EˆÔ$ØˆÔÜ.¨vÓ6ˆŒà"ˆŒàv×7Ñ7Ñ7¸1Ò<Ü"7¸ÐSWÔ"XˆDÔØ'+ˆDÕ$à',ˆDÔ$ä4°VÓ<ˆÔÜ":¸6Ó"BˆÔÜ.¨vÓ6ˆÔÜ(¨Ó0ˆr9   c	           
      ó’  — ||d d nd }	| j                  |||||	¬«      }
|
d   }|
dd }|
d   }|dkD  rÛ|d d …d |…d d …f   }| j                  r1|€t        d«      ‚| j                  ||||||¬«      }|d   }||dd z   }t	        | j
                  | j                  | j                  |«      }|j                  d   |kD  r~t	        | j                  | j                  | j                  |d d …|d …d d …f   «      }t        j                  ||gd¬«      }n,t	        | j                  | j                  | j                  |«      }|f|z   }||fz   }|S )	NrZ   )r“   rž   r   r   r   z>encoder_hidden_states must be given for cross-attention layers)r“   r;   )r¦   rŒ   Ú
ValueErrorr¨   r   Úfeed_forward_chunk_queryr¤   r¥   r?   Úfeed_forward_chunkr0   rA   )r6   r…   rŽ   r   r   r‘   rž   r“   r–   Úself_attn_past_key_valueÚself_attention_outputsÚattention_outputÚoutputsÚpresent_key_valueÚquery_attention_outputÚcross_attention_outputsÚlayer_outputÚlayer_output_texts                     r8   rJ   zBlip2QFormerLayer.forwardý   s¸  € ð :HÐ9S >°"°1Ñ#5ÐY]Ð Ø!%§¡ØØØØ/Ø3ð "0ó "
Ðð 2°!Ñ4ÐØ(¨¨2Ð.ˆà2°2Ñ6Ðà˜!ÒØ%5²a¸¸,¸ÊÐ6IÑ%JÐ"à×'Ò'Ø(Ð0Ü$Ð%eÓfÐfØ*.×*=Ñ*=Ø*Ø"ØØ)Ø*Ø&7ð +>ó +Ð'ð *AÀÑ)CÐ&à!Ð$;¸A¸bÐ$AÑAä4Ø×-Ñ-Ø×,Ñ,Ø× Ñ Ø&ó	ˆLð  ×%Ñ% aÑ(¨<Ò7Ü$=Ø×+Ñ+Ø×0Ñ0Ø×$Ñ$Ø$¢Q¨©²qÐ%8Ñ9ó	%Ð!ô  %Ÿy™y¨,Ð8IÐ)JÐPQÔR‘ä4Ø×'Ñ'Ø×,Ñ,Ø× Ñ Ø ó	ˆLð  / GÑ+ˆàÐ.Ð0Ñ0ˆàˆr9   c                 óL   — | j                  |«      }| j                  ||«      }|S r   )r©   r¬   ©r6   r³   Úintermediate_outputr¸   s       r8   r°   z$Blip2QFormerLayer.feed_forward_chunkD  s,   € Ø"×/Ñ/Ð0@ÓAÐØ—{‘{Ð#6Ð8HÓIˆØÐr9   c                 óL   — | j                  |«      }| j                  ||«      }|S r   )rª   r«   r»   s       r8   r¯   z*Blip2QFormerLayer.feed_forward_chunk_queryI  s.   € Ø"×5Ñ5Ð6FÓGÐØ×(Ñ(Ð)<Ð>NÓOˆØÐr9   )NNNNNFr   )rK   rL   rM   r"   rJ   r°   r¯   rO   rP   s   @r8   rw   rw   é   s0   ø„ ô1ð, ØØ"Ø#ØØØóEòNö
r9   rw   c                   ó&   ‡ — e Zd Zdˆ fd„	Zd„ Zˆ xZS )Ú	ProjLayerc                 ó  •— t         ‰|   «        t        j                  ||«      | _        t        «       | _        t        j                  ||«      | _        t        j                  |«      | _	        t        j                  ||¬«      | _
        y ©Nr   )r!   r"   r   ÚLinearÚdense1Ú	QuickGELUÚact_fnÚdense2r,   r.   r*   )r6   Úin_dimÚout_dimÚ
hidden_dimÚdrop_pr   r7   s         €r8   r"   zProjLayer.__init__Q  s_   ø€ Ü‰ÑÔô —i‘i ¨
Ó3ˆŒÜ“kˆŒÜ—i‘i 
¨GÓ4ˆŒÜ—z‘z &Ó)ˆŒäŸ™ g°3Ô7ˆr9   c           	      ó®   — |}| j                  |«      }| j                  | j                  | j                  | j	                  |«      «      «      «      |z   }|S r   )r*   r.   rÆ   rÅ   rÃ   )r6   ÚxÚx_ins      r8   rJ   zProjLayer.forward\  sG   € ØˆàN‰N˜1ÓˆØL‰L˜Ÿ™ T§[¡[°·±¸Q³Ó%@ÓAÓBÀTÑIˆàˆr9   )çš™™™™™¹?çê-™—q=r    rP   s   @r8   r¿   r¿   P  s   ø„ õ	8ör9   r¿   c                   ó¨   ‡ — e Zd ZdZeZdefˆ fd„Z eee¬«      	 	 	 	 dde	e
j                     de	e   de	e   de	e   deeef   f
d	„«       Zd
„ Zˆ xZS )ÚBlip2VisionModelrf   r4   c                 óB  •— t         ‰|   |«       || _        |j                  }t	        |«      | _        t        j                  ||j                  ¬«      | _	        t        |«      | _        t        j                  ||j                  ¬«      | _        | j                  «        y rÁ   )r!   r"   r4   r%   rR   rH   r   r*   r+   Úpre_layernormr   ÚencoderÚpost_layernormÚ	post_init)r6   r4   r[   r7   s      €r8   r"   zBlip2VisionModel.__init__j  sv   ø€ Ü‰Ñ˜Ô ØˆŒØ×&Ñ&ˆ	Ü/°Ó7ˆŒÜŸ\™\¨)¸×9NÑ9NÔOˆÔÜ# FÓ+ˆŒÜ Ÿl™l¨9¸&×:OÑ:OÔPˆÔà‰Õr9   )Úoutput_typeÚconfig_classr“   r”   r•   rg   c                 óê  — ||n| j                   j                  }||n| j                   j                  }||n| j                   j                  }|€t	        d«      ‚| j                  |«      }| j                  |«      }| j                  ||||¬«      }|d   }| j                  |«      }|dd…ddd…f   }| j                  |«      }|s
||f|dd z   S t        |||j                  |j                  ¬«      S )z
        Returns:

        Nz You have to specify pixel_values)Úinputs_embedsr“   r”   r•   r   r   )rƒ   Úpooler_outputr…   r†   )r4   r“   r”   Úuse_return_dictr®   rH   rÓ   rÔ   rÕ   r
   r…   r†   )	r6   rf   r“   r”   r•   r…   Úencoder_outputsrƒ   Úpooled_outputs	            r8   rJ   zBlip2VisionModel.forwardu  s  € ð 2CÐ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ð$DÑ È$Ï+É+×JjÑJjð 	ð &1Ð%<‘kÀ$Ç+Á+×B]ÑB]ˆàÐÜÐ?Ó@Ð@àŸ™¨Ó5ˆØ×*Ñ*¨=Ó9ˆØŸ,™,Ø'Ø/Ø!5Ø#ð	 'ó 
ˆð ,¨AÑ.ÐØ ×/Ñ/Ð0AÓBÐà)ª!¨Q²¨'Ñ2ˆØ×+Ñ+¨MÓ:ˆáØ% }Ð5¸ÈÈÐ8KÑKÐKä)Ø/Ø'Ø)×7Ñ7Ø&×1Ñ1ô	
ð 	
r9   c                 ó   — | j                   S r   )rH   ©r6   s    r8   Úget_input_embeddingsz%Blip2VisionModel.get_input_embeddings¢  s   € Ø‰Ðr9   )NNNN)rK   rL   rM   Úmain_input_namer   rØ   r"   r   r
   r   r0   rp   Úboolr   r   rJ   rá   rO   rP   s   @r8   rÑ   rÑ   f  sœ   ø„ Ø$€OØ$€Lð	Ð0õ 	ñ Ð+EÐTeÔfð 04Ø,0Ø/3Ø&*ñ*
à˜uŸ|™|Ñ,ð*
ð $ D™>ð*
ð ' t™nð	*
ð
 ˜d‘^ð*
ð 
ˆuÐ0Ð0Ñ	1ò*
ó gð*
öXr9   rÑ   c                   ó¸   ‡ — e Zd ZdZdefˆ fd„Zd„ Zd„ Zd„ Z	 dde	j                  dee   d	e	j                  d
ede	j                  f
d„Z	 	 	 	 	 	 	 	 	 	 dd„Zˆ xZS )ÚBlip2QFormerModelz:
    Querying Transformer (Q-Former), used in BLIP-2.
    r4   c                 ó   •— t         ‰|   |«       || _        t        |j                  «      | _        t        |j                  «      | _        t        j                  t        j                  d|j                  |j                  j                  «      «      | _        t!        |d«      r|j"                  €t%        j&                  dd¬«      | _        n&t%        j&                  |j"                  d¬«      | _        | j"                  j)                  ddi«       t+        |j                  j                  |j                  j                  |j                  j                  dz  d	d
¬«      | _        t/        |j                  «      | _        | j3                  «        y )Nr   Ú	tokenizerzbert-base-uncasedÚright)Útruncation_sideÚ	bos_tokenz[DEC]é   rÎ   rÏ   )rÇ   rÈ   rÉ   rÊ   r   )r!   r"   r4   r   Úqformer_configrH   rÑ   Úvision_configÚvisual_encoderr   r^   r0   ÚzerosÚnum_query_tokensr%   Úquery_tokensÚhasattrrç   r   Úfrom_pretrainedÚadd_special_tokensr¿   Ú
proj_layerrr   rÔ   rÖ   r5   s     €r8   r"   zBlip2QFormerModel.__init__¬  s,  ø€ Ü‰Ñ˜Ô ØˆŒÜ-¨f×.CÑ.CÓDˆŒÜ.¨v×/CÑ/CÓDˆÔÜŸL™L¬¯©°Q¸×8OÑ8OÐQW×QfÑQf×QrÑQrÓ)sÓtˆÔÜv˜{Ô+¨v×/?Ñ/?Ð/GÜ*×:Ñ:Ð;NÐ`gÔhˆDNä*×:Ñ:¸6×;KÑ;KÐ]dÔeˆDŒNØ‰×)Ñ)¨;¸Ð*@ÔAÜ#Ø×(Ñ(×4Ñ4Ø×)Ñ)×5Ñ5Ø×,Ñ,×8Ñ8¸1Ñ<ØØô
ˆŒô +¨6×+@Ñ+@ÓAˆŒà‰Õr9   c                 ó.   — | j                   j                  S r   ©rH   r'   rà   s    r8   rá   z&Blip2QFormerModel.get_input_embeddingsÃ  s   € Ø‰×.Ñ.Ð.r9   c                 ó&   — || j                   _        y r   r÷   )r6   Úvalues     r8   Úset_input_embeddingsz&Blip2QFormerModel.set_input_embeddingsÆ  s   € Ø*/ˆ‰Õ'r9   c                 ó˜   — |j                  «       D ]7  \  }}| j                  j                  |   j                  j	                  |«       Œ9 y)z
        Prunes heads of the model. heads_to_prune: dict of {layer_num: list of heads to prune in this layer} See base
        class PreTrainedModel
        N)ÚitemsrÔ   rx   r¦   Úprune_heads)r6   Úheads_to_prunerx   Úheadss       r8   Ú_prune_headszBlip2QFormerModel._prune_headsÉ  sE   € ð
 +×0Ñ0Ó2ò 	C‰LˆE5ØL‰L×Ñ˜uÑ%×/Ñ/×;Ñ;¸EÕBñ	Cr9   rŽ   Úinput_shapeÚdeviceÚ	has_queryrg   c                 ó   — |j                  «       dk(  r|dd…ddd…dd…f   }nF|j                  «       dk(  r|dd…dddd…f   }n%t        dj                  ||j                  «      «      ‚|j	                  | j
                  ¬«      }d|z
  dz  }|S )a=  
        Makes broadcastable attention and causal masks so that future and masked tokens are ignored.

        Arguments:
            attention_mask (`torch.Tensor`):
                Mask with ones indicating tokens to attend to, zeros for tokens to ignore.
            input_shape (`Tuple[int]`):
                The shape of the input to the model.
            device (`torch.device`):
                The device of the input to the model.

        Returns:
            `torch.Tensor` The extended attention mask, with a the same dtype as `attention_mask.dtype`.
        rT   NrZ   zAWrong shape for input_ids (shape {}) or attention_mask (shape {})ri   g      ð?g     ˆÃÀ)r<   r®   Úformatr?   rB   rC   )r6   rŽ   r  r  r  Úextended_attention_masks         r8   Úget_extended_attention_maskz-Blip2QFormerModel.get_extended_attention_maskÑ  s¦   € ð. ×ÑÓ 1Ò$Ø&4²Q¸ºaÂ°]Ñ&CÑ#Ø×ÑÓ! QÒ&ð '5²Q¸¸dÂAÐ5EÑ&FÑ#äØS×ZÑZØ ×!5Ñ!5óóð ð #:×"<Ñ"<À4Ç:Á:Ð"<Ó"NÐØ#&Ð)@Ñ#@ÀHÑ"LÐØ&Ð&r9   c                 ó´  — | j                  |dd¬«      }|j                  | j                  «      }|j                  }|j                  d   }t        j                  || j                  j                  «       d   ft
        j                  ¬«      j                  | j                  «      }t        j                  ||j                  gd¬«      }||n| j                  j                  }|	|	n| j                  j                  }	|
|
n| j                  j                  }
|,|d   d   j                  d	   | j                  j                   z
  nd}| j                  j                  d   }| j#                  || j                  |¬
«      }|j                  «       dd }|\  }}|j                  }| j%                  |«      j&                  }|}|€t        j                  |||z   f|¬«      }| j)                  |||«      }|¬t+        |t,        «      r|d   j                  «       \  }}}n|j                  «       \  }}}||f}t+        |t,        «      r|D cg c]  }| j/                  |«      ‘Œ }}n?|€)t        j                  ||¬«      }| j/                  |«      }n| j/                  |«      }nd}| j1                  || j                  j2                  j4                  «      }| j7                  |||||||||	|
|¬«      }|d   }|dd…ddd…f   } |
s| j9                  |dd…d|…dd…f   «      S t;        || |j<                  |j>                  |j@                  |jB                  ¬«      S c c}w )a	  
        encoder_hidden_states  (`torch.Tensor` of shape `(batch_size, sequence_length, hidden_size)`, `optional`):
            Sequence of hidden-states at the output of the last layer of the encoder. Used in the cross-attention if
            the model is configured as a decoder.
        encoder_attention_mask (`torch.Tensor` of shape `(batch_size, sequence_length)`, `optional`):
            Mask to avoid performing attention on the padding token indices of the encoder input. This mask is used in
            the cross-attention if the model is configured as a decoder. Mask values selected in `[0, 1]`:
            - 1 for tokens that are **not masked**,
            - 0 for tokens that are **masked**.
        past_key_values (`tuple(tuple(torch.Tensor))` of length `config.n_layers` with each tuple having 4 tensors of:
            shape `(batch_size, num_heads, sequence_length - 1, embed_size_per_head)`): Contains precomputed key and
            value hidden states of the attention blocks. Can be used to speed up decoding. If `past_key_values` are
            used, the user can optionally input only the last `decoder_input_ids` (those that don't have their past key
            value states given to this model) of shape `(batch_size, 1)` instead of all `decoder_input_ids` of shape
            `(batch_size, sequence_length)`.
        use_cache (`bool`, `optional`):
            If set to `True`, `past_key_values` key value states are returned and can be used to speed up decoding (see
            `past_key_values`).
        ÚptT)Úreturn_tensorsÚpaddingr   r   ri   r;   NrZ   )rD   rE   rF   r   )r  )
rŽ   r   r   r‘   r„   r’   r“   r”   r•   r–   )rƒ   rÛ   r„   r…   r†   r‡   )"rç   rB   r  rD   r?   r0   Úonesrñ   r=   ÚlongrA   rŽ   r4   r“   r”   rÜ   r–   rH   rî   rƒ   r  Ú
isinstanceÚlistÚinvert_attention_maskÚget_head_maskrì   rv   rÔ   rõ   r   r„   r…   r†   r‡   )!r6   Ú
text_inputÚimage_inputr   r   r‘   r„   r’   r“   r”   r•   ÚtextrD   rI   Ú
query_attsrŽ   rF   r–   Úembedding_outputr  rG   r  Úimage_embeds_frozenr  Úencoder_batch_sizeÚencoder_sequence_lengthÚ_Úencoder_hidden_shapeÚmaskÚencoder_extended_attention_maskrÝ   Úsequence_outputrÞ   s!                                    r8   rJ   zBlip2QFormerModel.forwardþ  sx  € ðB ~‰~˜j¸Àtˆ~ÓLˆØw‰wt—{‘{Ó#ˆØ—N‘Nˆ	Ø—_‘_ QÑ'ˆ
Ü—Z‘Z ¨T×->Ñ->×-CÑ-CÓ-EÀaÑ-HÐ IÔQV×Q[ÑQ[Ô\×_Ñ_Ð`d×`kÑ`kÓlˆ
ÜŸ™ J°×0CÑ0CÐ#DÈ!ÔLˆà1BÐ1NÑ-ÐTX×T_ÑT_×TqÑTqÐà$8Ð$DÑ È$Ï+É+×JjÑJjð 	ð &1Ð%<‘kÀ$Ç+Á+×B]ÑB]ˆð JYÐIdˆO˜AÑ˜qÑ!×'Ñ'¨Ñ*¨T¯[©[×-EÑ-EÒEÐjkð 	ð ×(Ñ(×.Ñ.¨qÑ1ˆàŸ?™?ØØ×*Ñ*Ø#9ð +ó 
Ðð '×+Ñ+Ó-¨c¨rÐ2ˆØ!,Ñˆ
JØ!×(Ñ(ˆà"×1Ñ1°+Ó>×PÑPÐà 3ÐàÐ!Ü"ŸZ™Z¨*°jÐCYÑ6YÐ)ZÐdjÔkˆNð #'×"BÑ"BÀ>ÐS^Ð`fÓ"gÐð !Ð,ÜÐ/´Ô6ØAVÐWXÑAY×A^ÑA^ÓA`Ñ>Ð"Ð$;¹QàAV×A[ÑA[ÓA]Ñ>Ð"Ð$;¸QØ$6Ð8OÐ#PÐ äÐ0´$Ô7Ø`vÖ2wÐX\°4×3MÑ3MÈdÕ3SÐ2wÐ/Ñ2wØ'Ð/Ü).¯©Ð4HÐQWÔ)XÐ&Ø26×2LÑ2LÐMcÓ2dÑ/à26×2LÑ2LÐMcÓ2dÑ/à.2Ð+ð ×&Ñ& y°$·+±+×2LÑ2L×2^Ñ2^Ó_ˆ	àŸ,™,ØØ2ØØ"7Ø#BØ+ØØ/Ø!5Ø#Ø%ð 'ó 
ˆð *¨!Ñ,ˆØ'ª¨1ªa¨Ñ0ˆáØ—?‘? ?²1°m°|°mÂQÐ3FÑ#GÓHÐHä;Ø-Ø'Ø+×;Ñ;Ø)×7Ñ7Ø&×1Ñ1Ø,×=Ñ=ô
ð 	
ùòG 3xs   ÉM)F)
NNNNNNNNNN)rK   rL   rM   rN   r   r"   rá   rú   r   r0   rp   r   Úintr  rã   r  rJ   rO   rP   s   @r8   rå   rå   §  s•   ø„ ñð˜{õ ò./ò0òCð  ñ+'àŸ™ð+'ð ˜3‘Zð+'ð —‘ð	+'ð
 ð+'ð 
‰ó+'ð^ ØØØ"Ø#ØØØØ!Ø÷A
r9   rå   ))Útypingr   r   r   r0   Útorch.utils.checkpointr   Útransformersr   Útransformers.activationsr   rÄ   Útransformers.modeling_outputsr	   r
   r   Ú/transformers.models.blip_2.configuration_blip_2r   r   Ú*transformers.models.blip_2.modeling_blip_2r   r   r   r   r   Útransformers.pytorch_utilsr   Útransformers.utilsr   r   Ú
get_loggerrK   r‰   ÚModuler   rR   rr   rw   r¿   rÑ   rå   r}   r9   r8   ú<module>r+     sÊ   ð÷ *Ñ )ã Û Ý Ý &Ý E÷ñ ÷
 [÷õ õ A÷ð 
ˆ×	Ñ	˜HÓ	%€ô2˜"Ÿ)™)ô 2ôl˜BŸI™Iô ô@`
˜"Ÿ)™)ô `
ôHc˜Ÿ	™	ô côN—	‘	ô ô,=Ð+ô =ôBX
Ð,õ X
r9   