Upload model.py with huggingface_hub

1894069 verified 5 months ago

7.61 kB

	import torch
	import torch.nn as nn
	import math


	class DualStreamTransformer(nn.Module):
	def __init__(
	self,
	vocab_size: int,
	d_model: int = 768,
	n_head: int = 8,
	d_hid: int = 768,
	num_encoder_layers: int = 5,
	num_decoder_layers: int = 8,
	dino_dim: int = 768,
	dropout: float = 0.1,
	):
	super().__init__()
	self.vocab_size = vocab_size
	self.d_model = d_model
	self.n_head = n_head
	self.d_hid = d_hid
	self.num_encoder_layers = num_encoder_layers
	self.num_decoder_layers = num_decoder_layers
	self.dino_dim = dino_dim
	self.dropout = dropout

	self.text_embedding = self.SimpleTextEmbedding(vocab_size, d_model)
	self.image_embedding = self.DinoImageEmbedding(dino_dim, d_model)

	self.image_encoder = self.Encoder(
	d_model, n_head, d_hid, num_encoder_layers, dropout
	)

	self.decoder = self.MultimodalDecoder(
	d_model, n_head, d_hid, num_decoder_layers, dropout
	)

	self.output_layer = nn.Linear(d_model, vocab_size)

	def forward(
	self, input_ids, dino_embedding=None, padding_mask=None, use_image: bool = False
	):
	embedded = self.text_embedding(input_ids)

	if (
	use_image
	and dino_embedding is not None
	and not torch.all(dino_embedding == 0)
	):
	image_embedded = self.image_embedding(dino_embedding)
	image_encoded = self.image_encoder(image_embedded)
	else:
	image_encoded = None

	seq_len = embedded.size(1)

	tgt_mask = self.decoder.generate_square_subsequent_mask(seq_len).to(
	embedded.device
	)

	decoder_output = self.decoder(
	tgt=embedded,
	image_memory=image_encoded,
	tgt_mask=tgt_mask,
	tgt_key_padding_mask=padding_mask,
	)

	output = self.output_layer(decoder_output)

	return output

	class SimpleTextEmbedding(nn.Module):
	def __init__(self, vocab_size, d_model, max_len=128, dropout=0.1):
	super().__init__()
	self.token_embedding = nn.Embedding(vocab_size, d_model)
	self.position_embedding = nn.Embedding(max_len, d_model)
	self.layer_norm = nn.LayerNorm(d_model)
	self.dropout = nn.Dropout(p=dropout)
	self.d_model = d_model

	def forward(self, x):
	batch_size, seq_len = x.size()

	positions = (
	torch.arange(seq_len, device=x.device)
	.unsqueeze(0)
	.expand(batch_size, seq_len)
	)
	scale = math.sqrt(self.d_model)

	token_emb = self.token_embedding(x) * scale
	pos_emb = self.position_embedding(positions)

	embeddings = self.dropout(token_emb + pos_emb)

	return self.layer_norm(embeddings)

	class DinoImageEmbedding(nn.Module):
	def __init__(self, dino_dim, d_model):
	super().__init__()
	self.projection_layer = nn.Linear(dino_dim, d_model)

	def forward(self, x):
	return self.projection_layer(x.unsqueeze(1))

	class Encoder(nn.Module):
	def __init__(
	self,
	d_model: int,
	n_head: int,
	d_hid: int,
	n_layers: int,
	dropout: float = 0.1,
	):
	super().__init__()
	encoder_layer = nn.TransformerEncoderLayer(
	d_model, n_head, d_hid, dropout, activation="gelu", batch_first=True
	)
	self.encoder = nn.TransformerEncoder(encoder_layer, n_layers)

	def forward(self, src, src_mask=None, src_key_padding_mask=None):
	return self.encoder(src, src_mask, src_key_padding_mask)

	class DynamicGating(nn.Module):
	def __init__(self, d_model: int, dropout: float = 0.1):
	super().__init__()
	self.gate_fc = nn.Linear(d_model * 2, d_model)
	self.dropout = nn.Dropout(dropout)
	self.layer_norm = nn.LayerNorm(d_model)

	def forward(self, text_features, image_features):
	if image_features is None:
	return text_features

	combined = torch.cat([text_features, image_features], dim=-1)
	gate = torch.sigmoid(self.gate_fc(combined))
	fused = gate * text_features + (1 - gate) * image_features
	fused = self.layer_norm(self.dropout(fused))
	return fused

	class MultimodalDecoderLayer(nn.Module):
	def __init__(self, d_model: int, n_head: int, d_hid: int, dropout: float = 0.1):
	super().__init__()
	self.self_attn = nn.MultiheadAttention(
	d_model, n_head, dropout=dropout, batch_first=True
	)
	self.cross_attn_txt_image = nn.MultiheadAttention(
	d_model, n_head, dropout=dropout, batch_first=True
	)

	self.norm1 = nn.LayerNorm(d_model)
	self.norm2 = nn.LayerNorm(d_model)
	self.norm3 = nn.LayerNorm(d_model)

	self.dropout = nn.Dropout(dropout)

	self.gate = DualStreamTransformer.DynamicGating(d_model, dropout)

	self.ff = nn.Sequential(
	nn.Linear(d_model, d_hid),
	nn.GELU(),
	nn.Dropout(dropout),
	nn.Linear(d_hid, d_model),
	nn.Dropout(dropout),
	)

	def forward(self, tgt, image_memory, tgt_mask=None, tgt_key_padding_mask=None):
	tgt_norm = self.norm1(tgt)
	self_attn_output, _ = self.self_attn(
	tgt_norm,
	tgt_norm,
	tgt_norm,
	key_padding_mask=tgt_key_padding_mask,
	attn_mask=tgt_mask,
	is_causal=True,
	)

	tgt = tgt + self.dropout(self_attn_output)

	if image_memory is not None:
	tgt_norm = self.norm2(tgt)
	cross_attn_output, _ = self.cross_attn_txt_image(
	tgt_norm, image_memory, image_memory
	)
	cross_attn_output = self.dropout(cross_attn_output)

	fused = self.gate(tgt_norm, cross_attn_output)
	tgt = tgt + fused

	tgt_norm = self.norm3(tgt)
	ff_output = self.ff(tgt_norm)
	tgt = tgt + self.dropout(ff_output)

	return tgt

	class MultimodalDecoder(nn.Module):
	def __init__(
	self,
	d_model: int,
	n_head: int,
	d_hid: int,
	n_layers: int,
	dropout: float = 0.1,
	):
	super().__init__()
	self.layers = nn.ModuleList(
	[
	DualStreamTransformer.MultimodalDecoderLayer(
	d_model, n_head, d_hid, dropout
	)
	for _ in range(n_layers)
	]
	)

	def generate_square_subsequent_mask(self, size):
	mask = torch.triu(torch.ones(size, size), diagonal=1).bool()
	return mask

	def forward(self, tgt, image_memory, tgt_mask, tgt_key_padding_mask=None):
	output = tgt
	for layer in self.layers:
	output = layer(
	output,
	image_memory,
	tgt_mask=tgt_mask,
	tgt_key_padding_mask=tgt_key_padding_mask,
	)
	return output