Holmes

test

ca7299e over 1 year ago

12.9 kB

	"""Protein dataset class."""
	import os
	import pickle
	from pathlib import Path
	from glob import glob
	from typing import Optional, Sequence, List, Union
	from functools import lru_cache
	import tree

	from tqdm import tqdm
	import numpy as np
	import pandas as pd
	import torch

	from src.common import residue_constants, data_transforms, rigid_utils, protein


	CA_IDX = residue_constants.atom_order['CA']
	DTYPE_MAPPING = {
	'aatype': torch.long,
	'atom_positions': torch.double,
	'atom_mask': torch.double,
	}


	class ProteinFeatureTransform:
	def __init__(self,
	unit: Optional[str] = 'angstrom',
	truncate_length: Optional[int] = None,
	strip_missing_residues: bool = True,
	recenter_and_scale: bool = True,
	eps: float = 1e-8,
	):
	if unit == 'angstrom':
	self.coordinate_scale = 1.0
	elif unit in ('nm', 'nanometer'):
	self.coordiante_scale = 0.1
	else:
	raise ValueError(f"Invalid unit: {unit}")

	if truncate_length is not None:
	assert truncate_length > 0, f"Invalid truncate_length: {truncate_length}"
	self.truncate_length = truncate_length

	self.strip_missing_residues = strip_missing_residues
	self.recenter_and_scale = recenter_and_scale
	self.eps = eps

	def __call__(self, chain_feats):
	chain_feats = self.patch_feats(chain_feats)

	if self.strip_missing_residues:
	chain_feats = self.strip_ends(chain_feats)

	if self.truncate_length is not None:
	chain_feats = self.random_truncate(chain_feats, max_len=self.truncate_length)

	# Recenter and scale atom positions
	if self.recenter_and_scale:
	chain_feats = self.recenter_and_scale_coords(chain_feats, coordinate_scale=self.coordinate_scale, eps=self.eps)

	# Map to torch Tensor
	chain_feats = self.map_to_tensors(chain_feats)
	# Add extra features from AF2
	chain_feats = self.protein_data_transform(chain_feats)

	# refer to line 170 in pdb_data_loader.py
	return chain_feats

	@staticmethod
	def patch_feats(chain_feats):
	seq_mask = chain_feats['atom_mask'][:, CA_IDX] # a little hack here
	# residue_idx = np.arange(seq_mask.shape[0], dtype=np.int64)
	residue_idx = chain_feats['residue_index'] - np.min(chain_feats['residue_index']) # start from 0, possibly has chain break
	patch_feats = {
	'seq_mask': seq_mask,
	'residue_mask': seq_mask,
	'residue_idx': residue_idx,
	'fixed_mask': np.zeros_like(seq_mask),
	'sc_ca_t': np.zeros(seq_mask.shape + (3, )),
	}
	chain_feats.update(patch_feats)
	return chain_feats

	@staticmethod
	def strip_ends(chain_feats):
	# Strip missing residues on both ends
	modeled_idx = np.where(chain_feats['aatype'] != 20)[0]
	min_idx, max_idx = np.min(modeled_idx), np.max(modeled_idx)
	chain_feats = tree.map_structure(
	lambda x: x[min_idx : (max_idx+1)], chain_feats)
	return chain_feats

	@staticmethod
	def random_truncate(chain_feats, max_len):
	L = chain_feats['aatype'].shape[0]
	if L > max_len:
	# Randomly truncate
	start = np.random.randint(0, L - max_len + 1)
	end = start + max_len
	chain_feats = tree.map_structure(
	lambda x: x[start : end], chain_feats)
	return chain_feats

	@staticmethod
	def map_to_tensors(chain_feats):
	chain_feats = {k: torch.as_tensor(v) for k,v in chain_feats.items()}
	# Alter dtype
	for k, dtype in DTYPE_MAPPING.items():
	if k in chain_feats:
	chain_feats[k] = chain_feats[k].type(dtype)
	return chain_feats

	@staticmethod
	def recenter_and_scale_coords(chain_feats, coordinate_scale, eps=1e-8):
	# recenter and scale atom positions
	bb_pos = chain_feats['atom_positions'][:, CA_IDX]
	bb_center = np.sum(bb_pos, axis=0) / (np.sum(chain_feats['seq_mask']) + eps)
	centered_pos = chain_feats['atom_positions'] - bb_center[None, None, :]
	scaled_pos = centered_pos * coordinate_scale
	chain_feats['atom_positions'] = scaled_pos * chain_feats['atom_mask'][..., None]
	return chain_feats

	@staticmethod
	def protein_data_transform(chain_feats):
	chain_feats.update(
	{
	"all_atom_positions": chain_feats["atom_positions"],
	"all_atom_mask": chain_feats["atom_mask"],
	}
	)
	chain_feats = data_transforms.atom37_to_frames(chain_feats)
	chain_feats = data_transforms.atom37_to_torsion_angles("")(chain_feats)
	chain_feats = data_transforms.get_backbone_frames(chain_feats)
	chain_feats = data_transforms.get_chi_angles(chain_feats)
	chain_feats = data_transforms.make_pseudo_beta("")(chain_feats)
	chain_feats = data_transforms.make_atom14_masks(chain_feats)
	chain_feats = data_transforms.make_atom14_positions(chain_feats)

	# Add convenient key
	chain_feats.pop("all_atom_positions")
	chain_feats.pop("all_atom_mask")
	return chain_feats


	class MetadataFilter:
	def __init__(self,
	min_len: Optional[int] = None,
	max_len: Optional[int] = None,
	min_chains: Optional[int] = None,
	max_chains: Optional[int] = None,
	min_resolution: Optional[int] = None,
	max_resolution: Optional[int] = None,
	include_structure_method: Optional[List[str]] = None,
	include_oligomeric_detail: Optional[List[str]] = None,
	**kwargs,
	):
	self.min_len = min_len
	self.max_len = max_len
	self.min_chains = min_chains
	self.max_chains = max_chains
	self.min_resolution = min_resolution
	self.max_resolution = max_resolution
	self.include_structure_method = include_structure_method
	self.include_oligomeric_detail = include_oligomeric_detail

	def __call__(self, df):
	_pre_filter_len = len(df)
	if self.min_len is not None:
	df = df[df['raw_seq_len'] >= self.min_len]
	if self.max_len is not None:
	df = df[df['raw_seq_len'] <= self.max_len]
	if self.min_chains is not None:
	df = df[df['num_chains'] >= self.min_chains]
	if self.max_chains is not None:
	df = df[df['num_chains'] <= self.max_chains]
	if self.min_resolution is not None:
	df = df[df['resolution'] >= self.min_resolution]
	if self.max_resolution is not None:
	df = df[df['resolution'] <= self.max_resolution]
	if self.include_structure_method is not None:
	df = df[df['include_structure_method'].isin(self.include_structure_method)]
	if self.include_oligomeric_detail is not None:
	df = df[df['include_oligomeric_detail'].isin(self.include_oligomeric_detail)]

	print(f">>> Filter out {len(df)} samples out of {_pre_filter_len} by the metadata filter")
	return df


	class RandomAccessProteinDataset(torch.utils.data.Dataset):
	"""Random access to pickle protein objects of dataset.

	dict_keys(['atom_positions', 'aatype', 'atom_mask', 'residue_index', 'chain_index', 'b_factors'])

	Note that each value is a ndarray in shape (L, *), for example:
	'atom_positions': (L, 37, 3)
	"""
	def __init__(self,
	path_to_dataset: Union[Path, str],
	path_to_seq_embedding: Optional[Path] = None,
	metadata_filter: Optional[MetadataFilter] = None,
	training: bool = True,
	transform: Optional[ProteinFeatureTransform] = None,
	suffix: Optional[str] = '.pkl',
	accession_code_fillter: Optional[Sequence[str]] = None,
	**kwargs,
	):
	super().__init__()
	path_to_dataset = os.path.expanduser(path_to_dataset)
	suffix = suffix if suffix.startswith('.') else '.' + suffix
	assert suffix in ('.pkl', '.pdb'), f"Invalid suffix: {suffix}"

	if os.path.isfile(path_to_dataset): # path to csv file
	assert path_to_dataset.endswith('.csv'), f"Invalid file extension: {path_to_dataset} (have to be .csv)"
	self._df = pd.read_csv(path_to_dataset)
	self._df.sort_values('modeled_seq_len', ascending=False)
	if metadata_filter:
	self._df = metadata_filter(self._df)
	self._data = self._df['processed_complex_path'].tolist()
	elif os.path.isdir(path_to_dataset): # path to directory
	self._data = sorted(glob(os.path.join(path_to_dataset, '*' + suffix)))
	assert len(self._data) > 0, f"No {suffix} file found in '{path_to_dataset}'"
	else: # path as glob pattern
	_pattern = path_to_dataset
	self._data = sorted(glob(_pattern))
	assert len(self._data) > 0, f"No files found in '{_pattern}'"

	if accession_code_fillter and len(accession_code_fillter) > 0:
	self._data = [p for p in self._data
	if np.isin(os.path.splitext(os.path.basename(p))[0], accession_code_fillter)
	]

	self.data = np.asarray(self._data)
	self.path_to_seq_embedding = os.path.expanduser(path_to_seq_embedding) \
	if path_to_seq_embedding is not None else None
	self.suffix = suffix
	self.transform = transform
	self.training = training # not implemented yet


	@property
	def num_samples(self):
	return len(self.data)

	def len(self):
	return self.__len__()

	def __len__(self):
	return self.num_samples

	def get(self, idx):
	return self.__getitem__(idx)

	@lru_cache(maxsize=100)
	def __getitem__(self, idx):
	"""return single pyg.Data() instance
	"""
	data_path = self.data[idx]
	accession_code = os.path.splitext(os.path.basename(data_path))[0]

	if self.suffix == '.pkl':
	# Load pickled protein
	with open(data_path, 'rb') as f:
	data_object = pickle.load(f)
	elif self.suffix == '.pdb':
	# Load pdb file
	with open(data_path, 'r') as f:
	pdb_string = f.read()
	data_object = protein.from_pdb_string(pdb_string).to_dict()

	# Apply data transform
	if self.transform is not None:
	data_object = self.transform(data_object)

	# Get sequence embedding if have
	if self.path_to_seq_embedding is not None:
	embed_dict = torch.load(
	os.path.join(self.path_to_seq_embedding, f"{accession_code}.pt")
	)
	data_object.update(
	{
	'seq_emb': embed_dict['representations'][33].float(),
	} # 33 is for ESM650M
	)

	data_object['accession_code'] = accession_code
	return data_object # dict of arrays



	class PretrainPDBDataset(RandomAccessProteinDataset):
	def __init__(self,
	path_to_dataset: str,
	metadata_filter: MetadataFilter,
	transform: ProteinFeatureTransform,
	**kwargs,
	):
	super(PretrainPDBDataset, self).__init__(path_to_dataset=path_to_dataset,
	metadata_filter=metadata_filter,
	transform=transform,
	**kwargs,
	)


	class SamplingPDBDataset(RandomAccessProteinDataset):
	def __init__(self,
	path_to_dataset: str,
	training: bool = False,
	suffix: str = '.pdb',
	transform: Optional[ProteinFeatureTransform] = None,
	accession_code_fillter: Optional[Sequence[str]] = None,
	):
	assert os.path.isdir(path_to_dataset), f"Invalid path (expected to be directory): {path_to_dataset}"
	super(SamplingPDBDataset, self).__init__(path_to_dataset=path_to_dataset,
	training=training,
	suffix=suffix,
	transform=transform,
	accession_code_fillter=accession_code_fillter,
	metadata_filter=None,
	)