Improve classifier in order to handle reject

Ludovic PLATON
Commit a51525c0ec364b93286c531f1855bcdcee739c4c a51525c0 1 parent 0d170666
Showing 5 changed files with 99 additions and 65 deletions
scripts/SLSOM/SOM.py
scripts/SLSOM/SSOM.py
scripts/SLSOM/performance_measure.py
scripts/SLSOM/util.py
scripts/train.py
--- a/scripts/SLSOM/SOM.py
View file @a51525c
+++ b/scripts/SLSOM/SOM.py
View file @a51525c
@@ -115,19 +115,19 @@ class SOM_basic(object):
 		res = tf.exp(-gamma*0.5*tf.pow(dist,2.0))
 		return res
-	def sim2units_neighbour(self,data,units=None):
+#	def sim2units_neighbour(self,data,units=None):
-		if units is None:
+#		if units is None:
-			units = self.units
+#			units = self.units
-		dist = self.dist2units(data,units)
+#		dist = self.dist2units(data,units)
-#		max_dist = tf.reduce_max(tf.sqrt(tf.reduce_sum(tf.pow((tf.expand_dims(units,0) - tf.expand_dims(units,1)),2.0),axis=2)))
+##		max_dist = tf.reduce_max(tf.sqrt(tf.reduce_sum(tf.pow((tf.expand_dims(units,0) - tf.expand_dims(units,1)),2.0),axis=2)))
-#		gamma = 1.0 / (max_dist/np.sqrt(2.0*self.ulen))
+##		gamma = 1.0 / (max_dist/np.sqrt(2.0*self.ulen))
-#		res = 1.0 / (dist+1.0)
+##		res = 1.0 / (dist+1.0)
-		gamma = 1.0
+#		gamma = 1.0
-		res = tf.exp(-gamma*tf.pow(dist,2.0))
+#		res = tf.exp(-gamma*tf.pow(dist,2.0))
-		bmus = tf.argmin(dist,1)
+#		bmus = tf.argmin(dist,1)
-		dist_bmu = self.dist_bmus_op(bmus)
+#		dist_bmu = self.dist_bmus_op(bmus)
-		neighbour = self.R(dist_bmu,tf.cast(self.learning_rate(self.it),tf.float64)*max(self.dim)/2.0)
+#		neighbour = self.R(dist_bmu,tf.cast(self.learning_rate(self.it),tf.float64)*max(self.dim)/2.0)
-		return res*tf.transpose(neighbour)
+#		return res*tf.transpose(neighbour)
 	def dist2units(self,data,units=None):
 		if units is None:
--- a/scripts/SLSOM/SSOM.py
View file @a51525c
+++ b/scripts/SLSOM/SSOM.py
View file @a51525c
@@ -21,12 +21,14 @@ def init_SLSOM(path,som):
 	return tmp
 class SLSOM(object):
-	def __init__(self,som,nb_label,loss_type='cross_entropy',verbose=True):
+	def __init__(self,som,nb_label,loss_type='cross_entropy',alpha0 = 1.0, alpha1 = 0.6,verbose=True):
 		self.tf_object = som.tf_object
 		self.ulen = som.ulen
 		self.nb_label = nb_label
 		self.som = som
 		self.loss_type = loss_type
+		self.alpha0 = alpha0
+		self.alpha1 = alpha1
 		self.verbose = verbose
 		with self.tf_object.graph.as_default():
 			self.W = tf.Variable(tf.random_normal([self.ulen,self.nb_label],dtype=tf.float64))
@@ -41,12 +43,11 @@ class SLSOM(object):
 			self.update_it = self.it.assign_add(1)
 			self.data = self.som.sim2units(self.som.data2pred)
-
+#			self.datapred = tf.one_hot(
-			self.datapred = tf.one_hot(
+#				self.som.bmu_finder(self.som.data2pred,self.som.units),
-				self.som.bmu_finder(self.som.data2pred,self.som.units),
+#				self.som.ulen,
-				self.som.ulen,
+#				dtype=tf.float64
-				dtype=tf.float64
+#			)
-			)
 			self.data_size = tf.placeholder(tf.int32,shape=[1])
 			self.lambda_penality = tf.placeholder(tf.float64,shape=[1])
@@ -58,7 +59,10 @@ class SLSOM(object):
 			self.update_it_som = self.som.it.assign_add(1)
 	def learning_rate(self,it):
-		return 1.0-tf.cast(self.it,tf.float64)/(tf.cast(self.it_max,tf.float64))
+		#tmp = 1.0/(tf.cast(self.it,tf.float64)+1.0)
+		#return tf.Print(tmp,[tmp],"IT : ")
+		tmp = 1.0-tf.cast(self.it,tf.float64)/(tf.cast(self.it_max,tf.float64))
+		return tmp
 	def save(self,path):
 		W = self.get_W()
@@ -82,7 +86,7 @@ class SLSOM(object):
 		dist = self.som.dist2units(self.som.data2pred)
 		bmus = tf.argmin(dist,1)
 		dist_bmu = self.som.dist_bmus_op(bmus)
-		neighbour = self.som.R(dist_bmu,tf.cast(self.learning_rate(self.it),tf.float64)*max(self.som.dim)/2.0)
+		neighbour = self.som.R(dist_bmu,(self.alpha1 + (self.alpha0 - self.alpha1)*tf.cast(self.learning_rate(self.it),tf.float64))*max(self.som.dim))
 		x = x*tf.transpose(neighbour)
 		y = tf.matmul(
@@ -90,28 +94,36 @@ class SLSOM(object):
 				self.W
 			) + self.biases
+		if self.loss_type == 'cross_entropy':
+			self.loss = tf.reduce_mean(tf.nn.sparse_softmax_cross_entropy_with_logits(logits=y, labels=self.labels))
+		else :
 			y_ = tf.one_hot(
 				self.labels,
 				self.nb_label,
 				dtype=tf.float64
 			)
-		if self.loss_type == 'cross_entropy':
+			self.loss = 0.5*tf.reduce_mean(tf.pow(tf.nn.softmax(y) - y_,2.0))
-			loss = tf.reduce_mean(tf.nn.sparse_softmax_cross_entropy_with_logits(logits=y, labels=self.labels))
-		else :
-			loss = 0.5*tf.reduce_mean(tf.pow(tf.nn.softmax(y) - y_,2.0))
 		regularizer = tf.contrib.layers.l2_regularizer(self.lambda_penality)
 		penality = regularizer(self.W)
-		optimizer = tf.train.GradientDescentOptimizer(0.3*self.learning_rate(self.it))
-		optimizer2 = tf.train.GradientDescentOptimizer(self.learning_rate(self.it))
-		loss2 = tf.add(loss,penality)
+		optimizer = tf.train.GradientDescentOptimizer(0.1*self.learning_rate(self.it))
-		applied = optimizer.minimize(loss2,var_list=[self.W,self.biases])
+		#optimizer2 = tf.train.GradientDescentOptimizer(0.3*self.learning_rate(self.it))
-		applied2 = optimizer2.minimize(loss2,var_list=[self.som.units])
+		
-		return (applied,applied2)
+		loss2 = tf.add(self.loss,penality)
+		applied = optimizer.minimize(loss2,var_list=[self.W,self.biases,self.som.units])
+		#applied2 = optimizer2.minimize(loss2,var_list=[])
+		#return (applied,applied2)
+		return applied
 	def proba_class_op(self):
-		x = self.datapred
+#		x = self.datapred
+		x = self.data
+		dist = self.som.dist2units(self.som.data2pred)
+		bmus = tf.argmin(dist,1)
+		dist_bmu = self.som.dist_bmus_op(bmus)
+		neighbour = self.som.R(dist_bmu,self.alpha1*max(self.som.dim)/2.0)
+		x = x*tf.transpose(neighbour)
 		y = tf.matmul(
 				x,
 				self.W
@@ -127,24 +139,39 @@ class SLSOM(object):
 	def get_biases(self):
 		return self.tf_object.run(self.biases)
-	def train(self,data,labels,max_it=2000,batch_size=10, penality=0.001):
+	def train(self,data,labels,nb_it=2000,batch_size=10, penality=0.001):
-		it = np.array([max_it])
 		nb_data = data.shape[0]
 		pen = np.array([penality])
 		data2 = data
-		for i in range(max_it):
+		loss_old = 0.0
+		run = True
+		it = 0
+		while run:
 			if self.verbose:
-				print("It SLSOM: "+str(i))
+				print("It SLSOM: "+str(it))
-			idx = np.random.randint(nb_data,size=batch_size)
+#			idx = np.random.randint(nb_data,size=batch_size)
-			self.tf_object.run(self.train_op,
+#			_, loss = self.tf_object.run([self.train_op,self.loss],
+#				feed_dict={
+#					self.som.data2pred:data2[idx,:],
+#					self.data_size:np.array([batch_size]),
+#					self.labels:labels[idx],
+#					self.lambda_penality:pen,
+#					self.it_max:nb_it
+#					})
+			_, loss = self.tf_object.run([self.train_op,self.loss],
 				feed_dict={
-					self.som.data2pred:data2[idx,:],
+					self.som.data2pred:data,
-					self.data_size:np.array([batch_size]),
+					self.labels:labels,
-					self.labels:labels[idx],
 					self.lambda_penality:pen,
-					self.it_max:max_it
+					self.it_max:nb_it
 					})
-			self.tf_object.run(self.update_it)
+			delta_loss = np.absolute(loss - loss_old)
+			if self.verbose:
+				print("Diff loss: "+str(delta_loss))
+			if delta_loss < np.power(10.0,-6.0) or not it < nb_it:
+				run = False
+			it = self.tf_object.run(self.update_it)
+			loss_old = loss
 	def predict(self,data):
 		pred,proba = self.tf_object.run([self.prediction,self.proba_data_op],
--- a/scripts/SLSOM/performance_measure.py
View file @a51525c
+++ b/scripts/SLSOM/performance_measure.py
View file @a51525c
@@ -12,10 +12,10 @@ class Performance:
 	def Compute_stat(self):
 		positive = (self.arr[:,0] == 1)
 		negative = (self.arr[:,0] == 0)
-		self.TP = float(np.sum(self.arr[positive,1]))
+		self.TP = float(np.sum(self.arr[positive,1]==1))
 		self.TN = float(np.sum(self.arr[negative,1]==0))
 		self.FP = float(np.sum(self.arr[positive,1]==0))
-		self.FN = float(np.sum(self.arr[negative,1]))
+		self.FN = float(np.sum(self.arr[negative,1]==1))
 	#More advanced measure
 	def Sensitivity(self):
@@ -24,9 +24,6 @@ class Performance:
 	def Specificity(self):
 		return self.TN / (self.TN + self.FP)
-	def Precision(self):
-		return self.TP /(self.TP +self.FP)
-	
 	# Advanced measure
 	def Accuracy(self):
 		return (self.TP + self.TN)/(self.TP+self.FP+self.FN+self.TN)
@@ -43,7 +40,6 @@ class Performance:
 		return {
 		"Sensitivity" : self.Sensitivity(),
 		"Specificity" : self.Specificity(),
-		"Precision" : self.Precision(),
 		"Accuracy" : self.Accuracy(),
 		"F1" : self.F1(),
 		"MCC" : self.MCC(),
--- a/scripts/SLSOM/util.py
View file @a51525c
+++ b/scripts/SLSOM/util.py
View file @a51525c
@@ -9,6 +9,7 @@ import os
 import pandas as pd
 from plotnine import *
 from functools import partial
+from concurrent.futures import ThreadPoolExecutor
 '''
 Files checking
@@ -27,16 +28,23 @@ Import data
 '''
 def import_ncRNA(path):
-	file_order = ["CP.txt","ORF.txt","KMER3.txt","KMER6.txt"]
+	file_order = ["CB.txt","ORF.txt","KMER3.txt"]#,"KMER6.txt"]
-	df = pd.read_csv(path+file_order[0],sep=",",header=None)
+	#df = pd.read_csv(path+file_order[0],sep=",",header=None)
+	df_raw = []
+	with ThreadPoolExecutor(max_workers=4) as tp:
+		for x in file_order:
+			df_raw.append(tp.submit(pd.read_csv,path+x,sep=",",header=None))
+		df = df_raw[0].result()
 		for i in range(1,len(file_order)):
-		tmp = pd.read_csv(path+file_order[i],sep=",",header=None)
+			#tmp = pd.read_csv(path+file_order[i],sep=",",header=None)
+			tmp = df_raw[i].result()
 			df = df.merge(tmp,on=0)
+	df = df.fillna(0)
 	data = df.iloc[:,1:].values
 	data_names = df.iloc[:,0].values
 	# Modification
-	data[:,np.arange(4)] = 0.25*data[:,np.arange(4)]
+#	data[:,np.arange(4)] = 0.25*data[:,np.arange(4)]
-	data[:,4] = np.exp(-data[:,4]/200)
+#	data[:,4] = np.exp(-data[:,4]/200)
 	return (data,data_names)
 '''
@@ -70,8 +78,8 @@ def plot_weights(units,m,n,name):
 	features = [
 		np.arange(4),
 		np.arange(4,6),
-		np.arange(6,6+4**3),
+#		np.arange(6,6+4**3),
-		np.arange(6+4**3, units.shape[1])
+#		np.arange(6+4**3, units.shape[1])
 	]
 	for l,f in enumerate(features):
 		dico = []
--- a/scripts/train.py
View file @a51525c
+++ b/scripts/train.py
View file @a51525c
 """ Train IRSOM model on ncRNA.
 Usage:
-	train.py --featurer=<path> --output=<path> (-c <coding>)... (-n <noncoding>)... [--dim0=<value> --dim1=<value> --batch_size=<value> --penality=<value> --keep_features]
+	train.py --featurer=<path> --output=<path> (-c <coding>)... (-n <noncoding>)... [--dim0=<value> --dim1=<value> --batch_size=<value> --penality=<value> --keep_features --verbose]
 	train.py (-h | --help)
 	train.py --version
@@ -12,9 +12,10 @@ Options:
 	-n <noncoding> Path for one or multiple fasta file(s) containing noncoding transcript.
 	--dim0=<value>	SOM dimension 0 (by default at 3)
 	--dim1=<value>	SOM dimension 1 (by default at 3).
-	--batch_size=<value>	the size of the batch given at each iteration (by default at 10).
+	--batch_size=<value>	the size of the batch given at each iteration (by default at 100).
 	--penality=<value>	Coefficient of the regularization term (by default at 0.001).
 	--keep_features	Keep the features computed in the "output" folder.
+	--verbose Produce more output
 """
 from docopt import docopt
@@ -31,10 +32,11 @@ def main():
 	arguments = docopt(__doc__,version="train IRSOM 1.0")
 	output_path = os.path.expanduser(os.path.expandvars(arguments["--output"]))
 	featurer_path = os.path.expanduser(os.path.expandvars(arguments["--featurer"]))
-	map_size_m = int(arguments["--dim0"]) if not arguments["--dim0"] is None else 3
+	map_size_m = int(arguments["--dim0"]) if not arguments["--dim0"] is None else 4
-	map_size_n = int(arguments["--dim1"]) if not arguments["--dim0"] is None else 3
+	map_size_n = int(arguments["--dim1"]) if not arguments["--dim0"] is None else 4
-	batch_size = float(arguments["--batch_size"]) if not arguments["--batch_size"] is None else 10
+	batch_size = float(arguments["--batch_size"]) if not arguments["--batch_size"] is None else 1000
 	penality = float(arguments["--penality"]) if not arguments["--penality"] is None else 0.001
+	verbose = arguments["--verbose"]
 	#Compute features
 	path_feature_root = [output_path+"features/coding", output_path+"features/noncoding"]
@@ -76,12 +78,12 @@ def main():
 	data = np.concatenate(data_coding_list+data_noncoding_list,axis=0)
 	label = np.repeat([0,1],[nb_coding,nb_noncoding])
-	som = SOM(m=map_size_m,n=map_size_n,unit_width=data.shape[1],verbose=False)
+	som = SOM(m=map_size_m,n=map_size_n,unit_width=data.shape[1],verbose=verbose)
-	ssom = SLSOM(som,2,verbose=False)
+	ssom = SLSOM(som,2,verbose=verbose)
 	ssom.tf_object.initialize()
-	ssom.train(data,label,data.shape[0],batch_size,penality)
+	ssom.train(data,label,penality = penality)
 	print("SLSOM learned")
 	check_dir(output_path+"SOM/")
@@ -90,6 +92,7 @@ def main():
 	ssom.save(output_path+"SLSOM/")
 	y,p = ssom.predict(data)
+	np.savetxt(output_path+"proba.txt",np.array(p))
 	rep,_ = som.repartition_map(data,label)
 	plot_repartition(rep,map_size_m,map_size_n,output_path+"plot_repartition")
 	plot_density(label,p,output_path+"plot_density")