Python

Sklearn data imputation

Impute categorial and numeric features using sklearn.impute.SimpleImputer from sklearn.impute import SimpleImputer import pandas as pd df = pd.read_csv('path/to/dataset.csv') # select categorial and numeric columns categorial_columns = df.select_dtypes(include='object').columns num_columns = df.columns.difference(categorial_columns) # replace missing values using the 'most_frequent' strategy. most_frequent_imputer = SimpleImputer(strategy='most_frequent') df[categorial_columns] = most_frequent_imputer.fit_transform(df[categorial_columns]) # replace missing values using the 'median' strategy. median_imputer = SimpleImputer(strategy='median') df[num_columns] = median_imputer.fit_transform(df[num_columns])

Pandas cheat sheets

Pandas cheat sheets Find duplicates by column value: df[df.duplicated(['col_name'])] Find duplicates by row: df[df.duplicated()] Select rows from a DataFrame based on column values df.loc[df['column_name'] == some_value] Rename df column df.rename(columns={'gdp':'log(gdp)'}, inplace=True) Datatype of the columns df.dtypes

Move files and folders

Move files and folder to another destination using python. import os basedir = 'files' new_dst = "new_dst_folder/" for folder in os.listdir(basedir): inner_path = basedir + folder + "/" for file in os.listdir(inner_path): shutil.move(os.path.join(inner_path, file), new_dst)

Rename using Python

The following code snippet renames multiple subfolders and files. import os basedir = "./" for folder in os.listdir(basedir): new_folder_name = folder.translate(str.maketrans({" ": r"-",".": r"_"})) + "_" os.rename(os.path.join(basedir, folder), os.path.join(basedir, new_folder_name) ) for folder in os.listdir(basedir): inner_path = basedir + folder + "/" for file in os.listdir(inner_path): os.rename(os.path.join(inner_path, file), os.path.join(inner_path, folder + file) )