监督算法建模前数据质量检查

一、定义缺失值检测函数

def missing_values_table(df):
        # 总的缺失值
        mis_val = df.isnull().sum()
        
        # 缺失值占比
        mis_val_percent = 100 * df.isnull().sum() / len(df)
        
        # 将上述值合并成表
        mis_val_table = pd.concat([mis_val, mis_val_percent], axis=1)
        
        # 重命名列名
        mis_val_table_ren_columns = mis_val_table.rename(
        columns = {0 : 'Missing Values', 1 : '% of Total Values'})
        
        # 按缺失值占比降序排列
        mis_val_table_ren_columns = mis_val_table_ren_columns[
            mis_val_table_ren_columns.iloc[:,1] != 0].sort_values(
        '% of Total Values', ascending=False).round(1)
        
        # 显示结果
        print ("Your selected dataframe has " + str(df.shape[1]) + " columns.\n"      
            "There are " + str(mis_val_table_ren_columns.shape[0]) +
              " columns that have missing values.")

二、#绘制记录数和违约率的柱状图,以函数的形式呈现,方便后面使用(主要用来分析非数值型字段)

 ## df_data原始数据
 ## target 目标字段
 ## feature要分析的字段
 ## label_rotation 坐标标签是否旋转
 ## horizontal_layout 水平还是垂直放置
def plot_stats(df_data, target, feature,label_rotation=False,horizontal_layout=True):
    temp = df_data[feature].value_counts()
    df1 = pd.DataFrame({feature: temp.index,'Number of contracts': temp.values})

    cat_perc = df_data[[feature, target]].groupby([feature],as_index=False).mean()
    cat_perc.sort_values(by=target, ascending=False, inplace=True)
    
    if(horizontal_layout):
        fig, (ax1, ax2) = plt.subplots(ncols=2, figsize=(12,6))
    else:
        fig, (ax1, ax2) = plt.subplots(nrows=2, figsize=(12,14))
    sns.set_color_codes("pastel")
    s = sns.barplot(ax=ax1, x = feature, y="Number of contracts",data=df1)
    if(label_rotation):
        s.set_xticklabels(s.get_xticklabels(),rotation=45)
    
    s = sns.barplot(ax=ax2, x = feature, y=target, order=cat_perc[feature], data=cat_perc)
    if(label_rotation):
        s.set_xticklabels(s.get_xticklabels(),rotation=45)
    plt.ylabel('Percent of target with value 1 [%]', fontsize=10)
    plt.tick_params(axis='both', which='major', labelsize=10)
    plt.show();

三、绘制记录数和违约率的柱状图,以函数的形式呈现,方便后面使用(主要用来分析数值型字段)

## df_data 数据框
## var 数值型变量名
def plot_distribution(df_data , var):
    i = 0
    t1 = df_data.loc[df_data['left'] != 0]
    t0 = df_data.loc[df_data['left'] == 0]
    len_var = len(var)
    sns.set_style('whitegrid')
    plt.figure()
    fig, ax = plt.subplots(2,2,figsize=(12,12))

    for feature in var:
        i += 1
        plt.subplot(len_var,1,i)
        sns.kdeplot(t1[feature], bw=0.5,label="left = 1")
        sns.kdeplot(t0[feature], bw=0.5,label="left = 0")
        plt.ylabel('Density plot', fontsize=12)
        plt.xlabel(feature, fontsize=12)
        locs, labels = plt.xticks()
        plt.tick_params(axis='both', which='major', labelsize=12)
    plt.show();

四、条形图画法1-离散型变量:反映在某个自变量的取值范围下,目标变量发生的概率

## data_df:原始数据; X_col:自变量列名 ; Y_col:目标变量列名
#data_df  = df
#X_col = 'salary' 
#Y_col= 'left' 
def plot_explore2_char(data_df , X_col , Y_col):
    plt.figure(figsize=(14,14),dpi=100)
    plt.subplot(2,2,1)
    data_df[X_col].value_counts().plot(kind='bar')
    plt.xticks(rotation = 75); plt.xlabel(X_col +' name '); plt.ylabel('Amount of  employee number')
    plt.title('emp Group')

五、条形图画法2-连续型变量:反映在某个自变量的取值范围下,目标变量发生的概率

##条形图画法2-连续型变量
## 旨在反映在某个自变量的取值范围下,目标变量发生的概率    
## data_df:原始数据; X_col:自变量列名 ; Y_col:目标变量列名
#data_df  = df
#X_col = 'average_monthly_hours' 
#Y_col= 'left'   
    
def plot_explore2_num(data_df , X_col , Y_col):
    import copy 
    import numpy as np 
    data_explore = copy.deepcopy(data_df)
    tmp_col_name =X_col+'2'
    #data_explore[tmp_col_name] = pd.cut(data_explore[X_col], bins = np.linspace(round(data_explore[X_col].min()), round(data_explore[X_col].max()), num = 20))
    data_explore[tmp_col_name] = pd.cut(data_explore[X_col], bins = np.linspace(96, 310, num = 11))
    age_groups  = data_explore.groupby(tmp_col_name).mean()
    # 绘制条形图
    import matplotlib
    import matplotlib.pyplot as plt
    import seaborn as sns
    color = sns.color_palette()
    sns.set_style('whitegrid')
    plt.figure()
    plt.bar(age_groups.index.astype(str), 100 * age_groups[Y_col])
    plt.xticks(rotation = 45); plt.xlabel(X_col + '_abandon'); 
    plt.ylabel(Y_col+'_probability(%)')
    plt.title(Y_col + 'probability to ' + X_col +'abandon' )

六、主函数调用

if __name__ == "__main__":
     import pandas as pd
     df= pd.read_csv('D:\PycharmProjects\lessonOnLine\data\HR2.csv')
     df.isnull().sum()             

     missing_values = missing_values_table(df)
     #missing_values.head(20)
#     df.columns.tolist()
#     df['EMPID'] = df.index.tolist()
#     bureau_agg = df.groupby('EMPID', as_index = False).agg(['count', 'mean', 'max', 'min', 'sum']).reset_index()
#     bureau_agg_department = df.groupby('department', as_index = False).agg(['count', 'mean', 'max', 'min', 'sum']).reset_index()
#     
     
     import numpy as np 
     import matplotlib
     import matplotlib.pyplot as plt
     import seaborn as sns
     color = sns.color_palette()
     
    
#     ## 条形图的画法1-分类变量的画法
#     ## department 的原始分布情况
#     plt.figure(figsize=(14,14),dpi=100)
#     plt.subplot(2,2,1)
#     df['department'].value_counts().plot(kind='bar')
#     plt.xticks(rotation = 75); plt.xlabel('department name '); plt.ylabel('Amount of  employee number')
#     plt.title('emp Group')
#     ## 目标变量取值为1时, department的取值情况
#     plt.subplot(2,2,2)
#     df[df['left'] == 1]['department'].value_counts().plot(kind='bar')
#     plt.xticks(rotation = 75); plt.xlabel('department name'); plt.ylabel('left number')
#     plt.title('left Group')
#     ## 各个部门离职的概率
#     department_groups = df.groupby('department').mean()
#     plt.subplot(2,2,3)
#     plt.bar(department_groups.index.astype(str), 100 * department_groups['left'])
#     plt.xticks(rotation = 45); plt.xlabel('department'); plt.ylabel('left probability(%)')
#     plt.title('left probability to salary');
#     
#     
#     
#     ## salary 的原始分布情况
#     plt.figure(figsize=(14,14),dpi=100)
#     plt.subplot(2,2,1)
#     df['salary'].value_counts().plot(kind='bar')
#     plt.xticks(rotation = 75); plt.xlabel('salary degree '); plt.ylabel('Amount of  employee number')
#     plt.title('emp Group')
#     ## 目标变量取值为1时, department的取值情况
#     plt.subplot(2,2,2)
#     df[df['left'] == 1]['salary'].value_counts().plot(kind='bar')
#     plt.xticks(rotation = 75); plt.xlabel('salary degree'); plt.ylabel('left number')
#     plt.title('left Group')
#     ## salay取不同值时,离职的概率
#     salary_groups  = df.groupby('salary').mean()
#     plt.subplot(2,2,3)
#     plt.bar(salary_groups.index.astype(str), 100 * salary_groups['left'])
#     plt.xticks(rotation = 45); plt.xlabel('salary'); plt.ylabel('left probability(%)')
#     plt.title('left probability to salary');
#      
#     ##条形图画法2-连续型变量
#     ## 旨在反映在某个自变量的取值范围下,目标变量发生的概率
#     df['average_monthly_hours2'] = pd.cut(df['average_monthly_hours'], bins = np.linspace(96, 310, num = 11))
#     age_groups  = df.groupby('average_monthly_hours2').mean()
#     #plt.figure(figsize = (8, 8))
#        
#     # 绘制条形图
#     plt.bar(age_groups.index.astype(str), 100 * age_groups['left'])
#     plt.xticks(rotation = 45); plt.xlabel('average_monthly_hours abandon'); plt.ylabel('left probability(%)')
#     plt.title('left probability to average_monthly_hours abandon');
#     
     ## 
     
     df[df['department'] == 'sale']['left'].value_counts()
     ## 函数的调用
     #plot_stats(df, 'left','department',label_rotation= True,horizontal_layout=True)
     plot_distribution(df, ['number_project','average_monthly_hours', 'time_spend_company'])
     
     plot_explore2_char(df ,'salary', 'left')
     plot_explore2_num(df ,'average_monthly_hours' , 'left')

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/559560.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

基于Java SpringBoot+Vue的体育用品库存管理系统

博主介绍:✌程序员徐师兄、7年大厂程序员经历。全网粉丝12w、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ 🍅文末获取源码联系🍅 👇🏻 精彩专栏推荐订阅👇…

链路加密技术:保护数据传输的盾牌

在数字时代,数据安全已经成为我们日常生活和工作中的重要议题。随着网络技术的飞速发展和信息量的爆炸式增长,数据的安全传输变得尤为重要。链路加密技术作为一种重要的网络安全措施,为数据的传输提供了强有力的保障。本文将深入探讨链路加密…

2024第十五届蓝桥杯 Java B组 填空题

声明:博主比较菜,以下均为个人想法。解决方法仅供参考。欢迎大家一起讨论交流! 编程题在文末链接 第一题: 题目: (简洁版)从小到大排列是20或24倍数的正整数,前10个数依次是&…

C语言结课实战项目_贪吃蛇小游戏

目录 最终实现效果: 实现基本的功能: 根据游戏进程解释代码: 游戏初始化: 首先进入游戏,我们应该将窗口名称改为 “贪吃蛇” 并将光标隐藏掉。再在中间打印游戏信息。 之后我们要把地图打印出来: 然后…

【动态规划】C++简单多状态dp问题(打家劫舍、粉刷房子、买卖股票的最佳时机...)

文章目录 前言1. 前言 - 理解动态规划算法2. 关于 简单多状态的dp问题2.5 例题按摩师/打家劫舍 3. 算法题3.1_打家劫舍II3.2_删除并获得点数3.3_粉刷房子3.4_买卖股票的最佳时机含冷冻期3.5_买卖股票的最佳时机含手续费3.6_买卖股票的最佳时机III3.7_买卖股票的最佳时机IV 前言…

开源模型应用落地-chatglm3-6b-gradio-入门篇(七)

一、前言 早前的文章,我们都是通过输入命令的方式来使用Chatglm3-6b模型。现在,我们可以通过使用gradio,通过一个界面与模型进行交互。这样做可以减少重复加载模型和修改代码的麻烦, 让我们更方便地体验模型的效果。 二、术语 2.…

oracle 清空回收站

参考官方文档 select * from user_recyclebin; select * from dba_recyclebin; ---清除回收站中当前用户下的对象 purge recyclebin; ---清除回收站中所有的对象 purge dba_recyclebin; ---清除回收站中指定用户的表 PURGE TABLE owner.table_name; ---清除回收站中指…

精通MongoDB聚合操作API:深入探索高级技巧与实践

MongoDB 聚合操作API提供了强大的数据处理能力,能够对数据进行筛选、变换、分组、统计等复杂操作。本文介绍了MongoDB的基本用法和高级用法,高级用法涵盖了setWindowFields、merge、facet、expr、accumulator窗口函数、结果合并、多面聚合、查询表达式在…

Spring Boot | Spring Boot 应用的 “打包” 和 “部署”

目录: Spring Boot 应用的 “打包” 和 “部署” :一、Jar包方式打包部署 ( SpringBoot默认以 "Jar包" 形式进行 “打包部署” ) :1.1 "Jar包" 方式 “打包” :① 添加Maven “打包插件”② 使用IDEA开发工具进行 "打包" 1.2 "Jar包" …

构建Python中的分布式日志系统:ELK与Fluentd的结合

👽发现宝藏 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。【点击进入巨牛的人工智能学习网站】。 在现代软件开发中,日志系统是至关重要的组成部分。它们不仅用于故障排查和性能监…

户外运动用什么耳机?五款主流运动耳机推荐!

城市的喧嚣和繁忙,常常让我们渴望逃离,去寻找一片属于自己的宁静天地。大自然,便是那个能够抚慰我们心灵、让我们重新找回宁静与美好的地方。对于热爱自然、钟情户外的你,一款合适的运动耳机,无疑是探索自然、享受运动…

贪吃蛇游戏源码(VS编译环境)

贪吃蛇游戏源码(VS编译环境) 🥕个人主页:开敲🍉 🔥所属专栏:C语言🍓 🌼文章目录🌼 1. Snake.h 头文件 2. Snake.c 源文件 3. Test.c 头文件 1. Snake.h 头…

只需几步,即可享有笔记小程序

本示例是一个简单的外卖查看店铺点菜的外卖微信小程序,小程序后端服务使用了MemFire Cloud,其中使用到的MemFire Cloud功能包括: 其中使用到的MemFire Cloud功能包括: 云数据库:存储外卖微信小程序所有数据表的信息。…

二进制OpenStack

二进制搭建OpenStack 1.环境准备 1.1机器的准备 主机名服务器配置操作系统IP地址controller-node4C8Gcentos7.9172.17.1.117computer-node4C8Gcentos7.9172.17.1.118 1.2网络架构 [rootcotroller-node ~]# ip a 1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noque…

dy号转uid和sec_uid

如何将抖dy号转换为uid和sec_uid&#xff1f; 摘要&#xff1a;本文将介绍如何实dy号与uid、sec_uid之间的转换过程&#xff0c;并提供相关的代码示例。 正文&#xff1a; dy作为一款热门的短视频社交平台&#xff0c;每个用户都有着唯一的用户ID&#xff08;uid&#xff09…

VisualGLM-6B的部署步骤

对于如下命令&#xff0c;你将完全删除环境和环境中的所有软件包 conda remove -n env_name --all 一、VisualGLM-6B环境安装 1、硬件配置 操作系统&#xff1a;Ubuntu_64&#xff08;ubuntu22.04.3&#xff09; GPU&#xff1a;4050 显存&#xff1a;16G 2、配置环境 建…

如何在Windows 11上退出安全模式?这里提供详细步骤

序言 安全模式是对电脑进行故障排除的强大工具。通过仅使用关键和必要的软件和服务启动电脑,它可以帮助你确定后台进程是否干扰了你的正常日常使用,或者是否有任何第三方软件导致电脑出现问题并使其难以使用。 如果你想退出安全模式,最简单的方法是重新启动你的电脑。只要…

Spring Boot入门(17):秒懂Spring Boot整合Knife4j,让你的Swagger界面秒变高颜值

前言 在使用Swagger进行API文档编写时&#xff0c;我们不可避免的会遇到Swagger的一些瓶颈。例如&#xff0c;Swagger的UI界面不太友好&#xff0c;样式单调且难看&#xff0c;交互体验也不是很好。为了解决这些问题&#xff0c;我们可以使用Knife4j对Spring Boot进行整合&…

C++笔记:类和对象(一)

类和对象 认识类和对象 先来回忆一下C语言中的类型和变量&#xff0c;类型就像是定义了数据的规则&#xff0c;而变量则是根据这些规则来实际存储数据的容器。类是我们自己定义的一种数据类型&#xff0c;而对象则是这种数据类型的一个具体实例。类就可以理解为类型&#xff0c…

ViM-UNet:用于生物医学细分的 Vision Mamba

ViM-UNet&#xff1a;用于生物医学细分的 Vision Mamba 摘要IntroductionMethod and Experiments结果与讨论 ViM-UNet: Vision Mamba for Biomedical Segmentation 摘要 卷积神经网络&#xff08;CNNs&#xff09;&#xff0c;尤其是UNet&#xff0c;是生物医学分割的默认架构…