为了账号安全,请及时绑定邮箱和手机立即绑定
慕课网数字资源数据库体验端
Python制作数据分析工具_学习笔记_慕课网
为了账号安全,请及时绑定邮箱和手机立即绑定

Python制作数据分析工具

Alex_Cen 产品经理
难度初级
时长 1小时10分
  •  数据诊断的目的

      1.了解特征的分布,缺失和异常等情况

      2.统计指标课直接用于数据与处理

    查看全部
    0 采集 收起 来源:1.2 案例介绍

    2019-03-19

  • 先安装好python。numpy包。pandas包。scipy包

    查看全部
    0 采集 收起 来源:1.2 案例介绍

    2019-02-24

  • 课程目标啊

    查看全部
  • 基本描述统计:

    ##1.Basic Analysis##
    #(1)Missing Value#

    missSet=[np. nan,9999999999,-999999)  (#获取缺失值,使用numpy的nan,事先知道缺失值如9999999,-99999)
    #(2)Count distinct#
    Len(df.iloc[:,0].unique())

    (#对异常值的计数,[:,0]表示所有列的第一列开始,然后找到不同值,再计数)
    count_un = df.iloc[:,0:3].apply ( Lambda x: len(x.unique()))

    (#如果是多列采用这个形式:apply 函数遍历每一列)
    #(3)Zero values#
    np. Sum(df. iloc[:,0] ==0)

    (#还是以第一列为例,找到等于0的,然后将true相加)
    count_zero = df.iloc[:,0:3] .apply ( Lambda x:np.sum(x==0))

    (#还是对多列中等于0的加和)


    查看全部
  • 统计常规指标:

    1.均值、中位数、最大值、最小值等

    2.计数类(如统计某值出现多少)

    3.缺失值和方差等(方差太小没有区分度,缺失值太多也一样)

    分位点、值得频数等(不同的分位点的值相同的情况下,需要关注一下!值得频数就是统计最经常出现的值是谁,有什么比例等)


    查看全部
  • 数据的诊断:

    数据的获取与读取:

    数据的获取:Kaggle.

    数据的读取:

    数据的链接:https://www.kaggle.com/c/santander-customer-satisfaction

    公式的提供:Santander(提供不满意用户,使用调查对因变量分析进而建立模型获取不满意


    查看全部
  • numpy: 对数组向量化;

    pandas: 把数据读成dataframe形式,读写

    scipy: 计算,函数,众数等计算

    1、编码

    2、导入division返回值是一个浮点型的数

    3、导入pd,np,scipy中的stats函数


    查看全部
  • https://img1.sycdn.imooc.com//5bfecb60000128cc08500567.jpg数据诊断的主要指标

    查看全部
  • 依赖包:

    Numpy

    Pandas

    Scipy

    查看全部
  • 开始学习的第一天

    查看全部
  • 基本描述统计:

    ##1.Basic Analysis##
    #(1)Missing Value#

    missSet=[np. nan,9999999999,-999999)  (#获取缺失值,使用numpy的nan,事先知道缺失值如9999999,-99999)
    #(2)Count distinct#
    Len(df.iloc[:,0].unique())

    (#对异常值的计数,[:,0]表示所有列的第一列开始,然后找到不同值,再计数)
    count_un = df.iloc[:,0:3].apply ( Lambda x: len(x.unique()))

    (#如果是多列采用这个形式:apply 函数遍历每一列)
    #(3)Zero values#
    np. Sum(df. iloc[:,0] ==0)

    (#还是以第一列为例,找到等于0的,然后将true相加)
    count_zero = df.iloc[:,0:3] .apply ( Lambda x:np.sum(x==0))

    (#还是对多列中等于0的加和)

    查看全部
  • 统计常规指标:

    1.均值、中位数、最大值、最小值等

    2.计数类(如统计某值出现多少)

    3.缺失值和方差等(方差太小没有区分度,缺失值太多也一样)

    分位点、值得频数等(不同的分位点的值相同的情况下,需要关注一下!值得频数就是统计最经常出现的值是谁,有什么比例等)


    查看全部
  • 数据的诊断:

    数据的获取与读取:

    数据的获取:Kaggle.

    数据的读取:

    数据的链接:https://www.kaggle.com/c/santander-customer-satisfaction

    公式的提供:Santander(提供不满意用户,使用调查对因变量分析进而建立模型获取不满意客户)

    下面进行一个数据的读取:

    ##0.Read Data##
    df =pd.read_csv("./data/train. csv")    #获取要读取的文件格式并命名为df;

    #csv是第一行代码读取的格式;./data/train. csv这个路径也是可以根据自己保存的不同进行更改的。

    label = df ['TARGET']   #将要预测的目标名称赋值给lable;

    #要预测的目标label,TARGET是要预测目标的名字

    df=df.drop( ['ID, 'TARGET'], axis=1)   #将不需要的列给删除掉;

     #将不需要的变量删掉,axis=1表示轴=1; (['ID, 'TARGET'], axis=1)表示删除ID和TARGET这两列。


    查看全部
  • 依赖包:

    Numpy、Pandas、Scripy

    依赖包的导入:(一般采用)

    #-*-coding:utf-8_*_
    from  _future_  import division 
    import pandas as pd 
    import numpy as np 
    from scipy import stats


    查看全部
  • from _future_ import division 确保一个数除以另外一个数不等于0,会返回一个浮点型的数

    查看全部

举报

0/150
提交
取消
课程须知
适合人群:希望从传统分析人员转型到数据挖掘和机器学习领域的人员;技术储备:python基本知识,统计学基本知识
老师告诉你能学到什么?
1.用Python制作一个高效的数据诊断工具; 2.数据诊断的各种指标;
友情提示:

您好,此课程属于迁移课程,您已购买该课程,无需重复购买,感谢您对慕课网的支持!