杜凯杰教学数据分析:python百万级数据集中异常值、离群值查找及替换,快捷实用!

心随你远行 阅读:5674 2019-08-26 16:49:48 评论:0
网赌被黑找阿千出黑【微信:js4926 QQ:861122225】 网赌被黑不给出款挽回损失的方法,网赌被黑无法出款怎么办,网赌被黑了怎么办,网赌被黑无法取款怎么办,网赌被黑无法提款怎么办,网赌被黑无法提现怎么办,网赌被黑审核不通过怎么办,腾龙专业出黑团队不收前期费用,网上赌钱不给出款,网上网赌被黑该怎么办,网赌被黑前兆,关于网赌出黑的一些技巧分享!

杜凯杰教学数据分析python百万级数据集中异常值、离群值查找及替换,快捷实用!
杜凯杰教学数据分析
>点击下数据集<<
之前有教过空值的处理方法,根据以往的经验,一般我们在处理小规模数据时都是用肉眼扫描的方式去查看数据中的异常值,即不科学,鲁棒性也不强,不适于中大规模数据集,本次着重介绍一下异常数据的查找及处理操作。

第一步:打开数据集,查看文档内容信息

import pandas as pd
import datetime
import numpy as np
df=pd.read_csv(‘calendar_detail.csv’)
df.head(5)

杜凯杰教学数据分析

df.info()  //查看数据结构信息

杜凯杰教学数据分析
第二步:查找异常值、离群值,并替换异常值、离群值
1、”listing_id”列无意义,可直接删除

df=df.drop(“listing_id”,axis=1)

2、”date”列需要转成日期型数据,方便后续做时间序列模型时使用,鉴别是否含有异常值及含有哪些异常值的方法我们可以做个循环,逐条转换,当有不符合要求的异常数据时显示出来

for i in df.date:
	 try:
		 datetime.datetime.strptime(i,”%Y-%m-%d”)
	 except:
		 print(i)

杜凯杰教学数据分析
3、”price”,”adjusted_price”用同样的鉴别方法,我们将它们转换为浮点型数据(先将”$”,”,”)替换为空

df[‘price’]=df[‘price’].str.replace(“$”,””).str.replace(“,”,””)
df[‘adjusted_price’]=df[‘adjusted_price’].str.replace(“$”,””).str.replace(“,”,””)
for i in df.price:
	try:
		np.float64(i)
	except:
		print(i)

杜凯杰教学数据分析
4、所有的异常值全部查出后,替换为正常值

df=df.replace(“2019-511″,”2019-5-11”).replace(“20195-23″,”2019-5-     23”).replace(“5s11.00″,”511.00”).replace(“5的11.00″,”511.00”)

到这里百万级数据集中的异常值、离群值,已经全部找出,并进行了替换,剩下的就是数据类型转换,用”df=df[‘列名’].astype(‘需要转换的数据类型’)”完成数据类型的转换,一切操作完成后即可进入下一步建模的过程 详细阅读

网赌被黑找阿千出黑QQ:861122225,专业出黑网赌追款团队帮您解决,多年经验为您提供优质方案

推荐阅读:

未命名

  • (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();
    声明

    1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

    发表评论
    搜索
    排行榜