北京国富如荷教育

400-888-4846

全国学习专线 8:00-22:00
北京国富如荷教育
形成数据分析领域生态圈  进一步升级CDA企业内训体系  拥有200多位专业师资  
您当前的位置: >北京想学网 >北京培训学校 >数据清洗分为几种类型

大数据学校新闻

数据清洗分为几种类型

发布时间:2022-02-25 14:03:36 已帮助:40人 来源:北京国富如荷教育

数据清洗分为几种类型

数据清洗分为几种类型

说道数据清洗,许多小伙伴也是有所了解的,今天我们就来说一下数据清洗分为几种类型,希望本篇文章文章的内容对您有所帮助。
一、残缺数据

此类数据主要是缺少某些应包括的信息,如供应商名称、分公司名称、客户区域信息缺失、业务系统中主表与明细表不匹配等。那么对于这一类型的数据就需要过滤出来,并在规定的时间内补全,之后再写入数据仓库。

二、错误数据

这类数据的原因是业务系统完善接收输入后没有判断直接写入背景数据库,如数值数据输成全角数字字符、字符串数据、日期格式不正确、日期越界等。这种类型的数据还需要进行分类,对于类似于全角字符、数据前后出现不可见字符的问题,只能通过编写SQL语句来查找,然后让用户在业务系统改后抽取。日期格式不正确或日期越界的错误会导致ETL运行失败,这种错误需要通过SQL的方式从业务系统数据库挑选出来,交给业务主管部门,要求限期修改,改后提取。

三、重复数据

这种类型的数据,尤其是在维表中,就会出现这种情况,所以要把所有重复数据记录的字段都写出来,让客户进行确认和分析。

资料整理是一个反复的过程,只有不断地发现问题,解决问题,才能在几天内完成。关于是否过滤,一般需要客户确认,被过滤的数据,写到Excel文件把滤数据写到数据表,ETL开发初期每天都会把过滤数据的邮件发送给业务单位,促使他们尽快修改错误,并可以作为未来验证资料的基础。要注意的是,不能过滤有用的数据,要仔细验证每条过滤规则,然后让用户确认。

搞清楚了数据清洗的原则和理论,接下来进行数据清洗就容易很多啦~

看完上面的内容是不是收获满满呢?以上就是本篇文章的全部内容,如有疑问欢迎前来咨询了解。


上一篇:几岁开始学踢足球比较合适
下一篇:如何进行数据清洗
关于我们 | 联系我们 | 北京国富如荷教育地址:北京市海淀区高粱桥斜街59号中坤大厦 咨询电话:400-888-4846
沪ICP备18018862号-5 网站地图 注册 登录 招生合作 版权/投诉 免责声明 更新时间:2025-05-01