小伞文学网

数据错误总结(9篇)

admin
导读 在刚刚接手新业务,对于底层数据还不是很了解的情况下,经常犯该类错误。例如:业务需要你输出主页pv数据,你通过A表xxx一个字段为主页pv,于是在不假思索的情况下,使用了该表中的该字段,却未发现,这两个主页pv含义并不一致。

数据错误总结 第1篇

错误1:底层逻辑一知半解,主观臆断输出数据

在刚刚接手新业务,对于底层数据还不是很了解的情况下,经常犯该类错误。例如:业务需要你输出主页pv数据,你通过A表xxx一个字段为主页pv,于是在不假思索的情况下,使用了该表中的该字段,却未发现,这两个主页pv含义并不一致。

解决方案:数据侧,通过表的血缘关系,熟悉核心表的生成逻辑,确保每个字段都了然于心;业务侧,与业务聊需求时,要将需求细化到每个指标的逻辑含义,并得到业务方的认同。

错误2:抽取分析样本,不知不觉陷入幸存者偏差

幸存者偏差相信大家都有所耳闻,通俗来讲就是:分析的抽样样本,被人为的进行主动或被动的筛选,导致样本无法代表总体。举两个案例,大家看看是否遇到过:

案例1:xxx需要对某APP做用户满意度调研,于是抽取了某日的活跃用户发放调研问卷。

案例2:xxx需要分析一下C功能是否对用户的活跃度产生影响,由于C功能入口较深,于是,xxx用APP大盘用户与应用C功能的用户做对比,发现应用过C功能的用户活跃度明显高于大盘,于是得出C功能对用户的活跃有明显正向作用。

以上两个案例,是我们日常工作中经常遇到的,相信大家也看出来了,均存在幸存者偏差。

解决方案:筛选用户的时候,分析组与对照组用户要能够在各个维度上尽量打平,可通过PSM(倾向性得分)进行拉平,在此基础之上,再进行各种分析应用。

错误3:样本不是总体,分布存在差异

在一些分析场景中,由于总体数据量级较大,因此,常常使用随机抽样的方式,用样本结果代替总体结果。但往往由于样本与总体的分布存在差异,从而导致结论有偏。AB实验是最常遇到的场景之一。

AB实验当中,由于指标在不同量级上的稳定性存在差异,因此会出现,实验全量上线后的效果,与实验期的效果,存在差别。

解决方案:控制抽取样本的完全随机性,以及通过假设检验方式,判断需要的最小样本量,保证样本结论与总体结论尽可能方向一致。

数据错误总结 第2篇

问题分析与解决方案

问题分析与解决方案

问题分析与解决方案

dependent on columns in GROUP BY clause; this is incompatible with sql_mode=only_full_group_by

问题分析与解决方案

按照部门id分组,但是却要出现所有的salary,相当于部门分组,但是其他没有,导致GROUP BY 没效果

正确写法(不要有重复,让GROUP BY 失效)

near ‘user test1’ at line 1

问题分析与解决方案

问题分析与解决方案

问题分析与解决方案

with sql_mode=only_full_group_by

问题分析与解决方案

简而言之 任何没有出现在group by子句中的属性,如果想要出现在select子句中的话,那么该属性只能出现在聚集函数的内部

问题分析与解决方案

这里的AVG(salary)对应了两列操作数,所以出现了不知道匹配谁的问题.

问题分析与解决方案

问题分析与解决方案

问题分析与解决方案

问题分析与解决方案

问题分析与解决方案

数据错误总结 第3篇

错误4:绝对值与相对值,哪个更具有代表意义?

在给出数据结论时,经常会用到绝对或相对变化进行度量。一般在对整体指标进行前后时间段对比时,相对值会更直观一些。那抛出一个问题,如果是多维度及多维度值,评估指标对大盘的影响,用绝对值好,还是相对值好呢?

通过绝对值来表现:量级越大的维度值,指标绝对变化普遍偏大,不足以得出结论;

通过相对值来表现:量级越小的维度值,指标波动往往较大,相对差异普遍偏大,同样不足以得出结论。

解决方案:引入贡献度的概念,将维度值变化情况归总到整体,评估对整体的影响程度。这里不再展开,感兴趣的同学可以查看

数据分析资料(获取可戳链接):数据分析方法论图谱

以上就是本期的内容分享

如果你也对数据分析感兴趣,那就来关注我吧,更多「原创」文章,与你分享!!

微信公众号:小火龙说数据

数据错误总结 第4篇

数据清洗是数据分析过程中的一个关键步骤,它可以保证数据的准确性和完整性。以下是数据清洗中的常见错误介绍:

1.缺失值处理错误

缺失值是数据分析中常见的问题,如果缺失值处理不当,可能会影响数据分析的准确性。常见的处理方法包括删除缺失值和填充缺失值。但是,如果删除缺失值过多或者填充缺失值不合理,都可能导致数据分析结果不可靠。

2.数据重复处理错误

数据重复是指在数据集中存在相同或者非常相似的数据。如果不进行处理,可能会导致数据分析结果不准确。因此,在进行数据分析之前,需要对数据集进行去重操作。

3.数据格式处理错误

数据格式错误可能会导致数据分析结果不准确。例如,如果将文本数据当作数字数据进行分析,可能会导致结果不可靠。因此,在进行数据分析之前,需要对数据格式进行检查和处理。

数据错误总结 第5篇

数据分析错误可能会导致错误的结论和决策,影响业务结果。以下是一些常见的数据分析错误:

1.数据偏差问题

数据偏差是指数据集中存在一些特殊的数据,导致数据分析结果不准确。例如,如果数据集中的样本不具有代表性,可能会导致数据分析结果不可靠。因此,在进行数据分析之前,需要对数据集进行检查和处理,保证样本具有代表性。

2.数据选择错误

数据选择是指在进行数据分析时,选择的数据不适合分析的问题。例如,如果数据集中的样本数量过少,可能会导致数据分析结果不可靠。因此,在进行数据分析之前,需要对数据集进行检查和处理,选择适合分析的数据。

3.模型选择错误

在进行数据分析时,选择适合的模型非常重要。如果选择的模型不适合数据集,可能会导致数据分析结果不准确。因此,在进行数据分析之前,需要对数据集进行分析,选择适合的模型。

数据错误总结 第6篇

依据经验常识先预设了一个结果,再从结果出发,为结果找原因,这也是一种主观臆断,颠倒了数据分析的逻辑,我们应当是先分析,再结果,现在变成了先结果,再为结果找一个说辞。

避免的方法:

可以有假设,但假设不能等同于结论,大胆假设,小心求证。

在发现澳大利亚的黑天鹅之前,17世纪之前的欧洲人认为天鹅都是白色的。但随着第一只黑天鹅的出现,这个不可动摇的观念崩溃了。

黑天鹅的存在寓意着不可预测的重大稀有事件,它在意料之外,却又改变着一切。人类总是过度相信经验,而不知道一只黑天鹅的出现就足以颠覆一切。

2008年美国次贷危机爆发就是一个典型的黑天鹅事件,大家用通用的风险价值模型预测投资风险,结论是美国商业银行放贷业务崩溃发生的概率只有不到1%,结果我们都知道了,这种不到1%的小概率事件居然发生了。

避免的方法:

所以不要忽视小概率事件,它有可能会造成严重的后果。

数据错误总结 第7篇

数据可视化是将数据转换为易于理解和传达的可视形式的过程。以下是一些常见的数据可视化错误:

1.图表选择错误

在进行数据可视化时,选择适合的图表非常重要。如果选择的图表不适合数据集,可能会导致数据分析结果不准确。因此,在进行数据可视化之前,需要对数据集进行分析,选择适合的图表。

2.图表设计错误

图表设计是指图表的布局、颜色、字体等方面的设计。如果图表设计不合理,可能会影响数据分析结果的可读性和可理解性。因此,在进行数据可视化时,需要注意图表设计的合理性。

数据错误总结 第8篇

数据解释错误可能会导致错误的结论和决策,影响业务结果。以下是一些常见的数据解释错误:

1.数据解释错误

数据解释是指对数据分析结果的解释或者解读不准确。如果数据解释不准确,可能会导致业务决策出现偏差。因此,在进行数据解释时,需要对数据分析结果进行深入理解和分析,保证数据解释准确。

2.业务理解错误

在进行数据分析时,需要对业务进行深入理解。如果对业务理解不深入,可能会导致数据分析结果不符合实际业务需求。因此,在进行数据分析时,需要对业务进行深入理解,保证数据分析结果符合实际业务需求。

综上所述,数据分析过程中常见的错误包括数据清洗错误、数据分析错误、数据可视化错误和数据解释错误。为了避免这些错误,需要对数据进行充分的检查和处理,选择合适的模型和图表,对数据分析结果进行深入理解和分析,保证数据分析结果准确、可靠、具有实际业务价值。

避免数据分析错误的建议

1.在进行数据清洗时,应该仔细检查缺失值、数据重复和数据格式,选择合适的处理方法。

2.在进行数据分析时,应该注意数据偏差、数据选择和模型选择,选择适合的数据集和模型。

3.在进行数据可视化时,应该选择适合的图表,并注意图表设计的合理性。

4.在进行数据解释时,应该对数据分析结果进行深入理解和分析,并与业务需求相结合。

数据分析是一项非常重要的工作,可以为业务决策提供有力的支持。但是,数据分析过程中常见的错误很容易导致数据分析结果不准确,影响业务决策。因此,需要对数据进行充分的检查和处理,选择合适的模型和图表,并对数据分析结果进行深入理解和分析,保证数据分析结果准确、可靠、具有实际业务价值。

数据错误总结 第9篇

在可视化阶段,容易犯的错误:

用文字来表达结果,肯定不如直接上图更显而易见。

避免的方法:

能用图表展示的结论就少用文字来描述。

比不做图表更可怕的是做出具有误导性的图表。常见的比如把Y轴的刻度不从0开始计,这样得到的图形走势就显得差距非常大,给人造成一定程度上的视觉冲击,但实际上,差距并没有那么大。

举个例子:

下图中净利润的增长可以看到Q4增长幅度非常明显,但仔细一看可以发现,纵坐标是从13%开始的,如果把纵坐标调成0%开始,就会发现这个增长幅度其实并不明显。

纵坐标从13%开始

纵坐标从0开始

避免的方法:

保持客观的态度做图表,不要被心里预设的结论所左右,该是什么就是什么。