.

大数据质量有何不同?

如果严格讲大数据,我们必须注意:并非所有这些标准都适用于大数据,并且并非所有标准都可以100%实现。

与问题 一致性 是大数据的特定特征首先考虑了“噪音”。大数据的庞大数量和结构使其难以删除 所有的。有时甚至没有必要。但是,在某些情况下,大数据中的逻辑关系必须存在。例如,如果银行的大数据工具检测到潜在的欺诈行为(例如,当您居住在亚利桑那州时,您的卡曾在柬埔寨使用过)。大数据工具监视您的社交网络。它可以检查您是否在柬埔寨度假。换句话说,它与来自不同数据集的有关您的信息相关,因此需要一定程度的一致性(银行帐户和社交网络帐户之间的准确链接)。

鉴于在社交网络中收集关于特定产品的意见时,重复和矛盾是可以接受的。有些人可能拥有多个帐户,并在不同的时间使用它们,第一种情况是他们喜欢该产品,第二种情况是他们讨厌该产品。为什么还好呢?因为在很大程度上,它不会影响您的大数据分析结果。

关于 准确性 ,我们在本文前面已经概述了它的级别因任务而异。想像一下情况:您需要分析上个月的信息,而价值2天的数据将消失。没有这些数据,您将无法真正计算出准确的数字。而且,如果我们谈论的是电视广告的观点,则不是那么关键:如果没有它们,我们仍然可以计算每月的平均值和趋势。但是,如果情况更加严重,需要更复杂的计算或详尽的历史记录(例如 如果有心脏监护仪),不正确的数据可能导致错误的决策甚至更多的错误。

完整性 也不必担心太多,因为大数据自然会带来很多差距。但没关系。在相同情况下,如果2天的数据消失了,由于大量其他相似数据,我们仍然可以获得不错的分析结果。即使没有这可怜的部分,整个画面仍然足够。

至于 可审核性 ,大数据确实为它提供了机会。如果您要检查大数据质量,则可以。虽然,您的公司将为此花费时间和资源。例如,创建脚本来检查数据质量并运行这些脚本,由于数据量大,这可能会花费很大。

现在到 有序 。您可能已经准备好应对数据中的某种程度的“可控制的混乱”。例如,数据湖通常不会过多地关注数据的结构和价值。他们只是存储他们得到的东西。但是,在将数据加载到大数据仓库之前,通常需要进行清理程序,这可以部分确保数据的有序性。但只有 部分地 .

保持“肮脏”还是“干净”?

如您所见,这些大数据质量标准都不严格也不适合所有情况。量身定制大数据解决方案以满足 所有 这些可能会:

  • 花费很多。
  • 需要很多时间。
  • 降低系统性能。
  • 完全不可能。

这就是为什么一些公司都没有追求的原因 清洁 数据,也不要呆在 一。他们一起去 “足够好的数据”。这意味着他们设置了一个最小的令人满意的阈值,可以为他们提供足够的分析结果。然后 他们确保数据质量始终高于数据质量。

如何提高大数据质量?

在决定大数据质量策略并执行其他任何操作时,我们有3条经验法则供您遵循 数据质量管理程序:

Rule 1: 注意数据源。您应该对数据源具有特定的可靠性层次结构,因为并非所有数据源都具有同样体面的信息。来自开放或相对不可靠来源的数据应始终进行验证。这样的可疑数据源的一个很好的例子是社交网络:

  • 追溯社交媒体上提到的特定事件发生的时间是不可能的。
  • 您不确定所提到信息的来源。
  • 否则算法可能难以识别用户帖子中传达的情绪。

Rule 2: 组织适当的存储和转换。如果您想要良好的数据质量,则需要照顾您的数据湖和数据仓库。而且,在将数据从数据湖转移到大数据仓库时,需要采用相当“强大”的数据清理机制。除此之外,此时,您的数据需要与任何其他必要的记录进行匹配,以实现一定程度的一致性(如果需要的话)。

Rule 3: 进行定期审核。我们已经介绍过此内容,但值得特别注意。数据质量审核以及大数据解决方案的所有审核都是维护过程的重要组成部分。您可能需要手动和自动审核。例如,您可以分析数据质量问题并编写将定期运行的脚本并检查数据质量问题区域。 如果您没有处理此类事务的经验,或者不确定是否拥有所需的所有资源,可以考虑 外包您的数据质量审核.

得到它了?

数据质量问题是一个复杂的大数据问题。这是概述要点的捷径:

问:如果您使用质量不好的大数据怎么办?

答:这取决于您的领域和任务。如果您不需要高精度,它可能只会对您造成轻微影响,但是如果您的系统需要非常准确的数据,那么它也可能非常危险。

问:什么是好的数据质量?

答:有5个“ 可可 大数据质量的标准。但是它们并不适合所有人。每个公司都必须决定他们需要的每个标准的级别(总体上以及针对特定任务)。

问:如何提高大数据质量?

答:请谨慎对待数据源,组织适当的存储和转换并进行数据质量审核。

大数据是您业务成功的又一步。我们将帮助您采用高级方法处理大数据,以释放其全部潜力。