视频: 77.大數據分析最重要的事:資料清理、分析什麼(用大數據分析做GA網站分析) 2024
在运行预测性分析之前,您需要确保数据是干净无关的东西,然后才能在您的模型。这包括查找并更正任何包含错误值的记录,并尝试填写缺失的值。您还需要决定是否包含重复记录(例如,两个客户帐户)。总体目标是确保您用于构建预测模型的信息的完整性。要特别注意数据的完整性,正确性和及时性。
<! - 1 - >
为各个领域创建描述性统计量 (定量特性),如计算最小和最大值,检查 频率分布 )并验证预期的范围。运行定期检查可以帮助您标记超出预期范围的任何数据以供进一步调查。任何显示出生日期在九十年代退休人员的记录都可以用这种方法加以标记。
数据分析 (分析数据可用性并收集有关数据质量的统计数据)以及可视化工具。 数据丢失可能是由于特定信息未被记录。在这种情况下,您可以尝试尽可能多地填写;可以很容易地添加合适的默认值来填补某些领域的空白。
<!例如,对于性病领域缺少价值的医院产科病房的病人,申请可以简单填写为女性。对于那些因怀孕状况而缺席记录而入院的男性,该记录同样可以填写为不适用。
从地址中提供的街道名称和城市可以推断出一个地址缺少的邮政编码。在信息未知或无法推断的情况下,您将需要使用
其他
值而不是空格来指示数据丢失而不影响分析的正确性。数据中的空白可能意味着多个事物,其中大多数不好或不实用。只要你可以,你应该通过有意义的地方填充来指定空白的性质。正如可以将玉米田中的玫瑰定义为杂草一样,异常值对于不同的分析可能意味着不同的事情。一些模型的建立只是为了跟踪这些异常值并将其标记出来。 欺诈检测模型和犯罪活动监测对这些异常值感兴趣,在这种情况下,这些异常值表明发生了不必要的事情。因此,建议在这些情况下保持数据集中的异常值。但是,当异常值被认为是数据中的异常时 - 只会偏离分析结果并导致错误的结果 - 将其从数据中移除。数据中的重复也可能是有用的或令人讨厌的;有些可能是必要的,可以指示价值,并且可以反映数据的准确状态。例如,具有多个账户的客户的记录可以用多个条目来表示(技术上,无论如何)是相同的记录的重复和重复。同样的道理,当重复的记录对分析没有贡献的价值并且是不必要的,那么去除它们可能具有巨大的价值。对于那些删除重复记录的大型数据集来说,尤其如此,可以简化数据的复杂性并减少分析所需的时间。 您可以采取一些特定的程序,以防止不正确的数据进入您的系统:
所有收集的数据的质量检查和数据验证。
允许您的客户验证并自行更正其个人资料。
为您的客户提供可能的和期望的值供您选择。定期检查数据的完整性,一致性和准确性。