清理预测分析模型的数据 - 虚拟变量

视频: 【Stata小课堂】第18讲：多元线性回归(Multiple Linear Regression) 2025

您需要确保数据清除了无关的内容，然后才能将其用于预测分析模型，这包括查找和纠正任何包含错误值的记录，并尝试填写任何缺失值，还需要决定是否包含重复记录（例如两个客户帐户），总体目标是确保您用来构建预测模型的信息的完整性，特别要注意数据的完整性，正确性和及时性

<！ - 1 - >

创建描述性统计（定量特征），如计算最小和最大值，检查频率分布（发生的频率）和验证预期的范围。定期检查可以帮助您标记任何超出预期范围的数据以进一步研究stigation。任何显示出生日期在九十年代的退休人员的记录都可以通过这种方法加以标记。

另外，交叉检查信息很重要，以确保数据的准确性。要更深入地分析数据特征和识别数据记录之间的关系，可以使用数据分析（分析数据可用性并收集数据质量统计信息）和可视化工具。

数据丢失可能是由于特定信息未被记录。在这种情况下，您可以尝试尽可能多地填写;可以很容易地添加合适的默认值来填补某些领域的空白。

<！例如，对于在性别领域缺少价值的医院产科病房中的病人，应用程序可以简单地填写为女性。对于那些因怀孕状况而缺席记录而入院的男性，该记录同样可以填写为不适用。从地址中提供的街道名称和城市可以推断出一个地址丢失的邮政编码。

在信息未知或无法推断的情况下，您需要使用值

其他而不是空格来指示数据丢失而不影响分析的正确性。数据中的空白可能意味着多个事物，其中大多数不好或不实用。只要你可以，你应该通过有意义的地方填充来指定空白的性质。对于完全由小数和正数（0到100之间的数值）组成的数字数据，例如，用户可以定义数字-999。99作为缺失数据的位置填充。正如可以将玉米田中的玫瑰定义为杂草一样，异常值对于不同的分析可能意味着不同的事情。一些模型的建立只是为了跟踪这些异常值并将其标记出来。欺诈检测模型和犯罪活动监测对这些异常值感兴趣，在这种情况下，这些异常值表明发生了不必要的事情。因此，建议在这种情况下保持数据集中的异常值。但是，当异常值被认为是数据中的异常时 - 只会偏离分析结果并导致错误的结果 - 将其从数据中删除。你不希望发生的事情是你的模型会试图预测异常值，并最终未能预测其他事情。数据中的重复也可能是有用的或令人讨厌的;有些可能是必要的，可以指示价值，并且可以反映数据的准确状态。例如，具有多个账户的客户的记录可以用多个条目来表示（技术上，无论如何）是相同的记录的重复和重复。另外一个例子是，一个客户同时拥有同一家公司的工作电话和个人电话，并且账单到达相同的地址 - 这是非常有价值的东西。同样的道理，当重复的记录对分析没有贡献的价值并且是不必要的时候，那么删除它们可能具有巨大的价值。对于那些删除重复记录的大型数据集来说，尤其如此，可以简化数据的复杂性并减少分析所需的时间。您可以采取一些特定的程序，防止不正确的数据进入您的系统：

所有收集的数据的质量检查和数据验证。

允许您的客户验证并自行更正其个人资料。

为您的客户提供可能的和期望的值供您选择。定期检查数据的完整性，一致性和准确性。