个人理财 清理预测分析模型的数据 - 虚拟变量

清理预测分析模型的数据 - 虚拟变量

视频: 【Stata小课堂】第18讲:多元线性回归(Multiple Linear Regression) 2025

视频: 【Stata小课堂】第18讲:多元线性回归(Multiple Linear Regression) 2025
Anonim

您需要确保数据清除了无关的内容,然后才能将其用于预测分析模型,这包括查找和纠正任何包含错误值的记录,并尝试填写任何缺失值,还需要决定是否包含重复记录(例如两个客户帐户),总体目标是确保您用来构建预测模型的信息的完整性,特别要注意数据的完整性,正确性和及时性

<! - 1 - >

创建描述性统计(定量特征),如计算最小和最大值,检查频率分布(发生的频率)和验证预期的范围。定期检查可以帮助您标记任何超出预期范围的数据以进一步研究stigation。任何显示出生日期在九十年代的退休人员的记录都可以通过这种方法加以标记。

另外,交叉检查信息很重要,以确保数据的准确性。要更深入地分析数据特征和识别数据记录之间的关系,可以使用 数据分析 (分析数据可用性并收集数据质量统计信息)和可视化工具。

数据丢失可能是由于特定信息未被记录。在这种情况下,您可以尝试尽可能多地填写;可以很容易地添加合适的默认值来填补某些领域的空白。

<!例如,对于在性别领域缺少价值的医院产科病房中的病人,应用程序可以简单地填写为女性。对于那些因怀孕状况而缺席记录而入院的男性,该记录同样可以填写为不适用。从地址中提供的街道名称和城市可以推断出一个地址丢失的邮政编码。

在信息未知或无法推断的情况下,您需要使用值

其他 而不是空格来指示数据丢失而不影响分析的正确性。数据中的空白可能意味着多个事物,其中大多数不好或不实用。只要你可以,你应该通过有意义的地方填充来指定空白的性质。对于完全由小数和正数(0到100之间的数值)组成的数字数据,例如,用户可以定义数字-999。99作为缺失数据的位置填充。正如可以将玉米田中的玫瑰定义为杂草一样,异常值对于不同的分析可能意味着不同的事情。一些模型的建立只是为了跟踪这些异常值并将其标记出来。欺诈检测模型和犯罪活动监测对这些异常值感兴趣,在这种情况下,这些异常值表明发生了不必要的事情。因此,建议在这种情况下保持数据集中的异常值。但是,当异常值被认为是数据中的异常时 - 只会偏离分析结果并导致错误的结果 - 将其从数据中删除。你不希望发生的事情是你的模型会试图预测异常值,并最终未能预测其他事情。数据中的重复也可能是有用的或令人讨厌的;有些可能是必要的,可以指示价值,并且可以反映数据的准确状态。例如,具有多个账户的客户的记录可以用多个条目来表示(技术上,无论如何)是相同的记录的重复和重复。另外一个例子是,一个客户同时拥有同一家公司的工作电话和个人电话,并且账单到达相同的地址 - 这是非常有价值的东西。同样的道理,当重复的记录对分析没有贡献的价值并且是不必要的时候,那么删除它们可能具有巨大的价值。对于那些删除重复记录的大型数据集来说,尤其如此,可以简化数据的复杂性并减少分析所需的时间。 您可以采取一些特定的程序,防止不正确的数据进入您的系统:

所有收集的数据的质量检查和数据验证。

允许您的客户验证并自行更正其个人资料。

为您的客户提供可能的和期望的值供您选择。定期检查数据的完整性,一致性和准确性。

清理预测分析模型的数据 - 虚拟变量

编辑的选择

中进行情景分析在您的财务模型中进行情景分析 - 虚拟

中进行情景分析在您的财务模型中进行情景分析 - 虚拟

完成了所有计算财务模型,做大量的敏感性和情景分析。敏感性分析的压力测试将检查模型的公式和逻辑的内部运作是正确的,但假设是多么现实?如果发生绝对最糟糕的情况,底部会发生什么情况?

使用Excel Dashboards的数据透视表创建柱状图 - 您知道您可以使用虚拟变量

使用Excel Dashboards的数据透视表创建柱状图 - 您知道您可以使用虚拟变量

数据透视表作为Excel仪表板和报告的直方图的来源?那就对了。用一个鲜为人知的技巧,你可以创建一个像数据透视表一样交互的直方图!使用数据透视表创建直方图的第一步是创建一个频率...

通过快速分析工具在Excel 2013中创建图表 - 虚拟人物

通过快速分析工具在Excel 2013中创建图表 - 虚拟人物

要选择Excel 2013中数据表的一个子集作为要绘制的范围(而不是在数据表中选择单个单元格),可以使用新的快速分析工具创建图表。请按照以下步骤操作:

编辑的选择

SQL WHERE子句谓词 - 虚拟子

SQL WHERE子句谓词 - 虚拟子

谓词归结为TRUE或FALSE结果。您可以通过应用WHERE子句(其谓词排除不需要的行)来从SQL查询的结果中筛选出不需要的行。比较谓词=等于 不等于 小于等于>大于> =大于...

MySQL安全数据库 - 虚拟机

MySQL安全数据库 - 虚拟机

所有用于保护数据的信息都存储在此数据库中,包括帐户名称,主机名,密码和权限。权限被存储在列中。每个列名的格式是Privilege_priv,其中特权是特定的帐户特权。例如,...

编辑的选择

如何使用IPhoto查看翻转视频文件 - 傻瓜

如何使用IPhoto查看翻转视频文件 - 傻瓜

选择使用IPhoto查看和管理Flip Video相机中的文件。如果将iPhoto定义为将Flip连接到Mac时运行的默认程序,请执行以下步骤:将Flip插入Mac上的可用USB端口。 iPhoto ...

如何通过Windows Live图库查看翻转视频文件 - 傻瓜

如何通过Windows Live图库查看翻转视频文件 - 傻瓜

从你的翻转相机传输文件到你的电脑,你有几个选择。你使用什么取决于你使用什么类型的操作系统(Windows或Mac),以及将Flip插入计算机时会发生什么。 Windows Live照片库是...