个人理财 清理预测分析模型的数据 - 虚拟变量

清理预测分析模型的数据 - 虚拟变量

视频: 【Stata小课堂】第18讲:多元线性回归(Multiple Linear Regression) 2025

视频: 【Stata小课堂】第18讲:多元线性回归(Multiple Linear Regression) 2025
Anonim

您需要确保数据清除了无关的内容,然后才能将其用于预测分析模型,这包括查找和纠正任何包含错误值的记录,并尝试填写任何缺失值,还需要决定是否包含重复记录(例如两个客户帐户),总体目标是确保您用来构建预测模型的信息的完整性,特别要注意数据的完整性,正确性和及时性

<! - 1 - >

创建描述性统计(定量特征),如计算最小和最大值,检查频率分布(发生的频率)和验证预期的范围。定期检查可以帮助您标记任何超出预期范围的数据以进一步研究stigation。任何显示出生日期在九十年代的退休人员的记录都可以通过这种方法加以标记。

另外,交叉检查信息很重要,以确保数据的准确性。要更深入地分析数据特征和识别数据记录之间的关系,可以使用 数据分析 (分析数据可用性并收集数据质量统计信息)和可视化工具。

数据丢失可能是由于特定信息未被记录。在这种情况下,您可以尝试尽可能多地填写;可以很容易地添加合适的默认值来填补某些领域的空白。

<!例如,对于在性别领域缺少价值的医院产科病房中的病人,应用程序可以简单地填写为女性。对于那些因怀孕状况而缺席记录而入院的男性,该记录同样可以填写为不适用。从地址中提供的街道名称和城市可以推断出一个地址丢失的邮政编码。

在信息未知或无法推断的情况下,您需要使用值

其他 而不是空格来指示数据丢失而不影响分析的正确性。数据中的空白可能意味着多个事物,其中大多数不好或不实用。只要你可以,你应该通过有意义的地方填充来指定空白的性质。对于完全由小数和正数(0到100之间的数值)组成的数字数据,例如,用户可以定义数字-999。99作为缺失数据的位置填充。正如可以将玉米田中的玫瑰定义为杂草一样,异常值对于不同的分析可能意味着不同的事情。一些模型的建立只是为了跟踪这些异常值并将其标记出来。欺诈检测模型和犯罪活动监测对这些异常值感兴趣,在这种情况下,这些异常值表明发生了不必要的事情。因此,建议在这种情况下保持数据集中的异常值。但是,当异常值被认为是数据中的异常时 - 只会偏离分析结果并导致错误的结果 - 将其从数据中删除。你不希望发生的事情是你的模型会试图预测异常值,并最终未能预测其他事情。数据中的重复也可能是有用的或令人讨厌的;有些可能是必要的,可以指示价值,并且可以反映数据的准确状态。例如,具有多个账户的客户的记录可以用多个条目来表示(技术上,无论如何)是相同的记录的重复和重复。另外一个例子是,一个客户同时拥有同一家公司的工作电话和个人电话,并且账单到达相同的地址 - 这是非常有价值的东西。同样的道理,当重复的记录对分析没有贡献的价值并且是不必要的时候,那么删除它们可能具有巨大的价值。对于那些删除重复记录的大型数据集来说,尤其如此,可以简化数据的复杂性并减少分析所需的时间。 您可以采取一些特定的程序,防止不正确的数据进入您的系统:

所有收集的数据的质量检查和数据验证。

允许您的客户验证并自行更正其个人资料。

为您的客户提供可能的和期望的值供您选择。定期检查数据的完整性,一致性和准确性。

清理预测分析模型的数据 - 虚拟变量

编辑的选择

记录您的思科网络配置与CDP - 傻瓜

记录您的思科网络配置与CDP - 傻瓜

记录思科网络配置有时没有思科发现协议)可能需要花费数小时在布线室跟踪电缆和记录端口。在某些情况下,配线室是一个真正的老鼠的电缆巢,并且可能需要几个小时的导航才能找出哪些交换机连接到哪个交换机,哪些路由器,...

以太网通道诊断信息收集 - 虚拟

以太网通道诊断信息收集 - 虚拟

诊断思科网络中的以太网通道问题,您首先必须能够收集您的交换机及其配置。为了执行这个任务,你一如既往地依靠Show和debug命令。首先,简要介绍一下show命令的内容。 Switch1> enable Switch1#configure terminal Switch2#show EtherChannel ...

扩展访问控制列表(ACL) - 虚拟

扩展访问控制列表(ACL) - 虚拟

扩展访问控制列表(ACL)允许您允许拒绝来自特定IP地址的流量到特定的目标IP地址和端口。它还允许您指定不同类型的流量,如ICMP,TCP,UDP等。不用说,它非常细化,可以使您非常具体。如果...

编辑的选择

电子项目计划步骤1:设想您的电子项目 - 傻瓜

电子项目计划步骤1:设想您的电子项目 - 傻瓜

设计和建立你的电子项目的细节,你应该退后一步,看看大局。首先,你需要确保你有一个坚实的想法为您的项目。你为什么要建立它?它会做什么,谁来使用它,为什么? ...

电子项目计划步骤4:构建您的电路 - 傻瓜

电子项目计划步骤4:构建您的电路 - 傻瓜

而且你对它的操作感到满意,你可以建立一个永久版本的电路。虽然有几种方法可以做到这一点,但最常见的是在印刷电路板(也称为PCB)上构建电路。请注意,在PCB上组装电路...

电子项目计划步骤3:原型电路 - 假人

电子项目计划步骤3:原型电路 - 假人

永久的电路板,你会想确保它的工作。最简单的方法就是在无焊面包板上构建电路。无焊料面包板可以让您快速组装电路元件而不需要焊接任何东西。相反,您只需将其裸露在外...

编辑的选择

如何替换R中的文本 - 虚拟变量

如何替换R中的文本 - 虚拟变量

R中的sub()函数在文本模式,并用替换文本替换此模式。你使用sub()来替代文本文本,并使用其表兄gsub()来替换所有出现的模式。 (gsub()中的g表示全局。)假设你有句子He ...

中如何成功地遵循命名惯例在R - 傻瓜

中如何成功地遵循命名惯例在R - 傻瓜

R是非常自由的,对象和功能。这个自由是一个很大的祝福,同时也是一个很大的负担。没有人不得不遵循严格的规则,所以在R中编程的人基本上可以按照自己的意愿去做。如何选择一个正确的名字...

中使用函数在R中创建并转换脚本后,如何使用R - dummies中的函数

中使用函数在R中创建并转换脚本后,如何使用R - dummies中的函数

再次使用前面显示的Source()命令将其加载到控制台中。现在你看...什么也没有。 R并不让你知道它已经加载了这个函数,但它已经在工作空间中了,你可以检查一下...