个人理财 数据缺失值 - 虚拟人物

数据缺失值 - 虚拟人物

目录:

视频: (字幕)練乙錚認為四中全會,香港的未來跟中國利益角力脫不開關係,這時放料林鄭下台,搞不好就是看看反應,或順理成章 2025

视频: (字幕)練乙錚認為四中全會,香港的未來跟中國利益角力脫不開關係,這時放料林鄭下台,搞不好就是看看反應,或順理成章 2025
Anonim

处理最常见和最麻烦的数据问题之一是缺少数据。文件可能不完整,因为记录已被删除或存储设备已满。或者某些数据字段可能不包含某些记录的数据。这些问题的第一个可以通过简单地验证文件的记录计数来诊断。第二个问题更难处理。简单来说,当你找到一个包含缺失值的字段时,你有两个选择:

<! --1 - >

忽略它。把东西粘在田里。
  • 忽略问题

  • 在某些情况下,您可能只需找到大量缺失值的单个字段。如果是这样,最简单的事情就是忽略这个领域。不要把它包含在你的分析中。另一种忽略问题的方法是忽略记录。只需删除包含缺失数据的记录。如果只有少数流氓记录,这可能是有意义的。但是,如果有多个数据字段包含大量缺失值,则此方法可能会将记录数缩减到不可接受的水平。

在删除记录之前要注意的另一件事情是任何模式的迹象。例如,假设您正在分析与全国信用卡余额相关的数据集。你可能会发现一大堆显示$ 0的记录。 00余额(也许大约是记录的一半)。这本身并不意味着缺少数据。但是,如果来自加利福尼亚州的所有记录显示$ 0。 00余额,这表明潜在的缺失值问题。而且这不是一个可以通过删除该国最大的州的所有记录来解决的问题。在这种情况下,这可能是一个系统问题,并指出应该创建一个新的文件。

一般来说,删除记录对于缺失值问题来说是一个简单但不是理想的解决方案。如果问题相对较小而且没有明显的疏漏模式,那么放弃这些违规记录就可以了。但是,经常会有更高尚的做法。

填写缺失的数据

填写缺失的数据等于对该领域的内容进行有根据的猜测。有好的和坏的方法来做到这一点。一个简单的(但是不好的)方法是用缺失值的平均值代替缺失的值。在非数字字段中,您可能会试图使用其他记录(模式)中最常见的值填充缺少的记录。

不幸的是,这些方法在一些商业应用中仍然经常使用。但统计学家普遍认为这是不好的想法。一方面,做统计分析的重点是找到区分一个结果的数据。通过用相同的值替换所有缺少的记录,您没有区分任何东西。

更高尚的方法是试图找到一种方法来以有意义的方式预测每个缺少价值的记录应该填写什么样的价值。这涉及到查看完整的记录,并试图找出缺失值可能的线索。

假设您正在分析人口统计文件以预测您的某个产品的可能购买者。在这个档案中,你可以看到有关婚姻状况,孩子数量和汽车数量等信息。由于某些原因,三分之一的记录中缺少汽车的字段数。

通过分析另外两个领域 - 婚姻状况和孩子数量,你可能会发现一些模式。单身的人往往有一辆车。没有孩子的已婚人士往往有两辆车。拥有一个以上孩子的已婚人士可能更有可能拥有三辆汽车。通过这种方式,您可以用实际区分记录的方式来猜测缺失的值。更多关于这个方法来。统计和数据处理中有一个通用术语,指的是有问题的数据。使用术语

嘈杂

来描述不可靠,损坏或以其他方式比原始数据更少的数据。缺少数据只是这方面的一个例子。一般来说,清除噪音数据的技术的详细描述超出了本书的范围。事实上,这是统计理论研究的一个活跃领域。事实上,所有的噪音并不像丢失的值那样容易被发现,这使得处理起来很麻烦。

数据缺失值 - 虚拟人物

编辑的选择

记录您的思科网络配置与CDP - 傻瓜

记录您的思科网络配置与CDP - 傻瓜

记录思科网络配置有时没有思科发现协议)可能需要花费数小时在布线室跟踪电缆和记录端口。在某些情况下,配线室是一个真正的老鼠的电缆巢,并且可能需要几个小时的导航才能找出哪些交换机连接到哪个交换机,哪些路由器,...

以太网通道诊断信息收集 - 虚拟

以太网通道诊断信息收集 - 虚拟

诊断思科网络中的以太网通道问题,您首先必须能够收集您的交换机及其配置。为了执行这个任务,你一如既往地依靠Show和debug命令。首先,简要介绍一下show命令的内容。 Switch1> enable Switch1#configure terminal Switch2#show EtherChannel ...

扩展访问控制列表(ACL) - 虚拟

扩展访问控制列表(ACL) - 虚拟

扩展访问控制列表(ACL)允许您允许拒绝来自特定IP地址的流量到特定的目标IP地址和端口。它还允许您指定不同类型的流量,如ICMP,TCP,UDP等。不用说,它非常细化,可以使您非常具体。如果...

编辑的选择

电子项目计划步骤1:设想您的电子项目 - 傻瓜

电子项目计划步骤1:设想您的电子项目 - 傻瓜

设计和建立你的电子项目的细节,你应该退后一步,看看大局。首先,你需要确保你有一个坚实的想法为您的项目。你为什么要建立它?它会做什么,谁来使用它,为什么? ...

电子项目计划步骤4:构建您的电路 - 傻瓜

电子项目计划步骤4:构建您的电路 - 傻瓜

而且你对它的操作感到满意,你可以建立一个永久版本的电路。虽然有几种方法可以做到这一点,但最常见的是在印刷电路板(也称为PCB)上构建电路。请注意,在PCB上组装电路...

电子项目计划步骤3:原型电路 - 假人

电子项目计划步骤3:原型电路 - 假人

永久的电路板,你会想确保它的工作。最简单的方法就是在无焊面包板上构建电路。无焊料面包板可以让您快速组装电路元件而不需要焊接任何东西。相反,您只需将其裸露在外...

编辑的选择

如何替换R中的文本 - 虚拟变量

如何替换R中的文本 - 虚拟变量

R中的sub()函数在文本模式,并用替换文本替换此模式。你使用sub()来替代文本文本,并使用其表兄gsub()来替换所有出现的模式。 (gsub()中的g表示全局。)假设你有句子He ...

中如何成功地遵循命名惯例在R - 傻瓜

中如何成功地遵循命名惯例在R - 傻瓜

R是非常自由的,对象和功能。这个自由是一个很大的祝福,同时也是一个很大的负担。没有人不得不遵循严格的规则,所以在R中编程的人基本上可以按照自己的意愿去做。如何选择一个正确的名字...

中使用函数在R中创建并转换脚本后,如何使用R - dummies中的函数

中使用函数在R中创建并转换脚本后,如何使用R - dummies中的函数

再次使用前面显示的Source()命令将其加载到控制台中。现在你看...什么也没有。 R并不让你知道它已经加载了这个函数,但它已经在工作空间中了,你可以检查一下...