目录:
视频: (字幕)練乙錚認為四中全會,香港的未來跟中國利益角力脫不開關係,這時放料林鄭下台,搞不好就是看看反應,或順理成章 2024
处理最常见和最麻烦的数据问题之一是缺少数据。文件可能不完整,因为记录已被删除或存储设备已满。或者某些数据字段可能不包含某些记录的数据。这些问题的第一个可以通过简单地验证文件的记录计数来诊断。第二个问题更难处理。简单来说,当你找到一个包含缺失值的字段时,你有两个选择:
<! --1 - >
忽略它。把东西粘在田里。-
忽略问题
-
在某些情况下,您可能只需找到大量缺失值的单个字段。如果是这样,最简单的事情就是忽略这个领域。不要把它包含在你的分析中。另一种忽略问题的方法是忽略记录。只需删除包含缺失数据的记录。如果只有少数流氓记录,这可能是有意义的。但是,如果有多个数据字段包含大量缺失值,则此方法可能会将记录数缩减到不可接受的水平。
在删除记录之前要注意的另一件事情是任何模式的迹象。例如,假设您正在分析与全国信用卡余额相关的数据集。你可能会发现一大堆显示$ 0的记录。 00余额(也许大约是记录的一半)。这本身并不意味着缺少数据。但是,如果来自加利福尼亚州的所有记录显示$ 0。 00余额,这表明潜在的缺失值问题。而且这不是一个可以通过删除该国最大的州的所有记录来解决的问题。在这种情况下,这可能是一个系统问题,并指出应该创建一个新的文件。
填写缺失的数据
填写缺失的数据等于对该领域的内容进行有根据的猜测。有好的和坏的方法来做到这一点。一个简单的(但是不好的)方法是用缺失值的平均值代替缺失的值。在非数字字段中,您可能会试图使用其他记录(模式)中最常见的值填充缺少的记录。不幸的是,这些方法在一些商业应用中仍然经常使用。但统计学家普遍认为这是不好的想法。一方面,做统计分析的重点是找到区分一个结果的数据。通过用相同的值替换所有缺少的记录,您没有区分任何东西。
更高尚的方法是试图找到一种方法来以有意义的方式预测每个缺少价值的记录应该填写什么样的价值。这涉及到查看完整的记录,并试图找出缺失值可能的线索。
假设您正在分析人口统计文件以预测您的某个产品的可能购买者。在这个档案中,你可以看到有关婚姻状况,孩子数量和汽车数量等信息。由于某些原因,三分之一的记录中缺少汽车的字段数。
通过分析另外两个领域 - 婚姻状况和孩子数量,你可能会发现一些模式。单身的人往往有一辆车。没有孩子的已婚人士往往有两辆车。拥有一个以上孩子的已婚人士可能更有可能拥有三辆汽车。通过这种方式,您可以用实际区分记录的方式来猜测缺失的值。更多关于这个方法来。统计和数据处理中有一个通用术语,指的是有问题的数据。使用术语
嘈杂
来描述不可靠,损坏或以其他方式比原始数据更少的数据。缺少数据只是这方面的一个例子。一般来说,清除噪音数据的技术的详细描述超出了本书的范围。事实上,这是统计理论研究的一个活跃领域。事实上,所有的噪音并不像丢失的值那样容易被发现,这使得处理起来很麻烦。