目录:
视频: 郭安定:Excel 2003 实用基础 05-02 筛选不重复的数据 2024
当你是数据挖掘的时候,有时你会得到比给定项目更多的数据。以下是如何减少你所需要的。
缩小字段
当数据集中有许多变量时,可能很难找到或看到您感兴趣的变量。而且如果你的数据集很大,并且你不需要所有的变量,那么保持额外的资源就不必要地占用资源。所以,你有时需要保留一些变量,并放弃其他。该图显示了KNIME中的一个示例,其中正确的工具称为列过滤器。
<! - 1 - >下图显示了此工具的示例设置。
要缩小字段,请在数据挖掘应用程序中查找变量选择工具;这些可以通过其他工具进行数据操作。与其他数据挖掘工具一样,名称因产品而异。查找单词 列,变量, 或 字段, 和 选择 或 过滤的变体。
选择相关案例
在建立模型之前,可以过滤出具有不完整数据的案例。删除不完整的案例是数据选择或 过滤的常见示例。
但是,您如何仅选择您感兴趣的每个细分受众群的相关案例?你会使用数据选择工具。
下图显示了另一个数据挖掘应用程序中的数据选择工具。
<!下一个图显示了如何为另一种选择设置该工具,这个选择基于变量的值。通常使用这种数据选择,一些应用程序提供各种内置函数来帮助您准确定义所需的情况。这个有一些特殊的功能;它会显示变量的摘要统计信息,并告诉您有多少个案例符合选择标准。大多数数据挖掘应用程序都有用于选择所需案例的工具。在菜单(或搜索)中查找
,选择
或 过滤器。 采样 现在流行的概念是更多的数据是更好的数据。这不是一个新的想法。数据挖掘应用程序一直被开发来处理大量的数据。即使是“数据挖掘”这个名字也意味着数量巨大。但是,通常情况下,使用您的数据样本将为您提供同样有用的信息,使您的工作更轻松,并节省您的时间和资源。抽样在数据挖掘中起着重要的作用。如果数据是平衡的,那么意味着模型在被比较的每个组中都使用了相同数量的个案(在这个例子中,这些组是属性可以改变手和属性没有),即使一个组比那些更多的情况其他在原始数据。之后,将数据拆分,分成一个子集,用于训练模型,另一个用于测试。在平行坐标图中仅使用一个数据样本可以更容易地查看和解释。 (数千点的散点图可能难以阅读!)也许最重要的是,采样只是减少了数据量,所以事情运行得更快。