个人理财 当您进行数据挖掘时,筛选出需要的数据 - 假人

当您进行数据挖掘时,筛选出需要的数据 - 假人

目录:

视频: 郭安定:Excel 2003 实用基础 05-02 筛选不重复的数据 2025

视频: 郭安定:Excel 2003 实用基础 05-02 筛选不重复的数据 2025
Anonim

当你是数据挖掘的时候,有时你会得到比给定项目更多的数据。以下是如何减少你所需要的。

缩小字段

当数据集中有许多变量时,可能很难找到或看到您感兴趣的变量。而且如果你的数据集很大,并且你不需要所有的变量,那么保持额外的资源就不必要地占用资源。所以,你有时需要保留一些变量,并放弃其他。该图显示了KNIME中的一个示例,其中正确的工具称为列过滤器。

<! - 1 - >

下图显示了此工具的示例设置。

要缩小字段,请在数据挖掘应用程序中查找变量选择工具;这些可以通过其他工具进行数据操作。与其他数据挖掘工具一样,名称因产品而异。查找单词 列,变量, 或 字段, 和 选择 或 过滤的变体。

选择相关案例

在建立模型之前,可以过滤出具有不完整数据的案例。删除不完整的案例是数据选择或 过滤的常见示例。

但是,您如何仅选择您感兴趣的每个细分受众群的相关案例?你会使用数据选择工具。

下图显示了另一个数据挖掘应用程序中的数据选择工具。

<!下一个图显示了如何为另一种选择设置该工具,这个选择基于变量的值。

通常使用这种数据选择,一些应用程序提供各种内置函数来帮助您准确定义所需的情况。这个有一些特殊的功能;它会显示变量的摘要统计信息,并告诉您有多少个案例符合选择标准。大多数数据挖掘应用程序都有用于选择所需案例的工具。在菜单(或搜索)中查找

,选择

或 过滤器。 采样 现在流行的概念是更多的数据是更好的数据。这不是一个新的想法。数据挖掘应用程序一直被开发来处理大量的数据。即使是“数据挖掘”这个名字也意味着数量巨大。但是,通常情况下,使用您的数据样本将为您提供同样有用的信息,使您的工作更轻松,并节省您的时间和资源。抽样在数据挖掘中起着重要的作用。如果数据是平衡的,那么意味着模型在被比较的每个组中都使用了相同数量的个案(在这个例子中,这些组是属性可以改变手和属性没有),即使一个组比那些更多的情况其他在原始数据。之后,将数据拆分,分成一个子集,用于训练模型,另一个用于测试。在平行坐标图中仅使用一个数据样本可以更容易地查看和解释。 (数千点的散点图可能难以阅读!)也许最重要的是,采样只是减少了数据量,所以事情运行得更快。

当您进行数据挖掘时,筛选出需要的数据 - 假人

编辑的选择

记录您的思科网络配置与CDP - 傻瓜

记录您的思科网络配置与CDP - 傻瓜

记录思科网络配置有时没有思科发现协议)可能需要花费数小时在布线室跟踪电缆和记录端口。在某些情况下,配线室是一个真正的老鼠的电缆巢,并且可能需要几个小时的导航才能找出哪些交换机连接到哪个交换机,哪些路由器,...

以太网通道诊断信息收集 - 虚拟

以太网通道诊断信息收集 - 虚拟

诊断思科网络中的以太网通道问题,您首先必须能够收集您的交换机及其配置。为了执行这个任务,你一如既往地依靠Show和debug命令。首先,简要介绍一下show命令的内容。 Switch1> enable Switch1#configure terminal Switch2#show EtherChannel ...

扩展访问控制列表(ACL) - 虚拟

扩展访问控制列表(ACL) - 虚拟

扩展访问控制列表(ACL)允许您允许拒绝来自特定IP地址的流量到特定的目标IP地址和端口。它还允许您指定不同类型的流量,如ICMP,TCP,UDP等。不用说,它非常细化,可以使您非常具体。如果...

编辑的选择

电子项目计划步骤1:设想您的电子项目 - 傻瓜

电子项目计划步骤1:设想您的电子项目 - 傻瓜

设计和建立你的电子项目的细节,你应该退后一步,看看大局。首先,你需要确保你有一个坚实的想法为您的项目。你为什么要建立它?它会做什么,谁来使用它,为什么? ...

电子项目计划步骤4:构建您的电路 - 傻瓜

电子项目计划步骤4:构建您的电路 - 傻瓜

而且你对它的操作感到满意,你可以建立一个永久版本的电路。虽然有几种方法可以做到这一点,但最常见的是在印刷电路板(也称为PCB)上构建电路。请注意,在PCB上组装电路...

电子项目计划步骤3:原型电路 - 假人

电子项目计划步骤3:原型电路 - 假人

永久的电路板,你会想确保它的工作。最简单的方法就是在无焊面包板上构建电路。无焊料面包板可以让您快速组装电路元件而不需要焊接任何东西。相反,您只需将其裸露在外...

编辑的选择

如何替换R中的文本 - 虚拟变量

如何替换R中的文本 - 虚拟变量

R中的sub()函数在文本模式,并用替换文本替换此模式。你使用sub()来替代文本文本,并使用其表兄gsub()来替换所有出现的模式。 (gsub()中的g表示全局。)假设你有句子He ...

中如何成功地遵循命名惯例在R - 傻瓜

中如何成功地遵循命名惯例在R - 傻瓜

R是非常自由的,对象和功能。这个自由是一个很大的祝福,同时也是一个很大的负担。没有人不得不遵循严格的规则,所以在R中编程的人基本上可以按照自己的意愿去做。如何选择一个正确的名字...

中使用函数在R中创建并转换脚本后,如何使用R - dummies中的函数

中使用函数在R中创建并转换脚本后,如何使用R - dummies中的函数

再次使用前面显示的Source()命令将其加载到控制台中。现在你看...什么也没有。 R并不让你知道它已经加载了这个函数,但它已经在工作空间中了,你可以检查一下...