个人理财 如何清理数据以进行预测分析 - 假人

如何清理数据以进行预测分析 - 假人

视频: 77.大數據分析最重要的事:資料清理、分析什麼(用大數據分析做GA網站分析) 2024

视频: 77.大數據分析最重要的事:資料清理、分析什麼(用大數據分析做GA網站分析) 2024
Anonim

在运行预测性分析之前,您需要确保数据是干净无关的东西,然后才能在您的模型。这包括查找并更正任何包含错误值的记录,并尝试填写缺失的值。您还需要决定是否包含重复记录(例如,两个客户帐户)。总体目标是确保您用于构建预测模型的信息的完整性。要特别注意数据的完整性,正确性和及时性。

<! - 1 - >

为各个领域创建

描述性统计量 (定量特性),如计算最小和最大值,检查 频率分布 )并验证预期的范围。运行定期检查可以帮助您标记超出预期范围的任何数据以供进一步调查。任何显示出生日期在九十年代退休人员的记录都可以用这种方法加以标记。

另外,交叉检查信息很重要,以确保数据的准确性。要更深入地分析数据特征以及确定数据记录之间的关系,可以使用

数据分析 (分析数据可用性并收集有关数据质量的统计数据)以及可视化工具。 数据丢失可能是由于特定信息未被记录。在这种情况下,您可以尝试尽可能多地填写;可以很容易地添加合适的默认值来填补某些领域的空白。

<!例如,对于性病领域缺少价值的医院产科病房的病人,申请可以简单填写为女性。对于那些因怀孕状况而缺席记录而入院的男性,该记录同样可以填写为不适用。

从地址中提供的街道名称和城市可以推断出一个地址缺少的邮政编码。

在信息未知或无法推断的情况下,您将需要使用

其他

值而不是空格来指示数据丢失而不影响分析的正确性。数据中的空白可能意味着多个事物,其中大多数不好或不实用。只要你可以,你应该通过有意义的地方填充来指定空白的性质。正如可以将玉米田中的玫瑰定义为杂草一样,异常值对于不同的分析可能意味着不同的事情。一些模型的建立只是为了跟踪这些异常值并将其标记出来。 欺诈检测模型和犯罪活动监测对这些异常值感兴趣,在这种情况下,这些异常值表明发生了不必要的事情。因此,建议在这些情况下保持数据集中的异常值。但是,当异常值被认为是数据中的异常时 - 只会偏离分析结果并导致错误的结果 - 将其从数据中移除。数据中的重复也可能是有用的或令人讨厌的;有些可能是必要的,可以指示价值,并且可以反映数据的准确状态。例如,具有多个账户的客户的记录可以用多个条目来表示(技术上,无论如何)是相同的记录的重复和重复。同样的道理,当重复的记录对分析没有贡献的价值并且是不必要的,那么去除它们可能具有巨大的价值。对于那些删除重复记录的大型数据集来说,尤其如此,可以简化数据的复杂性并减少分析所需的时间。 您可以采取一些特定的程序,以防止不正确的数据进入您的系统:

所有收集的数据的质量检查和数据验证。

允许您的客户验证并自行更正其个人资料。

为您的客户提供可能的和期望的值供您选择。定期检查数据的完整性,一致性和准确性。

如何清理数据以进行预测分析 - 假人

编辑的选择

您可以用于在商务页面上共享视频的Facebook应用程序 - 虚拟商业

您可以用于在商务页面上共享视频的Facebook应用程序 - 虚拟商业

页面有一个选项不可用于个人时间表:您可以安装Facebook应用程序。 Facebook应用程序(或应用程序)为商业页面提供附加功能。如果您的公司已经在Facebook之外建立了一个视频频道(例如,在YouTube上),则可以使用Facebook应用程序将您的视频库导入到您的...

Facebook电子邮件外展 - 傻瓜

Facebook电子邮件外展 - 傻瓜

确认了您的电子邮件地址并添加了几个朋友之后,Facebook认为您已满该网站的成员。但是,它不希望你只出现一次,然后离开,因此,注册后,它可能会通过电子邮件发送给您,提醒您现在是Facebook用户。这些外展...

Facebook按键快捷键 - 虚拟键

Facebook按键快捷键 - 虚拟键

您可以使用这些Windows和Mac OS X键盘快捷键处理Facebook中的常见活动。根据您的操作系统和浏览器,触摸下列按键之一或按键组合,然后按表中的键在Facebook中按页面移动。 Firefox(Windows):Alt + Shift Chrome或Internet ...

编辑的选择

如何对预测分析模型进行分类 - 虚拟变量

如何对预测分析模型进行分类 - 虚拟变量

您可以使用多种方法对用于预测分析的模型进行分类。一般来说,您可以根据他们所解决的业务问题以及他们所服务的主要业务功能(如销售,广告,人力资源或风险管理)进行整理。在模型中使用的数学实现(如统计,数据挖掘和机器...

如何在预测分析中应用任何群体簇 - 假人

如何在预测分析中应用任何群体簇 - 假人

自组织群你可以应用在预测分析行为是蚂蚁寻找食物的殖民地。蚂蚁集体优化他们的轨道,使它总是以最短的路线可能的食物目标。即使你试图打扰蚂蚁的进步殖民地,并阻止他们从...

如何清理数据以进行预测分析 - 假人

如何清理数据以进行预测分析 - 假人

,您需要确保在你的模型中使用它之前,数据是干净无关的东西。这包括查找并更正任何包含错误值的记录,并尝试填写缺失的值。您还需要决定是否包含重复的记录...

编辑的选择

如何将LinkedIn联系人导出到Outlook - 傻瓜

如何将LinkedIn联系人导出到Outlook - 傻瓜

创建联系人文件后,将您的LinkedIn联系人导入您的电子邮件程序。虽然此示例使用Microsoft Outlook,但该过程与其他电子邮件客户端类似。创建LinkedIn导出文件并准备将LinkedIn联系人导出到Microsoft Outlook之后,只需按照以下步骤操作:在...

如何将LinkedIn联系人导出至Yahoo!如果您使用的是基于Web的邮件程序,比如Yahoo!邮件 - 虚拟邮件

如何将LinkedIn联系人导出至Yahoo!如果您使用的是基于Web的邮件程序,比如Yahoo!邮件 - 虚拟邮件

。邮件,你可以按照这个基本的程序导出你的LinkedIn联系人到你的网络邮件程序,使联系你的专业联系人一个辛辛苦苦。这个简单的步骤可能使网络和工作搜索比以往更容易。创建导出文件后,您可以导出...

如何在LinkedIn上找到服务提供商 - 虚拟

如何在LinkedIn上找到服务提供商 - 虚拟

当您需要聘请某人做LinkedIn有一种方法可以搜索您的一级,二级和三级联系人或更广泛的LinkedIn网络的网络,以查找由其他领英会员推荐的合格专业人士。要在LinkedIn上搜索服务提供商,请按照以下步骤操作:滚动鼠标...