个人理财 为预测分析准备您的数据 - 虚拟

为预测分析准备您的数据 - 虚拟

目录:

视频: 投資比特幣不可不知的價格預測模型 2025

视频: 投資比特幣不可不知的價格預測模型 2025
Anonim

当您定义模型的目标时,预测分析的下一步就是识别和准备用于构建模型的数据。以下信息涉及最重要的活动。步骤的一般顺序如下所示:

  1. 标识您的数据源。数据可能有不同的格式或驻留在不同的位置。

    确定您将如何访问该数据。

  2. 有时,您需要获取第三方数据或组织中不同部门拥有的数据等。

    考虑在分析中包含哪些变量。一种标准的方法是从广泛的变量开始,消除那些对模型没有预测价值的变量。

  3. <! --1 - >

    确定是否使用派生变量。

    在许多情况下,导出的变量(如用于分析股票价格的收益率)将比原始变量对模型产生更大的直接影响。探索数据的质量,试图了解其状态和局限性。
  4. 模型预测的准确性直接关系到您选择的变量和数据的质量。在这一点上,您可能想要回答一些特定于数据的问题:

  5. 数据是否完整?

    它是否有异常值?数据是否需要清洗?

    你需要填写缺失的值,保持原样,还是完全消除?
    • 了解您的数据及其属性可以帮助您选择在构建模型时最有用的算法。例如:
    • 回归算法可用于分析时间序列数据。分类算法可以用来分析离散数据。关联算法可以用于具有相关属性的数据。
    • <!个别算法和预测技术有不同的弱点和优势。最重要的是,模型的准确性依赖于数据的数量和质量。你的数据应该有足够数量的记录来提供有统计意义的结果。
    • 收集相关数据(最好是长时间记录多个记录),预处理和提取具有最大预测值的特征将是您花费大部分时间的地方。但是你仍然必须明智地选择算法,这个算法应该适合于业务问题。数据准备特定于您正在使用的项目以及您选择使用的算法。根据项目的要求,您将相应地准备数据,并在构建模型时将其提供给算法以满足业务需求。

用于训练和测试模型的数据集必须包含相关业务信息才能解答您正在尝试解决的问题。如果您的目标是(例如)确定哪个客户可能会流失,那么您选择的数据集必须包含关于过去翻动过的客户的信息以及没有客户的信息。为了挖掘数据并理解其基础关系而创建的一些模型(例如,使用聚类算法构建的模型)不需要具有特定的最终结果。

  • 缺陷
  • 缺陷
  • 是您的模型无法检测到数据中的任何关系。这通常表明,基本变量 - 具有预测能力的那些变量不包括在分析中。
如果模型中使用的变量不具有较高的预测能力,则尝试添加新的特定于域的变量并重新运行模型。最终目标是提高训练数据模型的性能。另一个要注意的问题是

季节性

(当你有季节性模式,如果你不能分析多个季节,你可能会遇到麻烦)。例如,一个股票分析,只包括公牛的数据市场(股价整体上涨)没有考虑到可能给股票整体表现带来重大调整的危机或泡沫。如果不包括跨越公牛

熊市(当股价整体下跌时)的数据,则该模型不会产生最佳投资组合选择。

过度填充

过度填充

是指您的模型包含的数据不具备预测能力,但仅适用于您正在分析的数据集。数据集中的噪声随机变化可以找到进入模型的方法,例如在不同的数据集上运行模型会导致模型的预测性能和准确性大幅下降。

为预测分析准备您的数据 - 虚拟

编辑的选择

记录您的思科网络配置与CDP - 傻瓜

记录您的思科网络配置与CDP - 傻瓜

记录思科网络配置有时没有思科发现协议)可能需要花费数小时在布线室跟踪电缆和记录端口。在某些情况下,配线室是一个真正的老鼠的电缆巢,并且可能需要几个小时的导航才能找出哪些交换机连接到哪个交换机,哪些路由器,...

以太网通道诊断信息收集 - 虚拟

以太网通道诊断信息收集 - 虚拟

诊断思科网络中的以太网通道问题,您首先必须能够收集您的交换机及其配置。为了执行这个任务,你一如既往地依靠Show和debug命令。首先,简要介绍一下show命令的内容。 Switch1> enable Switch1#configure terminal Switch2#show EtherChannel ...

扩展访问控制列表(ACL) - 虚拟

扩展访问控制列表(ACL) - 虚拟

扩展访问控制列表(ACL)允许您允许拒绝来自特定IP地址的流量到特定的目标IP地址和端口。它还允许您指定不同类型的流量,如ICMP,TCP,UDP等。不用说,它非常细化,可以使您非常具体。如果...

编辑的选择

电子项目计划步骤1:设想您的电子项目 - 傻瓜

电子项目计划步骤1:设想您的电子项目 - 傻瓜

设计和建立你的电子项目的细节,你应该退后一步,看看大局。首先,你需要确保你有一个坚实的想法为您的项目。你为什么要建立它?它会做什么,谁来使用它,为什么? ...

电子项目计划步骤4:构建您的电路 - 傻瓜

电子项目计划步骤4:构建您的电路 - 傻瓜

而且你对它的操作感到满意,你可以建立一个永久版本的电路。虽然有几种方法可以做到这一点,但最常见的是在印刷电路板(也称为PCB)上构建电路。请注意,在PCB上组装电路...

电子项目计划步骤3:原型电路 - 假人

电子项目计划步骤3:原型电路 - 假人

永久的电路板,你会想确保它的工作。最简单的方法就是在无焊面包板上构建电路。无焊料面包板可以让您快速组装电路元件而不需要焊接任何东西。相反,您只需将其裸露在外...

编辑的选择

如何替换R中的文本 - 虚拟变量

如何替换R中的文本 - 虚拟变量

R中的sub()函数在文本模式,并用替换文本替换此模式。你使用sub()来替代文本文本,并使用其表兄gsub()来替换所有出现的模式。 (gsub()中的g表示全局。)假设你有句子He ...

中如何成功地遵循命名惯例在R - 傻瓜

中如何成功地遵循命名惯例在R - 傻瓜

R是非常自由的,对象和功能。这个自由是一个很大的祝福,同时也是一个很大的负担。没有人不得不遵循严格的规则,所以在R中编程的人基本上可以按照自己的意愿去做。如何选择一个正确的名字...

中使用函数在R中创建并转换脚本后,如何使用R - dummies中的函数

中使用函数在R中创建并转换脚本后,如何使用R - dummies中的函数

再次使用前面显示的Source()命令将其加载到控制台中。现在你看...什么也没有。 R并不让你知道它已经加载了这个函数,但它已经在工作空间中了,你可以检查一下...