为预测分析准备您的数据 - 虚拟

视频: 投資比特幣不可不知的價格預測模型 2025

当您定义模型的目标时，预测分析的下一步就是识别和准备用于构建模型的数据。以下信息涉及最重要的活动。步骤的一般顺序如下所示：

标识您的数据源。数据可能有不同的格式或驻留在不同的位置。

确定您将如何访问该数据。
有时，您需要获取第三方数据或组织中不同部门拥有的数据等。

考虑在分析中包含哪些变量。一种标准的方法是从广泛的变量开始，消除那些对模型没有预测价值的变量。
<！ --1 - >
确定是否使用派生变量。
在许多情况下，导出的变量（如用于分析股票价格的收益率）将比原始变量对模型产生更大的直接影响。探索数据的质量，试图了解其状态和局限性。
模型预测的准确性直接关系到您选择的变量和数据的质量。在这一点上，您可能想要回答一些特定于数据的问题：
数据是否完整？

它是否有异常值？数据是否需要清洗？
你需要填写缺失的值，保持原样，还是完全消除？
- 了解您的数据及其属性可以帮助您选择在构建模型时最有用的算法。例如：
- 回归算法可用于分析时间序列数据。分类算法可以用来分析离散数据。关联算法可以用于具有相关属性的数据。
- <！个别算法和预测技术有不同的弱点和优势。最重要的是，模型的准确性依赖于数据的数量和质量。你的数据应该有足够数量的记录来提供有统计意义的结果。
- 收集相关数据（最好是长时间记录多个记录），预处理和提取具有最大预测值的特征将是您花费大部分时间的地方。但是你仍然必须明智地选择算法，这个算法应该适合于业务问题。数据准备特定于您正在使用的项目以及您选择使用的算法。根据项目的要求，您将相应地准备数据，并在构建模型时将其提供给算法以满足业务需求。