目录:
视频: 投資比特幣不可不知的價格預測模型 2024
当您定义模型的目标时,预测分析的下一步就是识别和准备用于构建模型的数据。以下信息涉及最重要的活动。步骤的一般顺序如下所示:
- 标识您的数据源。数据可能有不同的格式或驻留在不同的位置。
确定您将如何访问该数据。
- 有时,您需要获取第三方数据或组织中不同部门拥有的数据等。
考虑在分析中包含哪些变量。一种标准的方法是从广泛的变量开始,消除那些对模型没有预测价值的变量。
- <! --1 - >
确定是否使用派生变量。
在许多情况下,导出的变量(如用于分析股票价格的收益率)将比原始变量对模型产生更大的直接影响。探索数据的质量,试图了解其状态和局限性。 - 模型预测的准确性直接关系到您选择的变量和数据的质量。在这一点上,您可能想要回答一些特定于数据的问题:
- 数据是否完整?
它是否有异常值?数据是否需要清洗?
你需要填写缺失的值,保持原样,还是完全消除?- 了解您的数据及其属性可以帮助您选择在构建模型时最有用的算法。例如:
- 回归算法可用于分析时间序列数据。分类算法可以用来分析离散数据。关联算法可以用于具有相关属性的数据。
- <!个别算法和预测技术有不同的弱点和优势。最重要的是,模型的准确性依赖于数据的数量和质量。你的数据应该有足够数量的记录来提供有统计意义的结果。
- 收集相关数据(最好是长时间记录多个记录),预处理和提取具有最大预测值的特征将是您花费大部分时间的地方。但是你仍然必须明智地选择算法,这个算法应该适合于业务问题。数据准备特定于您正在使用的项目以及您选择使用的算法。根据项目的要求,您将相应地准备数据,并在构建模型时将其提供给算法以满足业务需求。
用于训练和测试模型的数据集必须包含相关业务信息才能解答您正在尝试解决的问题。如果您的目标是(例如)确定哪个客户可能会流失,那么您选择的数据集必须包含关于过去翻动过的客户的信息以及没有客户的信息。为了挖掘数据并理解其基础关系而创建的一些模型(例如,使用聚类算法构建的模型)不需要具有特定的最终结果。
- 缺陷
- 缺陷
- 是您的模型无法检测到数据中的任何关系。这通常表明,基本变量 - 具有预测能力的那些变量不包括在分析中。
季节性
(当你有季节性模式,如果你不能分析多个季节,你可能会遇到麻烦)。例如,一个股票分析,只包括公牛的数据市场(股价整体上涨)没有考虑到可能给股票整体表现带来重大调整的危机或泡沫。如果不包括跨越公牛
和
熊市(当股价整体下跌时)的数据,则该模型不会产生最佳投资组合选择。
过度填充
过度填充
是指您的模型包含的数据不具备预测能力,但仅适用于您正在分析的数据集。数据集中的噪声随机变化可以找到进入模型的方法,例如在不同的数据集上运行模型会导致模型的预测性能和准确性大幅下降。