目录:
视频: 半年結業績期,股市高處不勝寒?五隻港美股估值試計!#不求人【施・追擊 | by 施傅】 2024
当您为预测分析定义模型的目标时,下一步是识别和准备将用于构建模型的数据。步骤的一般顺序如下所示:
-
标识您的数据源。数据可能有不同的格式或驻留在不同的位置。
确定您将如何访问该数据。
-
有时候,您需要获取第三方数据或组织中不同部门拥有的数据等。
<! --1 - >
考虑在分析中包含哪些变量。一种标准的方法是从广泛的变量开始,并消除那些对模型没有预测价值的变量。 -
确定是否使用派生变量。
在许多情况下,导出的变量(如用于分析股票价格的收益率)将比原始变量对模型产生更大的直接影响。
-
<! - 2 - >
探索数据的质量,试图了解其状态和限制。
模型预测的准确性与您选择的变量和数据质量直接相关。您现在要回答一些特定于数据的问题: -
数据是否完整?
它是否有异常值?数据是否需要清洗?
-
-
你需要填写缺失的值,保持原样,还是完全消除?
-
了解您的数据及其属性可以帮助您选择在构建模型时最有用的算法。例如:
回归算法可用于分析时间序列数据。分类算法可以用来分析离散数据。关联算法可以用于具有相关属性的数据。 -
用于训练和测试模型的数据集必须包含相关业务信息才能解答您正在尝试解决的问题。如果您的目标是(例如)确定哪个客户有可能流失,那么您选择的数据集必须包含关于过去翻动过的客户的信息以及没有客户的信息。为了挖掘数据并理解其基础关系而创建的一些模型(例如,使用聚类算法构建的模型)不需要具有特定的最终结果。
-
在构建模型时处理数据时会出现两个问题:过度拟合和过度拟合。
-
缺陷
-
缺陷
-
是您的模型无法检测到数据中的任何关系。这通常表明,基本变量 - 具有预测能力的那些变量不包括在分析中。例如,仅包含牛市数据(股票价格整体上涨)的股票分析没有考虑可能给股票整体表现带来重大改变的危机或泡沫。
如果不包括横跨牛市
和
熊市(当股价整体下跌时)的数据,则该模型不会产生最佳投资组合选择。
过度填充
过度填充 是指您的模型包含的数据不具备预测能力,但仅适用于您正在分析的数据集。
噪声 - 数据集中的随机变化 - 可以在模型中找到路径,从而在不同的数据集上运行模型会导致模型的预测性能和准确性大幅下降。附带的边栏提供了一个例子。 如果您的模型在特定数据集上执行得很好,并且在另一个数据集上测试时效果不佳,则怀疑过度拟合。