目录:
- 为避免您的模型过度拟合到您的样本数据集,请确保有一个与样本数据分开的可用测试数据体。然后,您可以在模型运行之前独立测量模型的性能。因此,防止过度拟合的一般保障是将数据分为两部分:训练数据和测试数据。模型对测试数据的性能会告诉你很多关于模型是否适合现实世界的信息。
- 选择一个数据集来处理整个人口。
视频: 【物化实验数据处理】(1)Origin2016、Excel 基础操作——线性拟合、多项式拟合、 积分计算 2024
曲线拟合 是一种用于预测分析的过程,目标是创建描绘最适合数据序列中实际(原始)数据点的数学函数的曲线。
曲线可以通过每个数据点,也可以保留在大部分数据中,忽略一些数据点,希望从数据中获得趋势。无论哪种情况,都将一个单一的数学函数分配给整个数据体,目标是将所有数据点拟合成描绘趋势和辅助预测的曲线。
<!可以通过以下三种方法之一来实现曲线拟合:通过找到每个数据点的精确拟合(称为
-
插值 的过程) 通过停留在大部分的数据,而忽略了一些数据点,希望从数据中绘制趋势
-
通过使用数据平滑来提供一个代表平滑图的函数
-
<! - 2 - >
曲线拟合可用于填写可能的数据点以替换缺失值或帮助分析人员可视化数据。
当您正在生成预测分析模型时,请避免使您的模型适合您的数据样本。这样的模型将会失败 - 很难预测数据样本之外相似但不同的数据集。将模型拟合得与特定的数据样本密切相关,这是一个经典的错误,称为
过度拟合 。 <!过度拟合的难题
实质上,过度拟合模型就是当你过度使用模型来表示你的样本数据时发生的情况 - 这不是一个好的整体数据表示。如果没有一个更现实的数据集继续下去,那么这个模型在运行时可能会出现错误和风险,对您的业务造成严重后果。过度拟合模型是一个常见的陷阱,因为人们想要创建可以工作的模型 - 所以试图保持调整变量和参数,直到模型完美运行 - 数据太少。人非圣贤孰能。幸运的是,创造现实的解决方案也是人为的。为避免您的模型过度拟合到您的样本数据集,请确保有一个与样本数据分开的可用测试数据体。然后,您可以在模型运行之前独立测量模型的性能。因此,防止过度拟合的一般保障是将数据分为两部分:训练数据和测试数据。模型对测试数据的性能会告诉你很多关于模型是否适合现实世界的信息。
另一个最佳做法是确保您的数据代表您正在建模的域的更大数量。所有过度训练的模型都知道它所训练的样本数据集的具体特征。如果你只在冬季的雪鞋销售模式上训练模型,那么当它再次运行其他任何季节的数据时,如果它失败了,不要感到惊讶。
如何避免过度拟合
值得重复的是:模型太多的调整容易导致过度拟合。一个这样的调整是在分析中包含太多的变量。尽量减少这些变量。只包括你认为是绝对必要的变量 - 你相信会对结果产生重大影响。
这种洞察力只来自对您所处的业务领域的深入了解。这就是领域专家的专业知识可以帮助您避免陷入过度拟订陷阱的地方。
下面是一个最佳实践清单,可以帮助您避免过度使用模型:
选择一个数据集来处理整个人口。
将您的数据集分为两部分:训练数据和测试数据。
将所分析的变量保持在最低限度,以完成当前的任务。征求领域知识专家的帮助。在股票市场上,例如,一个经典的分析技术是
回溯测试
-
- 运行一个反历史数据的模型来寻找最佳的交易策略。假设在对新近牛市生成的数据运行新模型并调整分析中使用的变量数量之后,分析师创建了一个看起来像是最优交易策略的策略 - 这个策略会产生最高的回报率< 如果
-
他只能在产生测试数据的年份内退回去交易。不幸的是,他不能。
-
如果他试图在目前的熊市中应用该模型,请看下面的内容:通过在狭窄的一段时间和一组不适合当前现实的条件下应用一个模型,他会招致损失。 (假设利润太多)。
-
该模型仅适用于那个消失的牛市,因为它过度训练,带有产生样本数据的上下文的特征 - 完成了它的细节,异常值和缺点。围绕这个数据集的所有情况在未来可能不会重复,或者是真实地反映整个人群的情况,但是他们都出现在过度配置的模型中。
如果模型的输出过于精确,请考虑仔细看一下。请求领域知识专家的帮助,看看您的结果是否真的太好,并在更多测试数据上运行该模型以进一步比较。