个人理财 如何准备预测分析的R回归中的数据 - 虚拟变量

如何准备预测分析的R回归中的数据 - 虚拟变量

视频: 15年深度学习资深工程师: 如何通过深度学习(Deep Learning),预测美股? 2024

视频: 15年深度学习资深工程师: 如何通过深度学习(Deep Learning),预测美股? 2024
Anonim

您必须将数据转换为算法可用于构建预测分析模型的表单。要做到这一点,你必须花一些时间来了解数据和了解数据的结构。输入函数来查找数据的结构。该命令及其输出如下所示: >> str(autos)'data。框架“:398 obs。 9个变量:$ V1:num 18 15 18 16 17 15 14 14 14 15 … $ V2:int 8 8 8 8 8 8 8 8 8 … $ V3:num 307 350 318 304 302 429 454 440 455 390 … $ V4:chr“130. 0”“165.0”“150. 0”“150. 0”… $ V5:num 3504 3693 3436 3433 3449 … $ V6:num 12 11. 5 11 12 10. 5 10 9 8 5 10 8. 5 … $ V7:诠释70 70 70 70 70 70 70 70 70 70 … $ V8:诠释1 1 1 1 1 1 1 1 1 1 … $ V9:因子w / 305水平“amc ambassador brougham” ,…:

50 37 232 15 162 142 55 224 242 2 … 

通过查看结构,可以看出有一些数据准备和清理工作要做。以下是所需任务的列表:

<! --1 - >

重命名列名称。
  • 这不是严格必要的,但对于这个例子来说,最好使用你能理解和记住的列名。

    将V4(

  • horsepower )的数据类型更改为 数字 数据类型。 在这个例子中,马力是连续的数值,而不是字符数据类型。

    处理缺失的值。

  • 这里马力有六个缺失值。

    将具有离散值的属性更改为因子。在这里,气缸,型号年份和原点具有离散值。

  • 放弃V9(

    车名

  • )属性。 汽车名称不会增加您创建的模型的价值。如果没有给出origin属性,则可以从car name属性派生出原点。 <!

    colnames(autos)< -

    c(“mpg”,“cylinders”,“displacement”,“horsepower”, “weight”,“acceleration”,“modelYear”,“origin”,

“carName”)

接下来,用以下代码将数据类型的马力改为数字: >> autos $ horsepower <如。数字(汽车$马力)

该程序将抱怨,因为不是所有的马力值是字符串表示的数字。有一些缺失的价值观被表示为“? “性格。现在很好,因为R转换每个实例?进入NA。

处理连续变量缺失值的常用方法是用整个列的平均值替换每个缺失值。下面这行代码就是这样的: >> autos $ horsepower [is。na(汽车$马力)] < - 平均值(汽车$马力,na。rm = TRUE)

有na的重要。 rm-TRUE在平均函数中。它告诉函数不要在其计算中使用空值的列。没有它,函数将返回。

接下来,将离散值的属性更改为因子。三个属性被确定为离散的。以下三行代码更改属性。 >> autos $ origin autos $ modelYear autos $ cylinders < - factor(autos $ cylinders)

最后,用这行代码从数据框中删除属性: >> autos $ carName < - nULL < 此时,您已完成建模过程的数据准备。以下是数据准备过程之后的结构视图: >> str(autos)'data。框架“:398 obs。 8个变量:$ mpg:num 18 15 18 16 17 15 14 14 14 15 … $ cylinder:因子w / 5级别“3”,“4”,“5”,“6”,…:

5 5 5 5 5 5 5 5 5 5 … $排水量:数量307 350 318 304 302 429 454 440 455 390 … $马力:数量130 165 150 150 140 198 220 215 225 190 … $重量:数量3504 3693 3436 3433 3449 … $加速度:数字12 11. 5 11 12 10. 5 10 9 8. 5 10 8. 5 … $ modelYear:具有13个等级“70”,“71”,“72”,…:

的因子1 1 1 1 1 1 1 1 1 1 … $原点:因子w / 3级别“1”,“2”,“3”:

1 1 1 1 1 1 1 1 1 1 …

如何准备预测分析的R回归中的数据 - 虚拟变量

编辑的选择

在Flash中使用活动文本 - 虚拟人物

在Flash中使用活动文本 - 虚拟人物

静态文本完成工作,为您提供信息网站访问者。但是Flash可以用文本来做更多的事情。有时候,你不希望自己的文本是文本,而是喜欢一堆可以弯曲,扭曲,移动,或者不能混合的独立字母形状。 Flash的分离命令...

移动网站质量保证测试 - 傻瓜

移动网站质量保证测试 - 傻瓜

在为IPhone推出新网站之前, iPad,始终在iPhone或iPad上全面测试其设计和功能,确保网站的外观和工作方式与您的想法完全相同。使用模拟器不能替代完成物理设备上的最终检查表。 As ...

QuarkXPress 5基本任务的快捷方式 - 虚拟人物

QuarkXPress 5基本任务的快捷方式 - 虚拟人物

QuarkXPress 5具有数吨和数吨的快捷方式。你大概不会记住他们中的大多数,但是你一定会发现自己一直在使用一两个。这里有一些有用的视图,调色板和对象选择任务的快捷键。 QuarkXPress查看快捷方式操作Mac Windows 100%命令+ 1 Ctrl + 1在窗口中装入Command + 0 Ctrl + 0 200%...

编辑的选择

如何将尼康D5300照片下载到计算机 - 傻瓜

如何将尼康D5300照片下载到计算机 - 傻瓜

你的尼康D5300,你可能会想用他们的照片编辑软件。您可以用两种方法将照相机中的照片和电影文件移到电脑上:通过USB电缆将照相机连接到电脑。您需要的电缆是随附的。

如何在播放期间放大尼康D7100照片 - 虚拟人物

如何在播放期间放大尼康D7100照片 - 虚拟人物

您的尼康D7100,如左图所示,您可以放大它,如右图所示。但是,您只能放大静止照片。此功能不适用于电影。以下是如何使用放大功能:放大。按Qual按钮。您可以...

如何在尼康D7100上播放时隐藏照片 - 虚拟人物

如何在尼康D7100上播放时隐藏照片 - 虚拟人物

可以使用隐藏图像选项在尼康D7100的播放菜单上隐藏一些照片,同时在播放过程中显示其他照片。假设你拍了100张照片--50次在商务会议上,50次在野外会议后。您想向您的老板展示您和您的同事的照片...

编辑的选择

IBS受害者如何制作草莓和奶油燕麦 - 假人

IBS受害者如何制作草莓和奶油燕麦 - 假人

您可以享用燕麦片如果你患有IBS。当快燕麦烹饪时,切碎草莓和香蕉(IBS主食),并从冰箱中取出椰奶。一旦这样做,燕麦片通常是准备倒。你可以添加不同的水果,甚至坚果作为你的...

如何为IBS患者制作绿鸡蛋烘焙者 - 假人

如何为IBS患者制作绿鸡蛋烘焙者 - 假人

使用自由放养的鸡,因为它们是谷物喂养,没有生长激素和抗生素,因此,IBS的肚子更健康。用任何鸡肉菜肴,一定要煮好你使用的任何一种鸡肉。当你对这道菜更加熟悉的时候,你可能会发现你并不需要...