视频: 【机器学习实战】 第5章 Logistic回归 - 案例1:使用Logistic回归在简单数据集上的分类 - v2.0.0 | ApacheCN 2024
为了运行预测分析,您必须将数据转换为可供算法用于构建模型的表单。要做到这一点,你必须花费一些时间来了解数据并了解其结构。输入函数来查找数据的结构。下面是它的样子: >> str(种子)的数据。框架“:210 obs。 8个变量:$ V1:数字15 3 14 9 14 3 13 8 16 1 … $ V2:数字14 8 14 6 14 1 13 9 15 … $ V3:数字0 871 0 881 0.905 0. 895 0.903 … $ V4:数目5. 76 5. 55 5. 29 5. 32 5. 66 … $ V5:数目3. 31 3. 33 3. 34 3. 38 3。 56 … $ V6:数字2 22 1. 02 2. 7 2. 26 1. 35 … $ V7:数字5. 22 4. 96 4.83 4. 8 5. 17 … $ V8:int 1 1 1 1 1 1 1 1 1 1 …
通过查看结构,可以看出数据需要一个预处理步骤和一个便利步骤:
<! --1 - >
重命名列名称。-
这不是严格必要的,但对于本示例而言,使用您可以理解和记忆的列名更方便。 将具有分类值的属性更改为一个因子。
-
标签有三种可能的类别。 要重命名列,请输入以下代码: >> colnames(种子)< -
c(“area”,“perimeter”,“compactness”,“length”,“width”,“不对称“,”length2“,”seedType“)
接下来,将具有分类值的属性更改为一个因子。以下代码将数据类型更改为一个因子:
种子$ seedType < - factor(种子$ seedType)
这个命令完成建模过程数据的准备工作。以下是数据准备过程之后的结构视图: >> str(weeds)'data。框架“:210 obs。 8个变量:$ area:num 15 3 14 9 14 3 13 8 16 1 … $周长:14 14 14 14 1 13 9 15 …紧凑性:0 871 0 881 0.905 0.8995 0.903 … $长度:数目5. 76 5. 55 5. 29 5. 32 5. 66 … $宽度:数目3. 31 3. 33 3. 34 3. 38 3。 56 … $不对称:数字2. 22 1. 02 2. 7 2. 26 1. 35 … $ length2:num 5. 22 4. 96 4.83 4. 8 5. 17 … $ seedType:因子w / 3等级“1”,“2”,“3”:1 1 1 1 1 1 1 1 1 1 …