目录:
如果将每个变量视为矢量,可以使用计算方法轻松比较数据中的示例。以下信息描述了如何测量矢量之间的相似性以执行诸如计算用于学习目的的矢量之间的距离等任务。
了解相似性
在矢量形式中,可以将示例中的每个变量看作一系列坐标,每个坐标指向不同空间维度中的一个位置。如果一个矢量有两个元素,即它只有两个变量,那么使用它就好像在地图上检查一个物体的位置一样,使用第一个数字作为东西轴上的位置,南轴。
<! --1 - > 在图表上绘制的值的示例。例如,括号(1,2)(3,2)和(3,3)之间的数字都是点的例子。每个示例都是一个有序的值列表(称为元组),可以使用x(横轴)列表的第一个值和y(纵轴)的第二个值,轻松定位和打印在地图上。结果是散点图。
<!但是,您可以通过某种方便的方式努力传达更多的维度,例如通过使用尺寸,形状或其他维度的颜色。显然,这不是一件容易的事情,而且结果往往远非直观。但是,您可以通过系统地打印许多图形,同时考虑两维的维度,来掌握点在数据空间中的位置。这样的图被称为散点图的矩阵。
不要担心多维性。你将你在二维或三维中学到的规则扩展到多维,所以如果一个规则在二维空间中工作,它也可以工作在多维空间中。因此,所有的例子首先是指二维的例子。计算学习距离
算法可以通过使用使用距离测量的数字向量来学习。通常你的向量所暗示的空间是一个度量空间,它的距离是相对于某些特定条件的:
不存在负距离,只有当起点和终点重合时,距离才为零(称为
非负性
- )。 从一个点到另一个的距离是相同的,反之亦然(称为 对称
- )。 初始点与最终点之间的距离始终大于或等于从初始点到第三个点的距离,从那里到最后一个点(称为 三角形不等式< - 这意味着没有捷径)。测量度量空间的距离是欧几里德距离,曼哈顿距离和切比雪夫距离。这些都是适用于数字向量的距离。欧几里得距离
- 欧几里德距离最常见,也被描述为两个向量的l2范数(阅读关于l1,l2和linfinity范数的讨论)。在二维平面上,欧几里德距离以连接两点的直线为基准,并将其计算为两个向量元素之间的平方差之和的平方根。在前面的图中,点(1,2)和(3,3)之间的欧几里德距离可以在R中计算为sqrt((1-3)^ 2 +(2-3)^ 2),这导致了距离大约为2. 236. 曼哈顿距离 另一个有用的测量是曼哈顿距离(也被描述为两个向量的l1范数)。通过求和向量的元素之间的差值的绝对值来计算曼哈顿距离。如果欧几里得距离是最短路线,那么曼哈顿距离标志着最长的路线,类似于在城市中出租车的方向。 (距离也被称为出租车或城市距离)。例如,曼哈顿点(1,2)和(3,3)之间的距离是abs(1-3)和abs(2-3 ),结果为3.
切比雪夫距离