网站建设的软硬件环境,淮北论坛官网,wordpress迅雷下载,响应式网站的原理目录 1简介
2距离函数
2.1 L2范数#xff08;欧氏距离#xff09; 1简介
在数据科学中#xff0c;相似性度量是一种衡量数据样本如何相互关联或相互接近的方法。另一方面#xff0c;相异性度量是告诉数据对象有多少是不同的。此外#xff0c;当相似的数据样本被分组到一…目录 1简介
2距离函数
2.1 L2范数欧氏距离 1简介
在数据科学中相似性度量是一种衡量数据样本如何相互关联或相互接近的方法。另一方面相异性度量是告诉数据对象有多少是不同的。此外当相似的数据样本被分组到一个集群中时这些术语通常用于聚类。所有其他数据样本被分组到不同的样本中。它还用于分类例如 KNN其中根据特征的相似性标记数据对象。另一个例子是当我们谈论与其他数据样本相比不同的异常值时例如异常检测。
相似性度量通常表示为一个数值当数据样本越相似时它就越高。它通常通过转换表示为零和一之间的数字零表示相似度低数据对象不相似。一是相似度高数据对象非常相似。
让我们举一个例子其中每个数据点只包含一个输入特征。这可以被认为是显示三个数据点 A、B 和 C 之间差异性的最简单示例。每个数据样本可以在一个轴上具有单个值因为我们只有一个输入特征让我们将其表示为 x 轴。让我们取两个点A(0.5)、B(1) 和 C(30)。如您所知与 C 相比A 和 B 彼此足够接近。因此A 和 B 之间的相似性高于 A 和 C 或 B 和 C。换句话说A 和 B 具有很强的相关性。因此距离越小相似度越大。
当且仅当它满足以下四个条件时给定的距离例如相异性才能成为度量
1- 非负性对于任意两个不同的观察值 p 和 qd(p, q) ≥ 0。
2- 对称性对于所有 p 和 qd(p, q) d(q, p)。
3- 三角不等式对于所有 p、q、rd(p, q) ≤ d(p, r) d(r, q)。
4-仅当 p q 时 d(p, q) 0。
距离度量是分类的基本原则例如 k 最近邻的分类器算法它测量给定数据样本之间的差异性。此外选择距离度量会对分类器的性能产生很大影响。因此计算对象之间距离的方式将对分类器算法的性能起着至关重要的作用。
2距离函数
用于测量距离的技术取决于您正在处理的特定情况。例如在某些地区欧几里得距离可能是最佳的并且对计算距离很有用。其他应用程序需要更复杂的方法来计算点之间的距离或余弦距离等观测值。以下列举的列表表示计算每对数据点之间距离的各种方法。
2.1 L2范数欧氏距离
用于数字属性或特征的最常见距离函数是欧几里德距离其定义如下 N维空间中两点之间的欧氏距离
距离度量具有众所周知的属性例如对称、可微、凸、球形等。在二维空间中等于直角三角形斜边的长度上式公式可以表示为 二维空间中两点之间的欧氏距离
此外欧几里德距离是一种度量因为它满足其标准如下图所示。 欧氏距离满足作为度量的所有条件
此外使用该公式计算的距离表示每对点之间的最小距离。也就是说它是从A点到B点的最短路径二维直角坐标系如下图所示 欧氏距离是最短路径不包括量子世界中虫洞的情况
因此无论何时您想在路径上没有障碍物的情况下计算两点之间的距离都可以使用此公式。相反您想要使用其他度量标准例如曼哈顿距离这将在后期文章中进行解释。