对于DBSCAN的实现,是否需要对所有特征列进行标准化和归一化?例如[[ 664. , 703. , 2901.069079], [ 632. , 717. , 2901.069079], [ 606. , 740. , 4386.449399], [ 635. , 751. , 4386.449399], [ 672. , 525. , 4760.874001]]如果我必须对此进行 DBSCAN,是否必须先对其进行标准化,然后再对其进行标准化?只是标准化吗?此外,这些值如何决定 eps 的选择?
1 回答
泛舟湖上清波郎朗
TA贡献1818条经验 获得超3个赞
规范化或标准化数据可能会破坏数据集的重要属性。
一些例子:
您的数据是地理坐标。纬度和经度绝不能标准化
你的数据是直方图。唯一有意义的归一化是使直方图的总和为 1。切勿变换单个变量!
您的数据有一个有意义的零。例如,它是货币价值。不过,使用 sgn(x)*sqrt(abs(x)) 进行转换在某些领域可能会有所帮助。
你的数据很稀疏。永远不要标准化。(如果没有负值,标准化可能是“好的”。)
选择缩放不应该“因为它总是会完成”;但因为你拥有实际数据!选择它是因为它是正确的,而不是因为它是“默认”或在某些教程中。
如果您诉诸归一化或标准化,您很可能不了解您的数据,也不了解如何测量距离或相似性;然后人们喜欢使用归一化作为最后的手段来获得“一些”结果;但你永远不知道结果是否有意义。
添加回答
举报
0/150
提交
取消