为了账号安全,请及时绑定邮箱和手机立即绑定

对于DBSCAN python,是否必须同时进行标准化和规范化?

对于DBSCAN python,是否必须同时进行标准化和规范化?

杨魅力 2023-08-15 17:20:23
对于DBSCAN的实现,是否需要对所有特征列进行标准化和归一化?例如[[ 664.      ,  703.      , 2901.069079],  [ 632.      ,  717.      , 2901.069079],  [ 606.      ,  740.      , 4386.449399],    [ 635.      ,  751.      , 4386.449399],   [ 672.      ,  525.      , 4760.874001]]如果我必须对此进行 DBSCAN,是否必须先对其进行标准化,然后再对其进行标准化?只是标准化吗?此外,这些值如何决定 eps 的选择?
查看完整描述

1 回答

?
泛舟湖上清波郎朗

TA贡献1818条经验 获得超3个赞

规范化或标准化数据可能会破坏数据集的重要属性。

一些例子:

  • 您的数据是地理坐标。纬度和经度绝不能标准化

  • 你的数据是直方图。唯一有意义的归一化是使直方图的总和为 1。切勿变换单个变量!

  • 您的数据有一个有意义的零。例如,它是货币价值。不过,使用 sgn(x)*sqrt(abs(x)) 进行转换在某些领域可能会有所帮助。

  • 你的数据很稀疏。永远不要标准化。(如果没有负值,标准化可能是“好的”。)

选择缩放不应该“因为它总是会完成”;但因为你拥有实际数据!选择它是因为它是正确的,而不是因为它是“默认”或在某些教程中。

如果您诉诸归一化或标准化,您很可能不了解您的数据,也不了解如何测量距离或相似性;然后人们喜欢使用归一化作为最后的手段来获得“一些”结果;但你永远不知道结果是否有意义。


查看完整回答
反对 回复 2023-08-15
  • 1 回答
  • 0 关注
  • 143 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信