Presto连接数据源的性能问题
老师你好,我想请问一些Presto连接数据源的问题。
我这里尝试了presto连接PG数据库,做了简单的聚合尝试,比在PG中直接查询是慢的。
想请教一下,
是否需要数据源为Hive 或类似列存储格式的等特殊类型的数据源格式,presto才具有高性能的特点
测试pg和presto两台机器各自独立,采用公网IP访问,是否需要部署同一台测试,感觉如果jdbc协议走tcp的话,应该相差不大
presto是否会缓存数据源的数据在内存中,第二次查询会更快?
测试数据为单表千万级数据,presto的单机是否存在性能瓶颈,8cores 28g ram,感觉影响不大
目前在摸索一些数据分析类的大数据工具,使用过Clickhouse,不知道老师是否了解