返回顶部
首页
机械 | 工程 | 工具 | 行业 | 信息 | 集合 | 诗词 | 组词 | 范文 |
 
您现在的位置:
首页 机器人 详细信息

一种新的Spark-SQL应用程序调优方法

2022-06-19    阅读量:30932    新闻来源:互联网     |  投稿

Spark SQL是用于结构化数据处理的Spark模块。它已在业界广泛部署,但要调整其性能却很有挑战性。

现有的机器学习调优方法由于时间成本高且无法适应待处理数据量的变化,很难在实践中应用。

为了解决这些问题,中国科学院深圳先进技术研究所(SIAT)于志斌教授领导的一个研究团队提出了一种低时间成本的自动配置优化方法,名为低开销在线配置自动调整(LOCAT),它可以缩短优化时间,提高Spark SQL的性能。

研究结果发表在SIGMOD 2022上,这是一个面向数据库研究人员、从业者、开发人员和用户的国际论坛。相关论文可在2022年数据管理国际会议记录中找到。

研究人员首先为LOCAT设计了查询和配置参数敏感性分析技术。在收集培训样本时,将识别对配置参数不敏感的查询,并将其从给定的工作负载中删除。

余教授说:“对于其余的查询,LOCAT计算了相关系数,以确定重要的配置参数。”。然后,应用核主成分分析来降低配置参数搜索的维数

最后,研究人员为LOCAT设计了贝叶斯优化,该优化能够感知数据集的大小来搜索最优配置,从而可以根据数据集的大小自动优化其性能。

ARM集群(一个用于大数据计算的服务器集群,其中每台服务器都使用基于ARM指令的CPU)上的实验结果表明,LOCAT将最先进方法的优化过程加快了至少4.1倍,最高可达9.7倍。此外,LOCAT将应用性能提高了至少1.9倍,最高可达2.4倍。在x86集群上,LOCAT显示出与ARM集群相似的结果。

免责声明:本文仅代表作者本人观点,与中网机械,okmao.com无关。本网对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。本网转载自其它媒体的信息,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。客服邮箱:23341571@qq.com | 客服QQ:23341571
全站地图 | 二级目录 | 上链请联系业务QQ:23341571 或 业务微信:kevinhouitpro