你可能会说,我们生活在信息时代。全球每天生成的数据超过250万兆字节(100万TB)。管理这些数据是不可能的,但我们以许多不同的、有时难以想象的方式利用了大量数据。从知识库和数据库(大数据)中提取知识,可以更好地了解气候变化、经济、医学等领域的自然和非自然现象。
研究人员在《国际工程系统建模与仿真杂志》上撰文称,预测分析是基于此类大数据做出智能决策的关键。然而,有一些问题必须解决,尤其是当云中存在如此大的数据时。
印度拉贾斯坦邦中央大学的Krishna Kumar Mohbey和Sunil Kumar在这方面考虑了大数据的影响。他们指出,与大数据打交道的人面临的最大问题之一是,尽管其中一些数据可能是结构化的,但大部分数据只是半结构化的,而大量数据是完全非结构化的。
所有这些数据的存储、管理和分析是当今计算所面临的最大挑战之一。虽然云计算以分布式方式提供了许多所需的工具,并在一定程度上彻底改变了信息和通信技术(ICT),但在我们真正全面应对大数据之前,还有很长的路要走。
然而,云中大数据的分布式存储和大规模并行处理可以为大数据和预测分析的未来奠定基础。该团队回顾了许多当前的方法,这些方法使用历史数据和机器学习来根据当代大数据源对未来场景的结果进行预测。该团队指出了大数据领域的下一步研究方向,并警告了可能的死胡同。
该团队写道:“关键目标是将云转变为可扩展的数据分析工具,而不仅仅是数据存储和技术平台。”。他们补充说,现在是开发适当的标准和应用程序编程接口(API)的时候了,这些标准和API允许用户在解决方案之间轻松迁移,从而利用云基础设施的弹性。