技术分析:什么是大数据架构?

  • 日期:08-12
  • 点击:(582)


  千锋JAVA开发学院3天前我要分享

大数据架构是用于摄取和处理大量数据(通常称为“大数据”)的整体系统,因此可以针对业务目的进行分析。可以将此体系结构视为基于组织业务需求的大数据解决方案的蓝图。大数据架构旨在处理以下类型的工作:

批量处理大数据源。

实时处理大数据。

预测分析和机器学习。

精心设计的大数据架构可以节省企业资金,并帮助预测未来趋势,从而做出明智的业务决策。

大数据架构的好处

可用于分析的数据量每天都在增长。此外,流媒体资源比以往任何时候都多,包括来自流量传感器,健康传感器,事务日志和活动日志的数据。但拥有数据只是商业成功的一半。企业还需要能够理解数据并及时使用它来影响关键决策。使用大数据架构可以帮助公司节省资金并做出关键决策,包括:

削减开支。诸如Hadoop和基于云的分析等大数据技术可以在存储大量数据时显着降低成本。

做出更快,更好的决策。利用大数据架构的流组件,公司可以实时做出决策。

预测未来需求并创造新产品。大数据可以帮助公司衡量客户需求并使用分析来预测未来趋势。

大数据架构挑战

(1)数据质量

无论何时使用各种数据源,数据质量都是一项挑战。这意味着公司需要做的工作是确保数据格式匹配,并且没有重复或缺少数据会使分析不可靠。公司需要分析和准备数据,然后才能与其他数据一起进行分析。

(2)延期

大数据的价值在于其数量。但是,这也是一个重要问题。如果您的组织尚未设计可扩展的体系结构,则可能会很快遇到问题。首先,如果公司不打算支持基础设施,支持基础设施的成本将会增加。这可能会给公司的预算带来负担。其次,如果公司不打算扩大规模,其业绩可能会大幅下降。在构建大数据架构的规划阶段,应该解决这两个问题。

(3)安全性

虽然大数据可以为组织提供对数据的深入理解,但保护数据仍然具有挑战性。欺诈者和黑客可能对公司数据感兴趣,他们可能会尝试添加自己的假数据或浏览公司数据以获取敏感信息。网络犯罪分子可以制作数据并将?浯胧莺@纾偕枰患夜靖偻镜慊鞔问苑⑾至髁恐械囊斐DJ剑⒃谄渫旧戏⑾址缸锘疃M绶缸锓肿涌梢陨傅狡笠档南低持校⒖梢栽谄笠档拇笫葜姓业酱罅康拿舾行畔ⅰ1;ぶ芪Щ肪常用苁莶⒊⑹阅涿菀陨境舾行畔ⅲ绶缸锓肿涌赡芑嵬诰蚴菀曰袢〈诵畔ⅰ?

大数据架构取决于公司的基础架构和需求,但通常包括以下组件:

数据源。所有大数据架构都以源代码开头。这可以包括来自数据库的数据,来自诸如IoT设备的实时源的数据,以及从诸如Windows日志的应用程序生成的静态文件。

实时消息接收。如果您有实时源,则需要在体系结构中构建一个机制来提取数据。

数据存储。企业需要存储将通过大数据架构处理的数据。通常,数据存储在数据湖中,这是一个可以轻松扩展的大型非结构化数据库。

批处理和实时处理的组合。企业需要处理实时和静态数据,因此应在大数据架构中内置批量和实时处理的组合。这是因为批处理可以有效地处理大量数据,并且需要立即处理实时数据以带来价值。批处理涉及长期运行的作业,用于筛选,聚合和准备分析数据。

分析数据存储。获得要分析的数据后,需要将它们放在一个位置以分析整个数据集。分析数据存储的重要性在于,公司的所有数据都集中在一个位置,因此其分析将是全面的,并针对分析而非交易进行优化。这可以采用基于云的数据仓库或关系数据库的形式,具体取决于企业的需求。

分析或报告工具。在摄取和处理各种数据源之后,公司需要包含一个分析数据的工具。通常,公司将使用BI(商业智能)工具来完成工作,并可能需要数据科学家来探索数据。

自动化。通过这些不同的系统移动数据要求它通常以某种形式的自动化进行编排。数据提取和转换,批量移动和流处理都会加载到分析数据存储中,并且洞察力最终必须位于可重复的工作流程中,以便组织可以不断从大数据中获取洞察力。

收集报告投诉

大数据架构是用于摄取和处理大量数据(通常称为“大数据”)的整体系统,因此可以针对业务目的进行分析。可以将此体系结构视为基于组织业务需求的大数据解决方案的蓝图。大数据架构旨在处理以下类型的工作:

批量处理大数据源。

实时处理大数据。

预测分析和机器学习。

精心设计的大数据架构可以节省企业资金,并帮助预测未来趋势,从而做出明智的业务决策。

大数据架构的好处

可用于分析的数据量每天都在增长。此外,流媒体资源比以往任何时候都多,包括来自流量传感器,健康传感器,事务日志和活动日志的数据。但拥有数据只是商业成功的一半。企业还需要能够理解数据并及时使用它来影响关键决策。使用大数据架构可以帮助公司节省资金并做出关键决策,包括:

削减开支。诸如Hadoop和基于云的分析等大数据技术可以在存储大量数据时显着降低成本。

做出更快,更好的决策。利用大数据架构的流组件,公司可以实时做出决策。

预测未来需求并创造新产品。大数据可以帮助公司衡量客户需求并使用分析来预测未来趋势。

大数据架构挑战

(1)数据质量

无论何时使用各种数据源,数据质量都是一项挑战。这意味着公司需要做的工作是确保数据格式匹配,并且没有重复或缺少数据会使分析不可靠。公司需要分析和准备数据,然后才能与其他数据一起进行分析。

(2)延期

大数据的价值在于其数量。但是,这也是一个重要问题。如果您的组织尚未设计可扩展的体系结构,则可能会很快遇到问题。首先,如果公司不打算支持基础设施,支持基础设施的成本将会增加。这可能会给公司的预算带来负担。其次,如果公司不打算扩大规模,其业绩可能会大幅下降。在构建大数据架构的规划阶段,应该解决这两个问题。

(3)安全性

虽然大数据可以为组织提供对数据的深入理解,但保护数据仍然具有挑战性。欺诈者和黑客可能对公司数据感兴趣,他们可能会尝试添加自己的假数据或浏览公司数据以获取敏感信息。网络犯罪分子可以制作数据并将其带入数据湖。例如,假设一家公司跟踪网站点击次数以发现流量中的异常模式,并在其网站上发现犯罪活动。网络犯罪分子可以渗透到企业的系统中,并可以在企业的大数据中找到大量的敏感信息。保护周围环境,加密数据并尝试匿名化数据以删除敏感信息,网络犯罪分子可能会挖掘数据以获取此信息。

大数据架构取决于公司的基础架构和需求,但通常包括以下组件:

数据源。所有大数据架构都以源代码开头。这可以包括来自数据库的数据,来自诸如IoT设备的实时源的数据,以及从诸如Windows日志的应用程序生成的静态文件。

实时消息接收。如果您有实时源,则需要在体系结构中构建一个机制来提取数据。

数据存储。企业需要存储将通过大数据架构处理的数据。通常,数据存储在数据湖中,这是一个可以轻松扩展的大型非结构化数据库。

批处理和实时处理的组合。企业需要处理实时和静态数据,因此应在大数据架构中内置批量和实时处理的组合。这是因为批处理可以有效地处理大量数据,并且需要立即处理实时数据以带来价值。批处理涉及长期运行的作业,用于筛选,聚合和准备分析数据。

分析数据存储。获得要分析的数据后,需要将它们放在一个位置以分析整个数据集。分析数据存储的重要性在于,公司的所有数据都集中在一个位置,因此其分析将是全面的,并针对分析而非交易进行优化。这可以采用基于云的数据仓库或关系数据库的形式,具体取决于企业的需求。

分析或报告工具。在摄取和处理各种数据源之后,公司需要包含一个分析数据的工具。通常,公司将使用BI(商业智能)工具来完成工作,并可能需要数据科学家来探索数据。

自动化。通过这些不同的系统移动数据要求它通常以某种形式的自动化进行编排。数据提取和转换,批量移动和流处理都会加载到分析数据存储中,并且洞察力最终必须位于可重复的工作流程中,以便组织可以不断从大数据中获取洞察力。