文章详情

大数据分析工作流程是什么

2020-11-25

点击量:

  大数据分析工作流程是什么?高效的工作流应该做到这一点-流程化-将我们从项目的每个阶段无缝地引导到下一个阶段,优化任务管理,并最终指导我们从业务问题到解决方案再到价值。随着数据泛滥的持续减少,企业正在淹没数据,但却渴望获得洞察力。这使得雇用大数据分析团队至关重要。但是,由什么构成大数据分析团队?大数据分析工作流程的最佳实践是什么?大数据分析家需要什么才能最大程度地执行大数据分析工作流程?

大数据分析
 

  尽管没有解决大数据分析问题的模板,但OSEMN(获取,清理,探索,模型,解释)大数据分析管道是一个很好的起点,该管道是大数据分析家Hilary Mason和Chris Wiggins在2010年引入的流行框架。大多数大数据分析工作流都是OSEMN步骤序列的变体,具有基于相同既定原理的基本流程,并且其共同目标是使组织的其他部门能够做出更好的,由数据驱动的决策。大数据分析工作流的功能完全取决于手头的业务目标和任务。
 

  改善大数据分析工作流程中最重要的步骤是开发针对团队特定需求的最佳实践。为此,您需要考虑以下大数据分析工作流程最佳实践。

  ‍

  大数据分析作为一项团队运动
 

  大数据分析家最初的印象是一个人可以神奇地做所有事情。出于明显的原因,这不是一个好主意。大数据分析涵盖了广泛的学科和角色,包括编程工程师,机器学习工程师,系统架构师,数据库管理员,商业智能分析师,IT工程师等等。建筑大数据分析团队应包括专门研究不同领域的人员。有效的团队工作流程始于确定团队所需的专业知识类型,并明确定义团队中的角色。

大数据分析工作流程是什么
 

  如果要构建原型,则可能不需要系统架构师。如果您正在处理较小的项目,则可能不需要数据库管理员。生产工程师将最适合面向客户的服务。并且一些具有学术经验的团队成员将主要进行不一定旨在产生产品销售的研究。大数据分析团队的各种角色取决于您的业务目标和任务。大数据分析家不是一个单人乐队,并且经常被高估。让所有这些专家共同努力,朝着一个共同的目标迈进,比让几个人自己做一切都可以帮助您进一步发展。
 

  识别业务问题
 

  您在回答什么问题,业务目标是什么?大数据分析家工作效率的主要组成部分是将大问题分解为更小的部分,并真正专注于您要解决的业务成果的能力,而不是为了研究而进行研究。最终,大数据分析团队的存在是为了改善业务流程,增加收入并降低成本。提出正确问题并实际解决实际业务问题的能力决定了您的成功。确定摘要为您希望团队完成的工作设定了议程。谁是您的最终用户?他们有什么问题?您优先考虑的是准确性,速度或可解释性?

  ‍

  拥抱开源和云计算
 

  得益于开源数据分析解决方案和云计算,与早期大数据分析工作流程相关的成本过高方面已得到有效消除。开源已经发展成为大数据分析家的主要工具来源。就概念访问而言,您无需构建自己的数据中心。如果要使用各种不同的工具,现在可以选择进行测试并根据需要订阅。云计算提供了大量可以按小时租用的硬件。
 

  使用开放源代码库通常也没有明确的成本,因为开放源代码库提供了令人难以置信的资源和灵活性。与专有软件不同,可以修改开源项目以适合您的需求。在现有项目上进行构建无需再从头开始,从而节省了大量时间和金钱。没有任何实际许可成本的情况下,转换成本也应更低。通过将开源与云计算相结合,您可以评估要使用的内容,创建原型,对其进行一段时间的测试,确定不起作用的内容,然后尝试其他操作,而这些操作的成本都大大降低了。

  ‍

  建立正确的大数据分析工作流工具包
 

  大数据分析家的大部分时间都花在了解业务问题和传达结果上。以清晰有效的方式记录和传达您的发现可能是科学过程中最具挑战性的步骤之一。自动化此过程对于良好的大数据分析工作流程和您的理智至关重要。一些有用的大数据分析工作流程工具包括:
 

  Jupyter的大数据分析工作流程
 

  Jupyter Notebook是一个开放源码的大数据分析前端,用于捕获数据准备过程,由包含实时代码,方程式,可视化效果和解释性文本的笔记本组成。无论您使用的是笔记本电脑,服务器还是云提供商,Jupyter Notebook都可以正常工作。笔记本方面指的是您的代码和结果位于同一窗口中的事实。作为交流和互动探索的一种方式,Jupyter Notebooks具有非常理想的接口属性集,您可以在其中一次添加一点点代码,查看结果,在数据源和结论上给自己写相应的注释,然后将这些文件发送给其他人。为了使这些笔记本能够正常工作,您需要数据以及用于重现此数据的所有依赖项,而这正是docker容器的所在。
 

  使用Docker容器的大数据分析工作流
 

  借助Docker,您可以将所有代码以及运行代码所需的一切打包在标准化,隔离的软件容器中,这些容器可以传入并在任何环境中工作。 
 ‍

  使用RAPIDS的大数据分析工作流程
 

  RAPIDS是在NVIDIA GPU平台上部署的GPU加速的机器学习和数据分析库的开源套件。对于需要解决大规模问题,需要毫秒级响应时间或执行大量重复计算的团队而言,RAPIDS是理想的选择。
 

  Amazon Web Services的大数据分析工作流
 

  Amazon Web Services提供了一套非常适合于机器学习工作流程的大数据分析工具。通过启用数据收集和转换来协调和自动化机器学习任务的序列。使用Amazon Athena在AWS Glue中执行查询,聚合和准备数据,在Amazon SageMaker上执行模型培训,然后将模型部署到生产环境。大数据分析工作流可以在数据工程师和大数据分析家之间共享。
 

  机器学习和网络
 

  机器学习和人工智能,通常可互换用于商业目的,是解决需要准确答案而不必要求可解释答案的商业问题的理想选择。例如,在乘车共享应用程序中,如果您只是想预测在城市的给定部分中将要有多少用户,或者需要多少辆车,那么您不必在乎为什么- -您只想获得最准确的数字。

大数据分析工作流程是什么
 

  本着开源的精神,用于自动化机器学习和深度学习工作流程的最佳资源是其他大数据分析家。与其他大数据分析家建立网络,阅读他们正在发布的内容,评估其他要素工程项目以及如何解决这些问题,查看其他人在做什么,尝试对其进行改进和调整其技术要比依靠任何一个人都要有效得多。书籍,工具,博客文章(!)或个人,以改善您的机器学习工作流程。

  ‍

  效率-不一定更好

  试图追赶最新事物可能会损害您的大数据分析工作流程效率。

  ‍

  大多数大数据分析项目不需要先进的方法。花太多时间担心最前沿的问题,而不是做一些众所周知的事情(可能会为您带来99%的结果),可能会使您陷入无休止的研究周期,而没有明确的解决方案。在大多数业务案例中,完成更多的工作要比追赶准确性的最后2%更好。

  ‍

  重现性
 

  可再现性是一个非常重要的问题,但也很难证明。可重复性的总体目标是说:这是我使用的数据,这是我使用的代码,如果您执行相同的操作,您将获得相同的正确答案。在大数据分析领域中,可重复性仍然存在重大挑战。即使您可以对所编写的代码使用版本控制,也不必一定写下所拥有的每个库依赖关系,您使用的开源库也可能会发生变化。在进行大规模数据分析时,进行版本控制也非常困难。缺少用于复制这些庞大数据集的基础结构的结果导致了一个易于更改的单一副本。
 

  最安全的做法是使用Git版本控制,记下您正在使用的所有软件包,对所有代码进行版本控制,至少,您可以遵循创建者的想法,并希望您可以拥有一份副本。数据集。

  ‍

  Python和R?

  大数据分析工作流的最佳语言是……这取决于。R和Python是高级语言,它们在大数据分析项目中均具有优势。用于R和Python的软件包通常在较低的一层,其中以非常快速的语言(例如C ++和Fortran)完成计算。差异往往在于应用程序。R更像是一种学术性的,基于研究的统计学家的语言,而Python更适合于科学研究,大数据分析,建筑应用程序和生产工程。Python对于大数据分析工作流可能是更可取的,因为通常认为Python速度更快,数据处理更好,并且本质上是面向对象的。R可能较难学习,但通常认为它适合进行临时分析。R中的大数据分析工作流程和Python中的大数据分析工作流程都有优点。

  ‍

  大数据分析工作流程的OmniSci优势
 

  OmniSci建立在GPU加速的基础上,从一开始就瞄准其分析平台的极高性能,而Immerse正是出于这种痴迷。Immerse为您提供的功能是,您可以查看比以往更大的数据并将其可视化,不仅可以在GPU上执行计算,还可以渲染图形。就您可以解决的问题规模而言,尤其是围绕地理空间数据而言,OmniSci在那里具有优势,因为所有硬件都已充分利用其全部功能,无论是数学,图片还是整个频谱。
 

大数据分析工作流程是什么
 

  从数据中获得洞察力的愿望没有丝毫放缓的迹象。随着对大数据分析家的需求以惊人的速度增长,支持您的大数据分析团队和开发可靠的大数据分析工作流程的重要性也越来越重要。大数据分析是一门艺术,拥有一支装备精良,充满灵感的团队,任何项目都可以转化为有价值的,引人入胜的故事。

长按识别二维码,加关注
↓ ↓ ↓ 继续阅读与本文标签相同的文章
大数据分析
大数据分析工作流程