除了Hadoop之外,您还需要在软件开发中了解9种大数据技术

除了Hadoop之外,您还需要在软件开发中了解9种大数据技术

* 来源: * 作者: * 发表时间: 2020-08-29 0:23:51 * 浏览: 0
除了Hadoop之外,您还需要在软件开发中了解9大数据技术。 Hadoop是大数据领域中的一种流行技术,但事实并非如此。还有许多其他技术可用于解决大数据问题。除了ApacheHadoop,还必须了解其他九种大数据技术。 ApacheSamza GoogleCloudDataFlow StreamSets TensorFlow ApacheNiFi Druid LinkedInWhereHows MicrosoftCognitiveServices这是一个高效,分布式和高效的基于Java的分布式查询平台,具有分布式,高效分析引擎以及基于Java和并行分析的通用大数据解决方案的灵活性发动机。 ,它支持基于批处理和流的数据分析,并提供基于Java和Scala的API。这是一个社区驱动的分布式大数据分析开源框架,类似于ApacheHadoop和ApacheSpark。它的引擎可以借助数据流,内存处理和迭代操作来提高性能。目前,ApacheFlink已成为一个项目(TopLevelProject,TLP),并于2014年4月被包含在Apache孵化器中。目前,全球有许多贡献者。 Flink受MPP数据库技术(声明式,QueryOptimizer,Parallell内存,核外算法)和Hadoop MapReduce技术(Massivescaleout,UserDefinedfunctions,SchemaonRead)的启发,并具有许多独特的功能(流,迭代,数据流,GeneralAPI)。了解有关ApacheSamza的更多信息:这是一个开源的分布式流处理框架,该框架使用开源的分布式消息处理系统Apache Kafka来实现消息服务,并使用资源管理器Apache Hadoop Yarn来实现容错处理,处理器隔离,安全性和资源。管理。该技术由LinkedIn开发,最初旨在解决可扩展性方面的Apache Kafka问题,包括SimpleAPI,Managedstate,FaultTolerant,Durablemessaging,可扩展,可扩展和ProcessorIsolation等功能。相关供应商内容Didi Travel的iOS客户端架构的发展!微信客户端如何处理薄弱的网络! Swift中的函数式编程和Swift中的函数式编程!您距离成为合格的技术领导者还有多远?不容错过的国际集装箱技术盛会,赞助商GMTC全球移动技术会议,2016年6月24日至25日,点击了解详情! Samza的代码可以作为Yarn作业运行,也可以实现StreamTask接口。这定义了process()调用。 StreamTask可以在任务实例内部运行,该任务实例本身也位于Yarn容器中。了解有关CloudDataflow的更多信息:Dataflow是本机GoogleCloud数据处理服务。它是一种构建,管理和优化用于构建移动应用程序,调试,跟踪和监视产品级云应用程序的复杂数据管道的方法。它使用Google的内部技术Flume和MillWhell,其中Flume用于高效的数据并行处理,而MillWhell用于具有良好容错机制的Internet级流处理。该技术提供了一种简单的编程模型,可用于批处理和流数据处理任务。该技术提供的数据流管理服务可以控制数据处理作业的执行。可以使用DataFlowSDK(ApacheBeam)创建数据处理作业。 Google DataFlow为与数据相关的任务提供管理,监视和安全功能。源和接收器可以抽象地在管道中执行读取和写入操作。管道封装的整个计算序列可以接受来自外部源的某些输入数据,并通过转换数据来生成某些输出数据。了解有关StreamSet的更多信息:StreamSets是为传输中的数据而优化的数据处理平台。它提供了可视的数据流创建模型,并通过开源分发。该技术可以部署在内部环境或云中,从而提供丰富的监视和管理界面。数据收集器可以使用数据管道实时传输和处理数据。管道描述了从源到最终目标的数据流,并且可以包括源,目标和处理程序。数据收集器的生命周期可以通过管理控制台来控制e。了解更多TensorFlow:它是继DistBelief之后的第二代机器学习系统。 TensorFlow源自Google的Google Brain项目,其主要目标是将各种类型的神经网络机器学习功能应用于Google整个公司的不同产品和服务。 TensorFlow支持分布式计算,使用户能够在自己的机器学习基础架构中训练分布式模型。该系统由高性能gRPC数据库支持,并补充了最近发布的Google云机器学习系统,使用户能够使用Google云平台来为TensorFlow模型进行培训和提供服务。这是一个开源软件库,可以使用dataflowgraph进行数值计算。这项技术已在各种Google项目中使用,包括DeepDream,RankBrain和SmartReplyused。数据流图使用由节点(Node)和边(Edge)组成的有向图来描述数值运算。图中的节点表示数值运算,边缘表示负责节点之间通信的多维数据数组(Tensor)。边缘还描述了节点之间的输入/输出关系。 ldquo,名称TensorFlow表示图上张量流动的含义。了解有关Druid的更多信息:Druid是一个高容错,高性能的开源分布式系统,用于大数据实时查询和分析。它旨在快速处理大规模数据并实现快速查询和分析。它诞生于2011年,它包括Drive交互式数据应用程序,多租户:大量并发用户,可扩展性:每天数万亿事件,亚秒级查询,实时分析和其他功能。 Druid还包含一些特殊的重要功能,例如低延迟数据提取,快速聚合,任意剪切能力,高可用性,近似计算和计算等。创建Druid的初衷主要是为了解决查询延迟问题。当时,它尝试使用Hadoop来实现交互式查询分析,但是很难满足实时分析的需求。 Druid提供了以交互方式访问数据的功能,并权衡了查询的灵活性和性能,并采用了特殊的存储格式。 (点击放大)该技术还提供其他实用功能,例如实时节点,历史节点,Broker节点,Coordinator节点以及基于JSON查询语言的索引服务。了解有关ApacheNiFi的更多信息:ApacheNiFi是一个功能强大且可靠的数据处理和分发系统,可用于创建有向图以进行数据流和转换。在该系统的帮助下,图形界面可用于创建,监视和控制数据流。有许多可用的配置选项。可以在运行时修改数据流,并可以动态创建数据分区。另外,可以对整个系统中的数据流执行数据源跟踪。通过开发自定义组件,也可以轻松扩展它。 (点击放大)ApacheNiFi的操作与FlowFile,Processor和Connection等概念密不可分。了解更多信息LinkedInWhereHows:WhereHows为企业目录提供了元数据搜索功能,可让您了解数据的存储位置和存储方式。该工具可以提供协作和数据沿袭分析等功能,并且可以连接到各种数据源以及提取,加载和转换(ETL)工具。 (单击以放大图像)此工具提供用于数据发现的Web界面。支持API的后端服务器负责控制元数据的爬网以及与其他系统的集成。了解有关Microsoft CognitiveServices的更多信息:该技术源自ProjectOxford和Bing,并提供22种认知计算API,主要类别包括:视觉,语音,语言,知识和搜索。该技术已集成到CortanaIntelligenceSuite中。 (点击放大)这是一种开放源代码技术,可提供22种不同的认知计算RESTAPI,并为开发人员提供Windows,IOS,Android和Python的SDK。
扫描二维码关注我们
确 认