澳门新葡萄京官网注册 1

引用原文地址:On the Rise: Six Unsung Apache Big Data Projects 作者:SAM
DEAN
译者:吴洁世界各地无数的组织,他们使用的数据现在日益庞大而复杂,使用传统的数据处理程序已无法再进行优化分析及获得洞察。而这正是的新一代的大数据应用程序要解决的问题。近期Apache软件基金会又将一批有趣的开源大数据项目毕业为的Apache顶级项目。这意味着,这些项目将能够得到积极的发展和社区的大力支持。大多数人都听过的Apache
Spark,一个针对Streaming,
SQL,机器学习和图形处理的内置模块的大数据处理架构。
IBM和其他公司正在投入数十亿美金开发资金到Spark项目,NASA和SETI
Institute正在利用Spark的机器学习能力,合作分析TB数量级的外太空无线信号数据,寻找外星智能生命存在的形式。然而,其他几个最近被Apache擢升为顶级的大数据项目也值得您额外关注。事实上,他们中的一些所构建和发展的生态系统,很可能将对Spark发起挑战。结合本周举行的“ApacheCon北美峰会”和“Apache大数据峰会”,本文将归纳那些你应该知道的Apache的大数据项目。下面是六个正在冉冉兴起的项目:KylinApache近日宣布其Kylin项目,一个始于eBay的开源大数据项目在eBay已经毕业为顶级项目。Kylin是一个开源的分布式分析引擎,旨在提供在Apache
Hadoop之上SQL接口的多维分析引擎,可支持超大数据集。它已广泛在eBay和其他一些组织中被采用。“Apache
Kylin的孵化之旅已经证明Apache软件基金会开源治理的价值,以及围绕项目建设开源社区和生态系统的强大力量。”Apache
Kylin副总裁Luke Han说:
“我们的开源社区是世界上最大的本土开发者参与的社区,完全依照The Apache
Way的社区运作方式。”作为一个领先的基于Hadoop的OLAP解决方案,Apache
Kylin填补了大数据与人使用之间的空白,他补充说道:“使分析人员,最终用户,开发者和数据爱好者能够在大规模数据集上进行亚秒级延迟的交互式分析。基于这些能力,Apache
Kylin将商业智能带回Apache
Hadoop以释放出大数据的价值。”LensApache近日宣布,Apache
Lens,一个开源的大数据和分析工具,也已经从Apache孵化器毕业成为一个顶级项目。根据公告:“Apache
Lens是一个统一的分析平台,以统一视图形式为分析查询提供了优化的执行环境。Apache
Lens旨在通过提供一个跨多个数据存储的单一视图来横向打通数据分析中遇到的异构单元。”“通过在数据之上提供一个在线的分析处理模型,Lens无缝地集成Hadoop和传统数据仓库,提供统一的外部接口。它同时提供系统中查询历史、统计和查询的生命周期管理。”“在ASF中孵化Apache
Lens是一段神奇的经历” Apache Lens的副总裁Amareshwari
Sriramadasu说:“Apache
Lens从最终用户角度出发,为大数据分析解决了一个难题,它使得业务用户、分析师、开发者和其他用户,可以轻松的进行复杂的数据分析,而不需要了解底层的数据架构。”IgniteASF还宣布Apache
Ingite成为了一个顶级项目,一个通过开源方式建立的内存数据网络。Apache
Ignite是一个高性能的整合的分布式的内存数据网络,实现在大规模数组上进行实时的计算和交互。Apache社区成员认为“可能比传统的硬盘或闪存技术要快几个数量级。它的设计使现有的以及各种新的应用可以轻松的部署在一个价格适宜的行业标准的大规模并行架构的硬件上。”BrooklynASF宣布Apache
Brooklyn已成为一个TLP。“这标志着该项目的社区和产品在ASF优异的流程和原则下治理有方。”Brooklyn是用于整合跨多个数据中心的应用程序的蓝图和管理平台,并适用于各种云端软件。Brooklyn
宣称:“随着现代应用程序正在由更多个部件组成,微服务架构又逐渐兴起,部署以及已部署应用的演化越来越成为一个难题。Apache
Brooklyn的蓝图提供了一个清晰简洁的方式,在部署到公共云或私有基础设施之前,来规范应用,及它的组件、配置和组件之间的关联性。这种建立在自主计算理论的基础上的策略管理,会不断地评估运行应用程序,修改以保持它的运行健康和指标优化,例如成本和响应能力。”Brooklyn已经在一些知名企业中应用。云服务商Canopy和Virtustream已在Brooklyn上提供产品。IBM也已经大规模的使用Brooklyn,以将大量工作从AWS迁移到IBM
Softlayer之上。Apex今年4月,Apache软件基金会将Apex项目提升至顶级项目。它被称为“应用在Apache
Hadoop生态系统的大规模,高吞吐量,低延时,能容错的,统一的大数据流和批量处理平台。”
Apex与Apache
Hadoop资源管理平台YARN,一起作用于Hadoop工作集群。Tajo最后,Apache
Tajo,一个领先的Apache
Hadoop之上的开源数据仓库系统,成为另一个你需要了解的大数据项目。Apache宣称Tajo提供了针对Hadoop、第三方数据库以及商用BI工具的快速抓取能力。显然,尽管Apache
Spark吸引了大量的眼球,但它不是唯一需要你关注的来自Apache的大数据工具。今年接下去,Apache也许会将更多引人注目的大数据项目升级为顶级项目,这些项目必将由此获得更好的开发资源和更多的受益。

2017年1月10日,
由超过350个开源项目及创新计划,全部由开发志愿者,治理志愿者及孵化志愿者组成的Apache软件基金会(ASF),宣布Apache
Eagle已经从Apache孵化器项目毕业,正式升级成为顶级项目(TLP),这标志着该项目的社区和产品依照ASF精英管理的流程和原则顺利运作。

作者介绍

Apache
Eagle是一个开源监视和警报解决方案,用于智能实时地识别大数据平台上的安全和性能问题,例如Apache
Hadoop,Apache Spark等。

澳门新葡萄京官网注册 2

“我们很自豪Eagle能顺利度过孵化过程,并作为Apache顶级项目毕业”,Apache
Eagle
副总裁张勇说,“社区正在积极改进产品,探讨并分析大型Hadoop集群中的各种性能和安全问题。”

陈浩

Eagle起源于eBay,最早用于解决大规模Hadoop集群的监控问题。
团队很快意识到这对整个社区也将很有用,所以于2015年10月将项目提交给Apache孵化器。从那时起,Eagle因为其广泛的使用场景,比如系统/服务监控,应用性能监控和安全漏洞检测,获得了开发人员和各种组织的注意。

Apache Eagle Committer 和 PMC 成员,eBay
分析平台基础架构部门高级软件工程师,负责Eagle的产品设计、技术架构、核心实现以及开源社区推广等。

Apache Eagle主要特点包括:

消息

  • 高可扩展:Apache
    Eagle围绕应用概念构建其核心框架;应用程序本身包括待监视源数据的收集,预处理和规范化处理。开发人员可以使用Eagle的应用程序框架轻松开发自己的监控应用程序,并部署到Eagle中。

  • 高可伸缩:项目的运行时环境基于经过验证的大数据技术,并应用可扩展核心,根据数据流的吞吐量以及受监视应用程序的数量进行自适应。

  • 低延时:提供最先进的警报引擎以快速识别安全漏洞和性能问题。

  • 动态协同:用户可以自由地启用或禁用监视应用程序,并动态更改其警报策略,而不会对底层运行时环境产生任何影响。

日前,eBay公司隆重宣布正式向开源业界推出分布式实时安全监控方案:Apache
Eagle,该项目已于2015年10月26日正式加入Apache基金会成为孵化器项目。

“令人兴奋的是,Apache
Eagle的广泛部署伴随着越来越多的新用例上线和社区的良好协作”,张勇补充道。

http://goeagle.io 

澳门新葡萄京官网注册 3

Apache
Eagle提供一套高效分布式的流式策略引擎,具有高实时、可伸缩、易扩展、交互友好等特点,同时集成机器学习对历史模型训练建立用户画像以实现智能实时地保护Hadoop生态系统中大数据的安全。

“Apache
Eagle是一个高度可伸缩性和可扩展的技术平台,支持在大规模分布式计算环境中不断增长的智能监控和警报需求”,Jiff
Inc. CTO及执行副总裁Debashis
Saha说,“作为这个项目的创始执行发起人,我很自豪地看到社区持续扩展功能,用Apache
Eagle支持安全,基础设施,网络和分布式服务监控中各种复杂和多样化的用例。恭喜这个团队和社区,让它成长为一个Apache顶级项目。”

Eagle在eBay的使用场景

“作为以数据为中心、专注于云和大数据技术安全领域的领导者,Dataguise很荣幸成为Eagle
committer组的一员。 DgSecure Monitor是我们的敏感感知监控产品,使用Apache
Eagle作为核心引擎”,大数据安全解决方案公司Dataguise
Inc.产品与工程副总裁Subra Ramesh说, “Apache
Eagle的灵活架构,久经考验的可扩展性和尖端设计使DgSecure
Monitor成为面向内部部署和云部署的高度响应和可扩展的解决方案。我们期待继续参与Eagle,因为它现在已经成为一个顶级的Apache项目。”

目前,Eagle的数据行为监控系统已经部署到一个拥有2500多个节点的Hadoop集群之上,用以保护数百PB数据的安全,并正计划于2015年年底之前扩展到其他上十个Hadoop集群上,从而覆盖eBay所有主要Hadoop的10000多台节点。

“我们已经使用Apache
Eagle大约一年了,非常高兴看到它升级成为一个顶级项目。Apache
Eagle及其低延迟实时警报引擎可以帮助我们轻松识别在Hadoop上的安全和性能问题“,国内知名电商网站1号店技术部门高级副总裁钟浩说,“此外,Eagle的架构是高度可扩展的。我们期待在实时风险管理系统中使用它。”

在我们的生产环境中,我们已针对HDFS、Hive
等集群中的数据配置了一些基础的安全策略,并将于年底之前不断引入更多的策略,以确保重要数据的绝对安全。

“Apache Eagle是为大规模分布式环境设计的一个伟大的监视和警报解决方案”,
eBay分析数据基础设施总监Chad Chun表示,
“它最初是用于安全监控,并迅速成为一个通用解决方案,允许领域专家在Eagle之上创建自己的监控应用程序。这是一个很好的设计,轻松利用社区的力量创建和共享应用程序,期待业界的采纳。”

目前,Eagle的策略涵盖多种模式,包括从访问模式、频繁访问数据集,预定义查询类型、Hive
表和列、HBase 表以及基于机器学习模型生成的用户Profile相关的所有策略等。

“Apache
Eagle社区在整个孵化过程中做了巨大的工作,我很高兴看到它毕业成为顶级项目“,
ASF会员和Apache Eagle项目管理委员会(PMC)成员 P. Taylor
Goetz说,“Eagle在为大数据部署提供一流的安全性和性能监控和警报方面发挥了非常重要的作用。Eagle项目已经建立了一个强大的可持续社区,并展示了对Apache
Way的坚定理解,Eagle社区到达这个重要的里程碑的同时,我期待着它进一步的创新。”

同时,我们也有广泛的策略来防止数据的丢失、数据被拷贝到不安全地点、敏感数据被未授权区域访问等。Eagle策略定义上极大的灵活性和扩展性使得我们未来可以轻易地继续扩展更多更复杂的策略以支持更多多元化的用例场景。

“很高兴看到Eagle在一年的时间内毕业成为Apache顶级项目”,eBay数据平台高级总监Seshu
Adunuthula说,“这是一个具有独特的地位的伟大产品,因为它填补监测和警报大规模分布式计算环境的缺口;这是拥有良好的架构的产品,允许社区在不同的技术领域,如网络和数据库集群,轻松实现自定义监控和警报应用程序。我期待社区在未来几年快速成长!”

项目背景

稿源: ApacheEagle

澳门新葡萄京官网注册,随着大数据的发展,越来越多的成功企业或者组织开始采取数据驱动商业的运作模式。在eBay,我们拥有数千名工程师、分析师和数据科学家,他们每天访问分析数PB级的数据,以为我们的用户带来无与伦比的体验。在全球业务中,我们也广泛地利用海量大数据来连接我们数以亿计的用户。

近年来,Hadoop已经逐渐成为大数据分析领域最受欢迎的解决方案,eBay也一直在使用Hadoop技术从数据中挖掘价值。例如,我们通过大数据提高用户的搜索体验,识别和优化精准广告投放,充实我们的产品目录,以及通过点击流分析以理解用户如何使用我们的在线市场平台等。

目前,eBay的Hadoop集群总节点数据超过10000多个,存储容量超过170PB,活跃用户超过2000多。现在相关规模还在不断增长中,同时为了支持多元化需求,我们引入越来越多样的数据存储和分析方案,比如Hive、MapReduce、Spark和HBase等,随之带来的管理和监控的挑战越来越严峻,数据安全问题亦是其中最重要的之一。

大数据时代,安全问题开始变得空前的关键,特别eBay作为全球领先的电子商务公司,我们必须保证Hadoop中用户数据的绝对安全。

通常我们的安全措施根据如下几点:访问控制、安全隔离、数据分类、数据加密以及实时数据行为监控。

然而经过广泛的尝试和研究,我们意识到没有任何已经存在的产品或者解决方案,能够充分满足我们面临海量实时数据流和多元化用例场景下数据行为监控的需求。为了逾越这道鸿沟,eBay决定从头开始构建Eagle。

澳门新葡萄京官网注册 4

“Eagle
是开源分布式实时Hadoop数据安全方案,支持数据行为实时监控,能立即监测出对敏感数据的访问或恶意的操作,并立即采取应对的措施”

我们相信Eagle将成为Hadoop数据安全领域的核心组件之一,因此我们决定将它的功能分享给整个社区。

目前我们已经将Eagle捐赠给Apache软件基金会作为Apache孵化器项目开源,期望能够同开源社区一同协作开发,使得Eagle不断发展壮大,共同满足开源社区中更广泛的需求。

Eagle的数据行为监控方案可用于如下几类典型场景:

◆监控Hadoop中的数据访问流量

◆检测非法入侵和违反安全规则的行为

◆检测并防止敏感数据丢失和访问

◆实现基于策略的实时检测和预警

◆实现基于用户行为模式的异常数据行为检测

Eagle具有如下特点:

高实时:我们充分理解安全监控中高度实时和快速反应的重要性,因此设计Eagle之初,我们竭尽可能地确保能在亚秒级别时间内产生告警,一旦综合多种因素确订为危险操作,立即采取措施阻止非法行为。

可伸缩:在eBay,Eagle
被部署在多个大型Hadoop集群上,这些集群拥有数百PB的数据,每天有8亿以上的数据访问时间,因此Eagle必须具有处理海量实时数据的高度可伸缩能力。

简单易用:可用性也是Eagle产品的核心设计原则之一。通过Eagle的Sandbox,使用者仅需数分钟便可以设置好环境并开始尝试。为了使得用户体验尽可能简单,我们内置了许多很好的例子,只需简单地点击几步鼠标,便可以轻松地完成策略地创建和添加。

用户Profile:Eagle内置提供基于机器学习算法对Hadoop中用户行为习惯建立用户Profile的功能。我们提供多种默认的机器学习算法供你选择用于针对不同HDFS特征集进行建模,通过历史行为模型,Eagle可以实时地检测异常用户行为并产生预警。

开源:Eagle一直根据开源的标准开发,并构建于诸多大数据领域的开源产品之上,因此我们决定以Apache许可证开源Eagle,以回馈社区,同时也期待获得社区的反馈、协作与支持。

Eagle概览

澳门新葡萄京官网注册 5

1.Eagle Architecture 数据流接入和存储(Data Collection and Storage)

Eagle提供高度可扩展的编程API,可以支持将任何类型的数据源集成到Eagle的策略执行引擎中。例如:

◆在Eagle HDFS审计事件(Audit)监控模块中,通过Kafka来实时接收来自Namenode
Log4j Appender 或者 Logstash Agent 收集的数据;

◆在Eagle Hive 监控模块中,通过YARN API
收集正在运行Job的Hive查询日志,并保证比较高的可伸缩性和容错性。

2.数据实时处理(Data Processing)

流处理API(Stream Processing API):Eagle
提供独立于物理平台而高度抽象的流处理API,目前默认支持Apache
Storm,但是也允许扩展到其他任意流处理引擎,比如Flink 或者 Samza等。

该层抽象允许开发者在定义监控数据处理逻辑时,无需在物理执行层绑定任何特定流处理平台,而只需通过复用、拼接和组装例如数据转换、过滤、外部数据Join等组件,以实现满足需求的DAG(有向无环图),同时,开发者也可以很容易地以编程地方式将业务逻辑流程和Eagle策略引擎框架集成起来。

Eagle框架内部会将描述业务逻辑的DAG编译成底层流处理架构的原生应用,例如Apache
Storm Topology 等,从事实现平台的独立。

以下是一个Eagle如何处理事件和告警的示例:

StormExecutionEnvironment env = ExecutionEnvironmentFactory.getStorm(config); // storm  env StreamProducer producer = env.newSource(new KafkaSourcedSpoutProvider().getSpout(config)).renameOutputFields(1) // declare kafka source       .flatMap(new AuditLogTransformer()) // transform event       .groupBy(Arrays.asList(0))   // group by 1st field       .flatMap(new UserProfileAggregatorExecutor()); // aggregate one-hour data by user       .alertWithConsumer(“userActivity“,”userProfileExecutor“)  // ML policy evaluation env.execute(); // execute stream processing and alert 

告警框架(Alerting Framework): Eagle
告警框架由流元数据API、策略引擎服务提供API、策略Partitioner API
以及预警去重框架等组成:

1.流元数据API:允许用户声明事件的Schema,包括事件由哪些属性构成、每个属性的类型,以及当用户配置策略时如何在运行时动态解析属性的值等。

2.策略引擎服务提供API:允许开发者很容易地以插件的形式扩展新的策略引擎。WSO2
Siddhi CEP 引擎是Eagle
优先默认支持的策略引擎,同时机器学习算法也可作为另一种策略引擎执行。

3.扩展性:Eagle的策略引擎服务提供API允许你插入新的策略引擎

public interface PolicyEvaluatorServiceProvider {  public String getPolicyType();         // literal string to identify one type of policy  public Class<? extends PolicyEvaluator> getPolicyEvaluator(); // get policy evaluator implementation  public List getBindingModules();  // policy text with json format to object mapping } public interface PolicyEvaluator {  public  void evaluate(ValuesArray input) throws Exception;  // evaluate input event public  void onPolicyUpdate(AlertDefinitionAPIEntity newAlertDef); // invoked when policy is updated  public  void onPolicyDelete(); // invoked when policy is deleted } 

1.策略 Partitioner
API:
允许策略在不同的物理节点上并行执行。也允许你自定义策略Partitioner类。这些功能使得策略和事件完全以分布式的方式执行。

2.可伸缩性:Eagle
通过支持策略的分区接口来实现大量的策略可伸缩并发地运行

public interface PolicyPartitioner extends Serializable {  int partition(int numTotalPartitions, String policyType, String policyId); // method to distribute policies } 

澳门新葡萄京官网注册 6

可伸缩的Eagle策略执行框架

3.机器学习模块:

Eagle
支持根据用户在Hadoop平台上历史使用行为习惯来定义行为模式或用户Profile的能力。

拥有了这个功能,不需要在系统中预先设置固定临界值的情况下,也可以实现智能地检测出异常的行为。Eagle中用户Profile是通过机器学习算法生成,用于在用户当前实时行为模式与其对应的历史模型模式存在一定程度的差异时识别用户行为是否为异常。

目前,Eagle内置提供以下两种算法来检测异常,分别为特征值分解(Eigen-Value
Decomposition)和 密度估计(Density Estimation)。

这些算法从HDFS
审计日志中读取数据,对数据进行分割、审查、交叉分析,周期性地为每个用户依次创建Profile
行为模型。一旦模型生成,Eagle的实时流策略引擎能够近乎实时地识别出异常,分辨当前用户的行为可疑的或者与他们的历史行为模型不相符。

下图简单描述了目前Eagle中用户Profile的离线训练建模和在线实时监测的数据流:

澳门新葡萄京官网注册 7

用户Profile离线训练以及异常监测架构

基于用户
Profile的Eagle在线实时异常监测是根据Eagle的通用策略框架实现的,用户Profile只是被定义为Eagle系统中一个策略而已,用户Profile的策略是通过继承自Eagle统一策略执行接口的机器学习Evaluator来执行,其策略的定义中包括异常检测过程中需要的特征向量等(在线检测与离线训练保持一致)。

此外,Eagle
提供自动训练调度器,可根据文件或者UI配置的时间周期和粒度来调度这个基于Spark的离线训练程序,用于批量创建用户Profile和行为模型,默认该训练系统以每月的频率更新模型,模型粒度为一分钟。

Eagle 内置的机器学习算法基本思想如下:

核密度估计算法 (Density Estimation)

该算法的基本思想是根据检测的训练样本数据针对每个用户计算出对应的概率密度分布函数。

首先,我们对训练数据集的每个特征均值标准化,标准化可以使得所有数据集转化为相同尺度。然后,在我们的随机变量概率分布估计中,我们采用高斯分布式函数来计算概率密度。假设任意特征彼此相互独立,那么最终的高斯概率密度就可以通过分解各个特征的概率密度而计算得到。

在线实时检测阶段,我们可以首先计算出每个用户实时行为的概率。如果用户出现当前行为的可能性低于某个临界值,我们标识为异常警告,而这个临界值完全由离线训练程序通过称为“马修斯相关系数”(Mathews
Correlation Coefficient)的方法计算而得。

澳门新葡萄京官网注册 8

单一维度上用户行为直方图

特征值分解算法(Eigen-Value Decomposition)

该算法中,我们认为生成用户Profile的主要目的是为了从中发现有价值的用户行为模式。为了实现这个目的,我们可以考虑对特征依次进行组合,然后观察他们相互之间是如何影响的。

当数据集非常巨大时,正如通常我们所遇到的场景,由于正常模式的数量非常之多,以至于特征集的异常的模式很容易被忽视。也由于正常的行为模式通常处于非常低维的子空间内,因此我们也许可以通过降低数据集的维度来更好的理解用户的真正的行为模式。

该方法同样可以对于训练数据集进行降噪。根据对大量用户特征数据方差的进行运算,通常在我们的用例场景中选取方差为95%作为基准,我们可以得到方差为95%的主成分的数量为k,因此我们将前k个主成分认为是用户的正常子空间,而剩下的(n-k)个主成分则被视为异常子空间。

当线实时异常检测时,如果用户行为模式位于正常子空间附近,则认为该行为正常,否则,如果用户行为模式位于异常子空间附近,则会立即报警,因为我们相信通常用户行为一般应该位于正常子空间内。至于如何计算用户当前行为接近正常还是异常子空间,我们采用的是欧氏距离法(Euclidian
distance method)。

澳门新葡萄京官网注册 9

展示重要的用户行为模式成分

Eagle 服务

策略管理器:Eagle策略管理器提供交互友好的用户界面和REST。

API
供用户轻松地定义和管理策略,一切只需几次鼠标点击而已。Eagle的用户界面使得策略的管理、敏感元数据的标识和导入、HDFS或Hive
的资源浏览以及预警仪表等功能都非常易于使用。

Eagle 策略引擎默认支持WSO2的Siddhi
CEP引擎和机器学习引擎,以下是几个基于Siddi CEP的策略示例:

◆单一事件执行策略(用户访问Hive中的敏感数据列)

from hiveAccessLogStream[sensitivityType==’PHONE_NUMBER’] select * insert into outputStream; 

◆基于窗口的策略(用户在10分钟内访问目录 /tmp/private 多余 5次)

hdfsAuditLogEventStream[(src == ‘/tmp/private’)]#window.externalTime(timestamp,10 min)  select user, count(timestamp) as aggValue group by user having aggValue >= 5 insert into outputStream; 

查询服务(Query Service):

Eagle 提供类SQL的REST
API用来实现针对海量数据集的综合计算、查询和分析的能力,支持例如过滤、聚合、直方运算、排序、top、算术表达式以及分页等。Eagle优先支持HBase
作为其默认数据存储,但是同时也支持基JDBC的关系型数据库。

特别是当选择以HBase作为存储时,Eagle便原生拥有了HBase存储和查询海量监控数据的能力,Eagle
查询框架会将用户提供的类SQL查询语法最终编译成为HBase 原生的Filter
对象,并支持通过HBase Coprocessor进一步提升响应速度。

query=AlertDefinitionService[@dataSource=”hiveQueryLog”]{@policyDef}&pageSize=100000

后续计划

过去两年中,在eBay 除了被用于数据行为监控以外,Eagle
核心框架还被广泛用于监控节点健康状况、Hadoop应用性能指标、Hadoop核心服务以及整个Hadoop集群的健康状况等诸多领域。

我们还建立一系列的自动化机制,例如节点修复等,帮助我们平台部门极大得节省了我们人工劳力,并有效地提升了整个集群资源地利用率。

以下是我们目前正在开发中地一些特性:

◆扩展机器学习模型对Hive和HBase支持

◆提供高度可扩展的API,以方便集目前业界广泛使用的其他监控预警平台或者工具,如Ganglia和Nagios等,同时支持敏感数据的导入,如与Dataguise

集成等。

◆此外,我们正在积极整理其他Hadoop
集群监控模块,期望在后续发布中开源给社区,例如:

◆HBase 监控

◆Hadoop 作业性能监控

◆Hadoop 节点监控

感谢

感谢以下来自Apache Eagle社区和eBay公司的联合作者们对本文的贡献:

张勇,Apache Eagle Committer和首席架构师,eBay Sr. MTS 资深架构师

孙立斌,Apache Eagle Committer和PMC,eBay 软件工程师

蒋吉林,Apache Eagle Committer和PMC,eBay 软件工程师

赵晴雯,Apache Eagle Committer和PMC,eBay 软件工程师

eBay 分析平台基础架构部(Analytics Data
Infrastructure)是eBay的全球数据及分析基础架构部门,负责eBay在数据库、数据仓库、Hadoop、商务智能以及机器学习等各个数据平台开发、管理等,支持eBay全球各部门运用高端的数据分析解决方案作出及时有效的作业决策,为遍布全球的业务用户提供数据分析解决方案。

参考资料

Apache Eagle 文档:

http://goeagle.io 

Apache Eagle 源码:

http://github.com/ebay/eagle 

Apache Eagle 项目:

http://incubator.apache.org/projects/eagle.html 

如何一起愉快地发展

“高效运维”公众号(如下二维码)值得您的关注,作为高效运维系列微信群(国内领先的运维垂直社区)的唯一官方公众号,每周发表多篇干货满满的
原创好文:来自于系列群的讨论精华、运维讲坛精彩分享及群友原创等。“高效运维”也是互联网专栏《高效运维最佳实践》及运维2.0官方公众号。

重要提示:除非事先获得授权,请在本公众号发布2天后,才能转载本文。尊重知识,请必须全文转载,并包括本行及如下二维码。

澳门新葡萄京官网注册 10

【编辑推荐】