这个高性能标准协议应该能使企业更容易从任何框架部署和查询机器学习模型。

图片 1

全球100款大数据工具汇总

  1. Talend Open Studio

是第一家针对的数据集成工具市场的ETL(数据的提取Extract. 传输Transform.
载入Load)开源软件供应商。Talend的下载量已超过200万人次,其开源软件提供了数据整合功能。其用户包括美国国际集团(AIG).
康卡斯特. 电子港湾. 通用电气. 三星. Ticketmaster和韦里逊等企业组织。

  1. DYSON

探码科技自主研发的DYSON智能分析系统,可以完整的实现大数据的采集. 分析.
处理。DYSON智能分析系统专业针对互联网数据抓取. 处理.
分析,挖掘。可以灵活迅速地抓取网页上散乱分布的信息,并通过强大的处理功能,准确挖掘出所需数据,是目前使用人数最多的网页采集工具.

  1. YARN

一种新的Hadoop资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,解决了旧MapReduce框架的性能瓶颈。它的基本思想是把资源管理和作业调度/监控的功能分割到单独的守护进程。

  1. Mesos

由加州大学伯克利分校的AMPLab首先开发的一款开源群集管理软件,支持Hadoop.
ElasticSearch. Spark. Storm
和Kafka等架构。对数据中心而言它就像一个单一的资源池,从物理或虚拟机器中抽离了CPU,内存,存储以及其它计算资源,
很容易建立和有效运行具备容错性和弹性的分布式系统。

  1. Datale

由探码科技研发的一款基于Hadoop的大数据平台开发套件,RAI大数据应用平台架构。

  1. Ambari

作为Hadoop生态系统的一部分,提供了基于Web的直观界面,可用于配置.
管理和监控Hadoop集群。目前已支持大多数Hadoop组件,包括HDFS. MapReduce.
Hive. Pig. Hbase. Zookeper. Sqoop和Hcatalog等。

  1. ZooKeeper

一个分布式的应用程序协调服务,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的工具,让Hadoop集群里面的节点可以彼此协调。ZooKeeper现在已经成为了
Apache的顶级项目,为分布式系统提供了高效可靠且易于使用的协同服务。

  1. Thrift

在2007年facebook提交Apache基金会将Thrift作为一个开源项目,对于当时的facebook来说创造thrift是为了解决facebook系统中各系统间大数据量的传输通信以及系统之间语言环境不同需要跨平台的特性。

  1. Chukwa

监测大型分布式系统的一个开源数据采集系统,建立在HDFS/MapReduce框架之上并继承了Hadoop的可伸缩性和可靠性,可以收集来自大型分布式系统的数据,用于监控。它还包括灵活而强大的显示工具用于监控.
分析结果。

  1. Lustre

一个大规模的. 安全可靠的.
具备高可用性的集群文件系统,它是由SUN公司开发和维护的。该项目主要的目的就是开发下一代的集群文件系统,目前可以支持超过10000个节点,数以PB的数据存储量。

  1. HDFS

Hadoop Distributed File
System,简称HDFS,是一个分布式文件系统。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。

  1. GlusterFS

一个集群的文件系统,支持PB级的数据量。GlusterFS
通过RDMA和TCP/IP方式将分布到不同服务器上的存储空间汇集成一个大的网络化并行文件系统。

  1. Alluxio

前身是Tachyon,是以内存为中心的分布式文件系统,拥有高性能和容错能力,能够为集群框架(如Spark.
MapReduce)提供可靠的内存级速度的文件共享服务。

  1. Ceph

新一代开源分布式文件系统,主要目标是设计成基于POSIX的没有单点故障的分布式文件系统,提高数据的容错性并实现无缝的复制。

  1. PVFS

一个高性能.
开源的并行文件系统,主要用于并行计算环境中的应用。PVFS特别为超大数量的客户端和服务器端所设计,它的模块化设计结构可轻松的添加新的硬件和算法支持。

  1. QFS

Quantcast File System (QFS) 是一个高性能. 容错好.
分布式的文件系统,用于开发支持
MapReduce处理或者需要顺序读写大文件的应用。

  1. Logstash

一个应用程序日志. 事件的传输. 处理.
管理和搜索的平台。可以用它来统一对应用程序日志进行收集管理,提供了Web接口用于查询和统计。

  1. Scribe

Scribe是Facebook开源的日志收集系统,它能够从各种日志源上收集日志,存储到一个中央存储系统(可以是NFS,分布式文件系统等)上,以便于进行集中统计分析处理。

  1. Flume

Cloudera提供的一个高可用的. 高可靠的. 分布式的海量日志采集.
聚合和传输的系统。Flume支持在日志系统中定制各类数据发送方,用于收集数据。同时,Flume支持对数据进行简单处理,并写入各种数据接受方(可定制)。

  1. RabbitMQ

一个受欢迎的消息代理系统,通常用于应用程序之间或者程序的不同组件之间通过消息来进行集成。RabbitMQ提供可靠的应用消息发送.
易于使用. 支持所有主流操作系统. 支持大量开发者平台。

  1. ActiveMQ

Apache出品,号称“最流行的,最强大”的开源消息集成模式服务器。ActiveMQ特点是速度快,支持多种跨语言的客户端和协议,其企业集成模式和许多先进的功能易于使用,是一个完全支持JMS1.1和J2EE
1.4规范的JMS Provider实现。

  1. Kafka

一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模网站中的所有动作流数据,目前已成为大数据系统在异步和分布式消息之间的最佳选择。

  1. Spark

一个高速. 通用大数据计算处理引擎。拥有Hadoop
MapReduce所具有的优点,但不同的是Job的中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。它可以与Hadoop和Apache
Mesos一起使用,也可以独立使用。

  1. Kinesis

可以构建用于处理或分析流数据的自定义应用程序,来满足特定需求。Amazon
Kinesis Streams
每小时可从数十万种来源中连续捕获和存储数TB数据,如网站点击流. 财务交易.
社交媒体源. IT日志和定位追踪事件。

  1. Hadoop

一个开源框架,适合运行在通用硬件,支持用简单程序模型分布式处理跨集群大数据集,支持从单一服务器到上千服务器的水平scale
up。Apache的Hadoop项目已几乎与大数据划上了等号,它不断壮大起来,已成为一个完整的生态系统,拥有众多开源工具面向高度扩展的分布式计算。高效.
可靠. 可伸缩,能够为你的数据存储项目提供所需的YARN.
HDFS和基础架构,并且运行主要的大数据服务和应用程序。

  1. Spark Streaming

实现微批处理,目标是很方便的建立可扩展. 容错的流应用,支持Java.
Scala和Python,和Spark无缝集成。Spark
Streaming可以读取数据HDFS,Flume,Kafka,Twitter和ZeroMQ,也可以读取自定义数据。

  1. Trident

是对Storm的更高一层的抽象,除了提供一套简单易用的流数据处理API之外,它以batch(一组tuples)为单位进行处理,这样一来,可以使得一些处理更简单和高效。

  1. Flink

于今年跻身Apache顶级开源项目,与HDFS完全兼容。Flink提供了基于Java和Scala的API,是一个高效.
分布式的通用大数据分析引擎。更主要的是,Flink支持增量迭代计算,使得系统可以快速地处理数据密集型.
迭代的任务。

  1. Samza

出自于LinkedIn,构建在Kafka之上的分布式流计算框架,是Apache顶级开源项目。可直接利用Kafka和Hadoop
YARN提供容错. 进程隔离以及安全. 资源管理。

  1. Storm

Storm是Twitter开源的一个类似于Hadoop的实时数据处理框架。编程模型简单,显著地降低了实时处理的难度,也是当下最人气的流计算框架之一。与其他计算框架相比,Storm最大的优点是毫秒级低延时。

  1. Yahoo S4 (Simple Scalable Streaming System)

是一个分布式流计算平台,具备通用. 分布式. 可扩展的. 容错.
可插拔等特点,程序员可以很容易地开发处理连续无边界数据流(continuous
unbounded streams of
data)的应用。它的目标是填补复杂专有系统和面向批处理开源产品之间的空白,并提供高性能计算平台来解决并发处理系统的复杂度。

  1. HaLoop

是一个Hadoop MapReduce框架的修改版本,其目标是为了高效支持
迭代,递归数据 分析任务,如PageRank,HITs,K-means,sssp等。

  1. Presto

是一个开源的分布式SQL查询引擎,适用于交互式分析查询,可对250PB以上的数据进行快速地交互式分析。Presto的设计和编写是为了解决像Facebook这样规模的商业数据仓库的交互式分析和处理速度的问题。Facebook称Presto的性能比诸如Hive和MapReduce要好上10倍有多。

  1. Drill

于2012年8月份由Apache推出,让用户可以使用基于SQL的查询,查询Hadoop.
NoSQL数据库和云存储服务。它能够运行在上千个节点的服务器集群上,且能在几秒内处理PB级或者万亿条的数据记录。它可用于数据挖掘和即席查询,支持一系列广泛的数据库,包括HBase.
MongoDB. MapR-DB. HDFS. MapR-FS. 亚马逊S3. Azure Blob Storage.
谷歌云存储和Swift。

  1. Phoenix

是一个Java中间层,可以让开发者在Apache
HBase上执行SQL查询。Phoenix完全使用Java编写,并且提供了一个客户端可嵌入的JDBC驱动。Phoenix查询引擎会将SQL查询转换为一个或多个HBase
scan,并编排执行以生成标准的JDBC结果集。

  1. Pig

是一种编程语言,它简化了Hadoop常见的工作任务。Pig可加载数据.
转换数据以及存储最终结果。Pig最大的作用就是为MapReduce框架实现了一套shell脚本
,类似我们通常熟悉的SQL语句。

  1. Hive

是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。
其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。

  1. SparkSQL

前身是Shark,SparkSQL抛弃原有Shark的代码并汲取了一些优点,如内存列存储(In-Memory
Columnar Storage).
Hive兼容性等。由于摆脱了对Hive的依赖性,SparkSQL无论在数据兼容.
性能优化. 组件扩展方面都得到了极大的方便。

  1. Stinger

原来叫Tez,是下一代Hive,由Hortonworks主导开发,运行在YARN上的DAG计算框架。某些测试下,Stinger能提升10倍左右的性能,同时会让Hive支持更多的SQL。

  1. Tajo

目的是在HDFS之上构建一个可靠的.
支持关系型数据的分布式数据仓库系统,它的重点是提供低延迟.
可扩展的ad-hoc查询和在线数据聚集,以及为更传统的ETL提供工具。

  1. Impala

Cloudera 声称,基于SQL的Impala数据库是“面向Apache
Hadoop的领先的开源分析数据库”。它可以作为一款独立产品来下载,又是Cloudera的商业大数据产品的一部分。Cloudera
Impala 可以直接为存储在HDFS或HBase中的Hadoop数据提供快速.
交互式的SQL查询。

  1. Elasticsearch

是一个基于Lucene的搜索服务器。它提供了一个分布式.
支持多用户的全文搜索引擎,基于RESTful
web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设计用于云计算中,能够达到实时搜索.
稳定. 可靠. 快速. 安装使用方便。

  1. Solr

基于Apache Lucene,是一种高度可靠.
高度扩展的企业搜索平台。知名用户包括eHarmony. 西尔斯. StubHub. Zappos.
百思买. AT&T. Instagram. Netflix. 彭博社和Travelocity。

  1. Shark

即Hive on
Spark,本质上是通过Hive的HQL解析,把HQL翻译成Spark上的RDD操作,然后通过Hive的metadata获取数据库里的表信息,实际HDFS上的数据和文件,会由Shark获取并放到Spark上运算。Shark的特点就是快,完全兼容Hive,且可以在shell模式下使用rdd2sql()这样的API,把HQL得到的结果集,继续在scala环境下运算,支持自己编写简单的机器学习或简单分析处理函数,对HQL结果进一步分析计算。

  1. Lucene

基于Java的Lucene可以非常迅速地执行全文搜索。据官方网站声称,它在现代硬件上每小时能够检索超过150GB的数据,它拥有强大而高效的搜索算法。

  1. Terracotta

声称其BigMemory技术是“世界上首屈一指的内存中数据管理平台”,支持简单.
可扩展.
实时消息,声称在190个国家拥有210万开发人员,全球1000家企业部署了其软件。

  1. Ignite

是一种高性能. 整合式.
分布式的内存中平台,可用于对大规模数据集执行实时计算和处理,速度比传统的基于磁盘的技术或闪存技术高出好几个数量级。该平台包括数据网格.
计算网格. 服务网格. 流媒体. Hadoop加速. 高级集群. 文件系统. 消息传递.
事件和数据结构等功能。

  1. GemFire

Pivotal宣布它将开放其大数据套件关键组件的源代码,其中包括GemFire内存中NoSQL数据库。它已向Apache软件基金会递交了一项提案,以便在“Geode”的名下管理GemFire数据库的核心引擎。

  1. GridGain

由Apache
Ignite驱动的GridGrain提供内存中数据结构,用于迅速处理大数据,还提供基于同一技术的Hadoop加速器。

  1. MongoDB

是一个基于分布式文件存储的数据库。由C++语言编写。旨在为web应用提供可扩展的高性能数据存储解决方案。介于关系数据库和非关系数据库之间的开源产品,是非关系数据库当中功能最丰富.
最像关系数据库的产品。

  1. Redis

是一个高性能的key-value存储系统,和Memcached类似,它支持存储的value类型相对更多,包括string(字符串).
list(链表).
set(集合)和zset(有序集合)。Redis的出现,很大程度补偿了memcached这类key/value存储的不足,在部分场合可以对关系数据库起到很好的补充作用。

  1. HDFS

Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity
hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。

  1. HBase

是Hadoop的数据库,一个分布式. 可扩展.
大数据的存储。是为有数十亿行和数百万列的超大表设计的,是一种分布式数据库,可以对大数据进行随机性的实时读取/写入访问。提供类似谷歌Bigtable的存储能力,基于Hadoop和Hadoop分布式文件系统(HDFS)而建。

  1. Neo4j

是一个高性能的,NOSQL图形数据库,它将结构化数据存储在网络上而不是表中。自称“世界上第一个和最好的图形数据库”,“速度最快.
扩展性最佳的原生图形数据库”,“最大和最有活力的社区”。用户包括Telenor.
Wazoku. ebay. 必能宝(Pitney Bowes). MigRaven.
思乐(Schleich)和Glowbl等。

  1. Vertica

基于列存储高性能和高可用性设计的数据库方案,由于对大规模并行处理(MPP)技术的支持,提供细粒度.
可伸缩性和可用性的优势。每个节点完全独立运作,完全无共享架构,降低了共享资源的系统竞争。

  1. Cassandra

是一个混合型的非关系的数据库,类似于Google的BigTable,其主要功能比Dynamo
(分布式的Key-Value存储系统)更丰富。这种NoSQL数据库最初由Facebook开发,现已被1500多家企业组织使用,包括苹果.
欧洲原子核研究组织(CERN). 康卡斯特. 电子港湾. GitHub. GoDaddy. Hulu.
Instagram. Intuit. Netfilx. Reddit及其他机构。

  1. CouchDB

号称是“一款完全拥抱互联网的数据库”,它将数据存储在JSON文档中,这种文档可以通过Web浏览器来查询,并且用JavaScript来处理。它易于使用,在分布式上网络上具有高可用性和高扩展性。

  1. Dynamo

是一个经典的分布式Key-Value 存储系统,具备去中心化. 高可用性.
高扩展性的特点。Dynamo在Amazon中得到了成功的应用,能够跨数据中心部署于上万个结点上提供服务,它的设计思想也被后续的许多分布式系统借鉴。

  1. Amazon SimpleDB

是一个用Erlang编写的高可用的NoSQL数据存储,能够减轻数据库管理工作,开发人员只需通过Web服务请求执行数据项的存储和查询,Amazon
SimpleDB 将负责余下的工作。作为一项Web
服务,像Amazon的EC2和S3一样,是Amazon网络服务的一部分。

  1. Hypertable

是一个开源. 高性能.
可伸缩的数据库,它采用与Google的Bigtable相似的模型。它与Hadoop兼容,性能超高,其用户包括电子港湾.
百度. 高朋. Yelp及另外许多互联网公司。

  1. Kettle

这是一个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。作为Pentaho的一个重要组成部分,现在在国内项目应用上逐渐增多。

  1. Kylin

是一个开源的分布式分析引擎,提供了基于Hadoop的超大型数据集(TB/PB级别)的SQL接口以及多维度的OLAP分布式联机分析。最初由eBay开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。

  1. Kibana

是一个使用Apache 开源协议的Elasticsearch
分析和搜索仪表板,可作为Logstash和ElasticSearch日志分析的 Web
接口,对日志进行高效的搜索. 可视化. 分析等各种操作。

  1. Druid

是一个用于大数据实时查询和分析的高容错. 高性能.
分布式的开源系统,旨在快速处理大规模的数据,并能够实现快速查询和分析。

  1. KNIME

全称是“康斯坦茨信息挖掘工具”(Konstanz Information
Miner),是一个开源分析和报表平台。宣称“是任何数据科学家完美的工具箱,超过1000个模块,可运行数百个实例,全面的集成工具,以及先进的算法”。

  1. Zeppelin

是一个提供交互数据分析且基于Web的笔记本。方便你做出可数据驱动的.
可交互且可协作的精美文档,并且支持多种语言,包括 Scala(使用 Apache
Spark). Python(Apache Spark). SparkSQL. Hive. Markdown. Shell等。

  1. Azkaban

一款基于Java编写的任务调度系统任务调度,来自LinkedIn公司,用于管理他们的Hadoop批处理工作流。Azkaban根据工作的依赖性进行排序,提供友好的Web用户界面来维护和跟踪用户的工作流程。

  1. Splunk

是机器数据的引擎。使用 Splunk 可收集. 索引和利用所有应用程序.
服务器和设备(物理.
虚拟和云中)生成的快速移动型计算机数据,从一个位置搜索并分析所有实时和历史数据

  1. Pentaho

是世界上最流行的开源商务智能软件,以工作流为核心的.
强调面向解决方案而非工具组件的. 基于Java平台的商业智能(Business
Intelligence)套件。包括一个web server平台和几个工具软件:报表. 分析.
图表. 数据集成. 数据挖掘等,可以说包括了商务智能的方方面面。

  1. Jaspersoft

提供了灵活. 可嵌入的商业智能工具,用户包括众多企业组织:高朋. 冠群科技.
美国农业部. 爱立信. 时代华纳有线电视. 奥林匹克钢铁.
内斯拉斯加大学和通用动力公司。

  1. SpagoBI

Spago被市场分析师们称为“开源领袖”,它提供商业智能.
中间件和质量保证软件,另外还提供相应的Java EE应用程序开发框架。

  1. Lumify

归Altamira科技公司(以国家安全技术而闻名)所有,这是一种开源大数据整合.
分析和可视化平台。

  1. Lingual

是Cascading的高级扩展,为Hadoop提供了一个ANSI
SQL接口极大地简化了应用程序的开发和集成。Lingual实现了连接现有的商业智能(BI)工具,优化了计算成本,加快了基于Hadoop的应用开发速度。

  1. Beam

基于Java提供了统一的数据进程管道开发,并且能够很好地支持Spark和Flink。提供很多在线框架,开发者无需学太多框架。

  1. Cascading

是一个基于Hadoop建立的API,用来创建复杂和容错数据处理工作流。它抽象了集群拓扑结构和配置,使得不用考虑背后的MapReduce,就能快速开发复杂的分布式应用。

  1. HPCC

作为Hadoop之外的一种选择,是一个利用集群服务器进行大数据分析的系统,HPCC在LexisNexis内部使用多年,是一个成熟可靠的系统,包含一系列的工具.
一个称为ECL的高级编程语言. 以及相关的数据仓库,扩展性超强

  1. Hivemall

结合了面向Hive的多种机器学习算法,它包括了很多扩展性很好的算法,可用于数据分类.
递归. 推荐. k最近邻. 异常检测和特征哈希等方面的分析应用。

  1. RapidMiner

具有丰富数据挖掘分析和算法功能,常用于解决各种的商业关键问题,解决方案覆盖了各个领域,包括汽车.
银行. 保险. 生命科学. 制造业. 石油和天然气. 零售业及快消行业. 通讯业.
以及公用事业等各个行业。

  1. Mahout

目的是“为快速创建可扩展.
高性能的机器学习应用程序而打造一个环境”,主要特点是为可伸缩的算法提供可扩展环境.
面向Scala/Spark/H2O/Flink的新颖算法.
Samsara(类似R的矢量数学环境),它还包括了用于在MapReduce上进行数据挖掘的众多算法。

  1. Tableau

Tableau 是一款企业级的大数据可视化工具。Tableau
可以让你轻松创建图形,表格和地图。
它不仅提供了PC桌面版,还提供了服务器解决方案,可以让您在线生成可视化报告。服务器解决方案可以提供了云托管服务。Tableau的客户包括巴克莱银行,Pandora和Citrix等企业

  1. Infogram

Infogram的最大优势在于,让您的可视化信息图表与实时大数据相链接。只须三个简单步骤,您可以选择在众多图表,地图,甚至是视频可视化模板中进行选择。
Infogram支持团队账号。

  1. ChartBlocks

ChartBlocks是一个易于使用在线工具,它无需编码,便能从电子表格,数据库中构建可视化图表。整个过程可以在图表向导的指导下完成。您的图表将在HTML5的框架下使用强大的Java库D3.js创建图表。你的图表是响应式的,并且可以和任何的屏幕尺寸及设备兼容。
您还可以将图表嵌入任何网页中,分享在Twitter和Facebook上。

  1. Datawrapper

Datawrapper是一款专注于新闻和出版的可视化工具。华盛顿邮报,卫报,华尔街日报和Twitter等媒体都使用了这一工具。Datawrapper非常容易使用,不需要任何编程基础。你只需要上传你的数据,便能轻松地创建和发布图表,甚至是地图。Datawrapper提供了众多的自定义布局及地图模板。

  1. Plotly

Plotly帮助你在短短几分钟内,从简单的电子表格中开始创建漂亮的图表。Plotly已经为谷歌.
美国空军和纽约大学等机构所使用。
Plotly是一个非常人性化的网络工具,让你在几分钟内启动。如果你的团队希望为JavaScript和Python等编程语言提供一个API接口的话,Plotly是一款非常人性化的工具。

  1. RAW

RAW弥补了很多工具在电子表格和矢量图形(SVG)之间的缺失环节。你的大数据可以来自MicrosoftExcel中,谷歌文档或是一个简单的逗号分隔的列表。它最厉害的功能是可以很容易地导出可视化结果,因为它和Adobe
Illustrator,Sketch 和Inkscape是相容的。

  1. Visual.ly

isual.ly是一个可视化的内容服务。它提供专门的大数据可视化的服务,用户包括了VISA,耐克,Twitter,福特和国家地理等。如果你想完全外包可视化文件给第三方。你可以使用非常简化的在线流程:你只需描述你的项目,服务团队将在项目的整个持续时间内和你在一起。
Visual.ly给您发送所有项目关键点的邮件通知,也将让你不断给出反馈。

  1. D3.js

毋容置疑D3.js是最好的数据可视化工具库。D3.js运行在JavaScript上,并使用HTML,CSS和SVG。
D3.js是开源工具,使用数据驱动的方式创建漂亮的网页。
D3.js可实现实时交互。这个库非常强大和前沿,所以它带有没有预置图表也不支持IE9。

  1. Ember Charts

Ember Charts –
顾名思义是一种基于Ember.js框架和使用d3.js的可视化工具。Ember
Charts以绘制时间序列图,柱状图,饼图和散点图为主。它非常优易于扩展。同为Ember.js开发团队,Ember
Charts聚焦于图形互动性。它有极强的错误处理能力,当你遇到坏数据时,系统也不会崩溃

  1. NVD3

NVD3运行在d3.js之上,
它可建立可重用的图表组件。该项目的目标是保持所有的图表整洁和可定制性。
NVD3是d3.js之上的简单的接口,保持了d3.js的所有强大功能。 NVD3由Novus
Partners前端工程师开发和使其保持了图表技术洞察力。

  1. Google Charts

Google Charts
以HTML5和SVG为基础,充分考虑了跨浏览器的兼容性,并通过VML支持旧版本的IE浏览器。所有您将创建的图表是交互式的,有的还可缩放。Google
Charts是非常人性化和他们的网站拥有一个非常好的,全面的模板库,你可以从中找到所需模板。

  1. FusionCharts

FusionCharts是最全面的JavaScript图表库,包括90个图表和900种地图。如果你不是特别喜欢的JavaScript。FusionCharts可以轻松集成像jQuery库,Angularjs和React框架以及ASP.NET和PHP语言。
FusionCharts支持JSON和XML数据,并提供许多格式图表:PNG,JPEG,SVG和PDF。

  1. Highcharts

Highcharts是一个JavaScript
API与jQuery的集成,全球最大的100家公司中有61家正在使用它。图表使用SVG格式,并使用VML支持旧版浏览器。它提供了两个专门的图表类型:Highstock和Highmaps,并且还配备了一系列的插件。你可以免费使用它,而如果你想建立付费的应用,只须支付少量牌照费用。此外,你还可以使用Highcharts云服务。

  1. Chart.js

对于一个小项目的图表,chart.js是一个很好的选择。开源,只有11KB大小,这使得它快速且易于使用,它支持多种图表类型:
饼图,线性图和雷达图等。

  1. Leaflet

你是否专注于专业的大数据解决方案?无需饼图和条形图?Leafleft 基于Open
Street Map数据,使用HTML5 /
CSS3绘制互动式可视化图。您可以使用他们的扩展插件库添加热点图(heatmaps)和动画标记。
Leaflet 是开源和只有33 KB大小。

  1. Chartist.js

Chartist.js的开发社区一直致力于打败所有其他JavaScript图表库。它使用了Sass的个性化风格,它的SVG输出是响应式的。

  1. n3-charts

N3-charts是一种基于AngularJS框架的工具。它建立在D3.js之上,帮助您创建简单的互动图表。
N3-charts是一种小型化的图表工具,不适用于大型项目。

  1. Sigma JS

Sigma JS
是交互式可视化工具库。由于使用了WebGL技术,你可以使用鼠标和触摸的方式来更新和变换图表。Sigma
JS同时支持JSON和GEXF两种数据格式。这为它提供了大量的可用互动式插件。Sigma
JS 专注于网页格式的网络图可视化。因此它在大数据网络可视化中非常有用。

  1. Polymaps

Polymaps是一款地图可视化一个JavaScript工具库。
Polymaps使用SVG实现从国家到街道一级地理数据的可视化。您可以使用CSS格式来修改你的样式。Polymaps使用GeoJSON来解释地理数据。它是创建heatmap热点图的最好的工具之一。您创建的所有地图都可以变成动态图。

  1. Processing.js

Processing.js是一个基于可视化编程语言的JavaScript库。作为一种面向Web的JavaScript库,Processing.js是您能够有效进行网页格式图表处理。这使得它成为了一种非常好交换式可视化工具。
Processing.js需要一个兼容HTML5的浏览器来实现这一功能。

  1. Pentaho BI

Pentaho BI 平台不同于传统的BI
产品,它是一个以流程为中心的,面向解决方案(Solution)的框架。其目的在于将一系列企业级BI产品.
开源软件.
API等等组件集成起来,方便商务智能应用的开发。它的出现,使得一系列的面向商务智能的独立产品如Jfree.
Quartz等等,能够集成在一起,构成一项项复杂的. 完整的商务智能解决方案。

图片 2

图片 3

机器学习有望改变行业现状。但是,它在企业中的应用速度比大家预期的要慢,因为这些组织很难自己部署和管理机器学习技术。部分挑战是机器学习模型通常使用定制技术进行训练和部署,从而难以跨服务器或不同部门进行模型的部署。

人工智能技术提供商主要有四种类型:领先的云服务提供商、企业应用程序套件提供商、数据科学和机器学习平台提供商以及系统集成商。在这里,我们将检查每种渠道的优缺点,以指导使用AI原型化解决方案的应用程序领导者。

为此,甲骨文希望通过开源且高性能的标准网络协议来传输张量数据(tensor
data) —— 这样的一种技术手段来解决上述挑战。这项新标准,

对于企业来说:

GraphPipe 旨在解决三个特殊挑战:

➤ 超过一半的Gartner终端用户采用基于云开发服务的人工智能技术。

  • 首先,模型服务 API
    没有标准,这意味着业务应用程序通常需要定制客户端与已部署的模型进行通信。

  • 接下来,构建模型服务器非常困难,并且几乎没有开箱即用的部署解决方案。

  • 最后,企业现在通常使用的解决方案(如 python-JSON
    API)无法提供关键业务应用程序所需的性能。


人工智能的功能和特性正越来越多地通过企业应用套件集成到客户关系、供应链、资源规划和知识管理软件中。

GraphPipe 包括


数据科学和机器学习平台供应商提供的一系列人工智能产品推动人工智能成为分析和BI市场增长第二快的细分市场。

  • 一组 flatbuffer 定义

  • 根据 flatbuffer 定义一致的模型的指南

  • 来自各种机器学习框架的模型的示例

  • 用于通过 GraphPipe 查询模型的客户端库


现在,更多的IT领导者转向咨询合作伙伴,寻求外部支持,以增强其企业在整个数据和分析价值链中的人工智能能力。

GraphPipe 功能特性

对于企业的建议:

  • 基于 flatbuffers 的微型机器学习传输规范

  • 适用于 Tensorflow,Caffe2 和 ONNX
    的简单高效参考模型服务器(reference model servers)

  • Go,Python 和 Java 的高效客户端实现


利用您首选的云供应商的专业知识和您自己的内部技能,研究快速构建和部署AI产品。检查数据源、计算和基础设施框架的接近程度。

使用这些工具,企业应该可跨多个服务器进行模型的部署,或者使用通用协议从不同的框架创建模型集合。GraphPipe
可以帮助为依赖远程运行模型的物联网应用程序部署机器学习。


采用和推广企业业务应用程序中员工易于理解的基于AI的功能,包括启用AI的应用程序功能和会话代理。

(文/开源中国)    


选择与企业的人工智能人才和技能基础相匹配的数据科学平台,以改进定制和精细控制。


为平台、预培训的人工智能模型和服务的“一站式商店”记录当前系统集成商的技能集、领域专业知识和人工智能解决方案跟踪记录。

预见企业AI未来:


到2021年,85%已经部署并投入运行的人工智能应用程序将利用领先的公共云平台。

➤ 到2021年,所有主要的企业应用软件平台都将具备人工智能功能。

➤ 到2021年,与人工智能相关的项目服务将进入主流,30%将被大公司采用。


到2021年,包括数据管理在内的50%以上的数据科学任务将实现自动化,从而提高生产率,使公民数据科学家得到更广泛的使用。

➤ 到2021年,人工智能技术将渗透到每一个新的软件产品和服务中。

当开始使用数据科学和机器学习时,许多企业的软件管理者将面临大量可用的工具和技术,常常很难理解它们之间的差异。虽然在做出购买决定之前,应用程序领导者应该运行试点项目和POC,以便在供应商选项上获得更好的位置。但是大多数分析团队几乎没有人工智能经验,并且他们的概念验证预算通常是有限的。

本报告研究了四个主要的AI技术提供者,讨论了它们的优劣势,以及它们的潜在演变和未来的潜在发展。

企业首选的云提供商来源

过去几年中,基于人工智能的托管服务,甚至来自亚马逊、谷歌、IBM和微软等领先云服务提供商的解决方案都发生了巨大变化,主要支持三个基于云的应用程序和服务:机器学习、语言处理和计算机视觉。

基于云的人工智能服务是专门构建的、多承租人的、按次付费的、有弹性的,包装在轻量级API或易用UI中。这些特性使应用程序领导者更容易使用这些服务,并将它们与他们正在使用的其他云服务(如物联网和设备管理)集成。此外,那些急于与企业建立联系(并鼓励采用人工智能软件、服务和其他基础设施)的云供应商往往会提供定价诱人的“测试方案”,包括一些基本支持、工具包和模板,甚至可能有助于收集和管理“馈送”AI应用程序所需的数据。

在许多情况下,应用程序领导者可以使用这些云服务来执行高级分析,或者可以使用AI进行最少的数据科学或算法开发,这些服务通过消除构建ML系统的复杂性和提供专门针对特定用例的预培训系统来帮助简化AI工作。在大多数人工智能服务中,预训练算法是一种基于云服务提供商收集的数据进行广泛训练的共享资源。但要在人工智能驱动的业务流程的实验或POC之外发挥作用,企业仍然必须提供一些收集的数据、对数据的托管或数据集结构。

云服务提供商提供的大多数AI品牌服务都属于以下三类之一:机器学习、语言处理、计算机视觉。在这些分类中,云服务提供商提供了一系列功能。根据提供程序的不同,这些功能被划分为不同的服务、不同的API或单个API中的选项。

图片 4

表1. Gartner AI查询中最常提到的云服务提供商(资料来源:Gartner)

优点:一是由于以前开发和训练算法的能力积淀,部署速度更快;二是实现硬件优化框架,用于跨构建、训练和推断阶段更快的计算;三是实现端到端产品开发套件,和大型ML用户社区分享经验和教训;四是帮助您利用供应商云中已有的数据或应用程序。

缺点:一是企业可能必须在某些方面做出妥协,因为云提供商的特定人工智能能力可能不如独立解决方案强大;二是缺乏模型可移植性,例如,一旦使用AWS
SageMaker构建了一个基于AI的系统,就很难与另一个云提供商兼容,买家将被锁定;三是对多云生态系统的支持不足,尽管领先的云服务提供商拥有良好的API端点,但利用不同的组件和构建不同的服务并不容易(例如,很难同时使用IBMWatson和Google的翻译服务构建聊天机器人),在这种环境下,培育出最好的品种仍然是一个挑战;四是如果企业数据驻留在一个供应商的云上,它通常不能使用来自另一个供应商的算法。未来五年,这些科技巨头将开发一些功能,帮助中小型企业通过开源的ML框架进行创新,瞄准新兴经济体扩展其产品,使人工智能普适化,并参与人工智能伦理、治理、安全等领域的研究。

知名应用软件中的人工智能功能

从办公效率套件到记录系统(如ERP、SCM、HCM和CRM业务应用程序)的企业应用程序越来越多地集成了人工智能支持的增强功能。这些功能中的许多将无法被员工识别为人工智能(因为它们是“隐形嵌入的”)。相反,这些功能将被视为应用程序中的新功能。

这些支持人工智能的功能包括:

● 推荐的电子邮件回复

● 演示文稿中图形元素的自动布局

● 语法和拼写建议

● 来自ERP或CRM应用程序的建议分析洞察力

另一个支持人工智能的功能是用于关键业务应用程序的会话接口。无需学习如何通过应用程序接口启动查询或从知识库中提取信息的能力对员工非常有吸引力。聊天机器人比以传统方式使用应用程序容易使用,效率也越来越高。

这些会话代理的示例包括:

● SAPCopilot and Recast.AI

● Salesforce’sEinstein Voice

● Infor’sColeman AI

● Oracle’sDataFox

未来五年,企业应用软件供应商将提供更好的用户界面,并能够通过人工智能支持业务工作流,数据可以轻松地从一个应用程序移动到另一个应用程序。它们将帮助企业自动化日常任务,并在所有企业应用程序中改进个性化和数据驱动的支持功能。

数据科学和机器学习平台

提供人工智能技术

数据科学和机器学习平台越来越多地面向广泛的用户,提供用于创建数据科学解决方案的构建块和环境的内聚力软件,并支持将这些解决方案集成到业务流程、基础设施和产品中。

在平台内,专家、数据科学家、数据工程师、应用程序开发人员要有一定的分布比例,并具有构建、部署和维护分析模型的专业能力。当前的数据科学和机器学习平台提供了许多新的功能,其中包括:


开源,使供应商能够利用通常作为开源选项首先提供的创新,并以比内部开发更快的速度做出响应。


数据访问和管道连接,以应对不断变化的数据需求,包括访问所有类型的数据、适应不断变化的数据量以及在内部和云中托管的地址数据的需求。


管理和操作分析空间中的众多模型,将分析洞察力转化为行动,并使模型能够持续重新评估、调整和管理,包括与分析资产模型协作和共享。

● 各种流行的ML和深度学习框架。


超越传统专家数据科学家的多重角色,通常是通过增强的分析。越来越需要访问数据科学和ML平台的新角色包括公民数据科学家和应用程序开发人员。

并非每个数据科学和机器学习平台都包含上面列出的所有功能。有些平台侧重于特定的受众或技能集,例如创建可视化工作流或提供一个用于利用开源产品的框架。这些平台具有高度差异化的关键功能,包括数据准备、自动化和增强、交付、性能和可伸缩性。

优点:

● 实现最大程度的自定义和控制粒度。


为利用内部资源或通过服务提供商开发预测性、规范性和确定性解决方案奠定坚实的基础。

● 促进传统和公民数据科学家、工程师、开发人员和更多新兴角色之间的协作。

● 为分析领导者提供数据科学团队操作的可见性。

● 支持公民数据科学家能够参与积极的数据科学项目,同时学习和贡献的环境。


提供最高质量的数据科学解决方案,为人工智能计划提供真正的差异化,而不是商品化的预先培训的模型。

缺点:

● 需要更多的实践方法(即数据科学家和开发人员)来创建、部署和维护模型。

● 在一些领域需要补充人工智能高端人才。

● 核心功能超出了许多分析专业人员的技能范围。

● 从购买到操作,成本高、耗时长。

● 平台许可证费用很高。

● 平台提供商有可能倒闭或被收购的风险,可能需要数据管理。

未来五年,这些数据科学平台供应商将继续完善产品特性,通过统一的数据准备、ML以及模型部署和操作平台,使数据科学团队更高效。

智库机构提供人工智能解决方案设计

德勤、埃森哲、IBM全球业务服务、普华永道、毕马威、安永和凯捷等主要SI除了提供熟练的顾问外,还为客户提供人工智能工具和技术。许多服务提供商将其投资集中在目标行业用例上,或者从过去的业务中获取知识资产,以创建预培训解决方案。但是,与任何客户可能正在寻找的无限数量的可能的人工智能用例相比,SI开发的解决方案数量很少。因此,在特定用例中使用资产和预培训解决方案检查SI的应用领导者可能很难找到完美的匹配。但是,许多SIS都有可重复的方法来帮助客户在他们的平台上构思、确定优先级和构建人工智能解决方案,即使他们没有经过预培训的解决方案。SI创建的人工智能平台功能包括:

● 自然语言分析

● 图像识别

● ML和深度学习

● 工作流自动化,包括机器人流程自动化模式识别和预测分析

● 访问外部数据源

优势:


SI为平台、预培训的人工智能模型和服务提供一站式服务。通常作为一个合同提供,简化了交易并提高了执行速度。


使用一个既提供平台又提供服务的单一SI,将问责制直接置于该SIS,这为成功的结果增加了保障。


SIS通常拥有方法、工具和以前参与的用例库,以帮助理清正确的人工智能用例并确定其优先级。这有助于确保原型开发针对的是人工智能可以在传统技术之外增加价值的业务痛点。

缺点:对任何平台来说,都存在锁定风险,但由于软件不是SIS的主要业务,因此锁定到SI平台的风险更大。很少有SI与相关渠道合作伙伴和批量销售商成功地开展了软件业务。如果人工智能平台没有取得财务上的成功,那么客户就会面临很高的“孤儿”产品风险。信任SI来维护、运行和持续改进平台是有问题的,因为SI在其主要服务业务中有着竞争性的需求。在SSI同时提供平台和服务的情况下,客户应通过协商扩大数据集的所有权、改进结果和模型,最大限度地降低SI使用其关键知识产权的风险。

未来五年,SI将指定更多纵向市场举措,集中他们的专业知识。这也有助于他们了解他们所处的每个垂直领域所面临的独特挑战,以及如何使用ML解决这些挑战。

建议:


评估SI的技能集、领域专业知识及其人工智能解决方案记录,同时审查其人工智能知识产权、平台和资产的相关性。


同时评估服务和平台选项,以确定合适的匹配。确保服务提供商提供平台和经过培训的模型的正确组合,以及具有相关经验的跨学科顾问,包括技术、领域和行业/流程知识。


确定哪些数据和IP必须受到保护,包括IP所有权和重用限制,并确保在合同中明确指出这些内容,以避免SI为其他客户端重用它们。

研究所简介

国际技术经济研究所成立于1985年11月,是隶属于国务院发展研究中心的非营利性研究机构,主要职能是研究我国经济、科技社会发展中的重大政策性、战略性、前瞻性问题,跟踪和分析世界科技、经济发展态势,为中央和有关部委提供决策咨询服务。“全球技术地图”为国际技术经济研究所官方微信账号,致力于向公众传递前沿技术资讯和科技创新洞见。