日前,美国国防部宣布同微软公司达成合作,未来将有不少于400万台设备升级至Windows
10操作系统,目标是让不低于90%的系统在微软最新操作系统和Azure
云服务上运行。在不少企业和政府部门拥抱开源世界的同时,也有不少已经部署开源的企业重新回到Windows的怀抱,那么开源世界怎么成为了一座围城?

在当前的互联网领域,大数据的应用已经十分广泛,尤其以企业为主,企业成为大数据应用的主体。大数据真能改变企业的运作方式吗?答案毋庸置疑是肯定的。随着企业开始利用大数据,我们每天都会看到大数据新的奇妙的应用,帮助人们真正从中获益。大数据的应用已广泛深入我们生活的方方面面,涵盖医疗、交通、金融、教育、体育、零售等各行各业。

Win7之家:Win8触控时代来了,该跟Windows XP说再见了

澳门新葡萄京官网注册 1

文中总结了一些备受青睐的大数据分析工具,他们都给大数据带来了大的机会。

不少电子商务网站的广告在对用户说,“换个多点触控屏幕,整个PC就升级了!”没错,多点触控已经成为潮流,无论是平板电脑还是智能手机,乃至PC、笔记本电脑,一代又一代的新技术让它们越来越接近电影“阿凡达”中未来世界里的设备。但同样是在这样一个年代,仍有不少用户还在使用Windows
XP这个于11年前诞生的操作系统,虽然微软一直在尽心尽职地对它修修补补,但毕竟已经落后于现有产品技术整整两代。

近日SAS机构对英国和爱尔兰地区的300名高层进行了问卷调查,他们普遍认为开源技术固然对于企业来说是不错的解决方案,但远远还没有达到完美的程序,事实上,目前所使用的开源技术通常伴随着各种“隐性成本”和问题。

Hadoop

2014 年4月8日起,微软将正式终止对Windows XP
SP3提供支持服务,这意味着微软将不再提供热修复、产品更新和最重要的安全补丁。在感谢元老级产品Windows
XP曾给用户带来划时代体验的同时,也应清醒地认识到它们已经不能适应当前的互联网环境和移动办公趋势,在日渐复杂的IT环境中,用户需要新一代操作系统平台,去谱写新的辉煌。

这些成本和问题涉及员工的专项培训,这就需要聘请专业的讲师传授相关的知识,或者选择更换具备这些特殊技能的新员工。理想状态下(至少SAS这么认为),保持开源和专有技术之间的比例在四成和六成之间,比较有利于专有技术的发展。

Hadoop是最受欢迎的在Internet上对搜索关键字进行内容分类的工具,但它也可以解决许多要求极大伸缩性的问题。Hadoop最初只与网页索引有关,迅速发展成为分析大数据的领先平台。Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。

安全、管理、成本敦促Windows XP理性升级

除了这些隐性成本和问题之外,大部分拥抱开源的企业需要在安全方面投入更多的精力,并且需要寻找到能够契合整个机构的解决方案。SAS技术总监表示:“众多企业拥抱开源软件,看中的是能够以极低的成本来创建新的功能。但是,很多机构并不能明确的掌握部署开源需要耗费多少资金,导致出现各种隐患,例如只有多数员工离职之后才会想到更换技术人员。”

澳门新葡萄京官网注册 2

IDC今年5月份发布了名为“降低风险:继续使用Windows
XP不是个明智的选择”的白皮书,让用户了解到,继续使用Windows
XP系统的机构将不仅要面对安全风险、管理效率、技术支持等问题,同时还会浪费IT投入,不如用这笔钱来进行更新升级。

来源:cnBeta

它主要有以下几个优点:

报告指出继续使用Windows
XP将导致成本飙升,一方面是隐性的IT维护成本,另一方面则是容易被忽视的一点——最终用户的时间成本。

高可靠性:Hadoop按位存储和处理数据的能力值得人们信赖。

该研究发现,与Windows7操作系统相比,为Windows
XP提供技术支持给企业造成了极大的开销。每台Windows XP
PC每年的维护成本为870美元,而每台Windows 7
PC每年的维护成本仅为168美元;每台安装Windows
XP的PC每年所耗费的IT运维时间总计11.3小时,已经升级至Windows
7的PC仅需2.3小时。如果从人员投入角度看,企业每支持230台安装Windows
XP系统的电脑,就需要增加一名全职员工。

高扩展性:Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。

Windows
XP用户时间成本的飙升则体现在,无论是因为病毒感染、随时间累积的不稳定性,或是由于用户自己乱改系统配置造成的意外问题,最终结果都会导致用户无法工作,需要等待IT人员响应和解决问题,而且问题解决后还要进行系统重启,这些都是构成最终用户时间成本的重要组成部份。

高效性:Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。

此外,一旦微软停止对Windows
XP提供支持,更多的安全问题也会随之而来。病毒泛滥、漏洞被攻击,甚至有黑客专门针对Windows
XP用户下手,从而导致银行密码被盗、政府机密文件被窃、商业机密泄露等。同时,因Windows
XP无法享有Windows
7等新一代操作系统所具备的“云”特性,在系统对企业内部管理流程支持方面,以及IT人员对终端设备进行管理方面,都无法做到流程的优化和效率的提升。

高容错性:Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。

十年前的用户体验 已经不合时宜

低成本:与一体机、商用数据仓库以及QlikView、Yonghong
Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。

曾有一家大规模国有企业的IT部门找到微软,询问为何他们的Windows
XP运行速度异常缓慢,在经过检查后,微软技术人员发现,其内部不仅没有具体的IT管理准则,甚至没有域的划分和任何安全管理措施,每个员工都在自己的PC上安装了众多客户端软件和网络插件,从而导致Windows
XP的负担过重,如老牛拉车一般,速度无法提升。


当代表十多年前用户体验的Windows
XP遇到如今已发生翻天覆地变化的IT环境,我们感受到的是不合时宜。

Storm

澳门新葡萄京官网注册 ,十一年来,硬件设备、宽带速度、网络通信、图形图像技术、人机交互方式等都已今非昔比,PC也新增了很多新功能,如酷炫的触摸屏、集成的Wi-Fi与蓝牙、更快的USB接口等;同样,这十年来人们的工作方式也发生根本性变化,Forrester调查显示,1.77亿美国成年网络用户中的一半多拥有两个或更多的联网设备,而有1/3拥有至少4个不同的联网设备,在任何时候、任何地点,借助当时手头最为方便的终端设备去快速完成任何工作已成为常态。

Storm是一个分布计算框架。Storm可以很容易地可靠地处理无限的数据流,从而实时处理Hadoop的批量数据。Storm很简单,支持多种编程语言,并且使用起来非常有趣!

无论是逐渐普及的触摸屏应用还是全新的移动办公体验,Windows
XP都无法很好地支持,将所有PC更新至统一的、最新的操作系统是大势所趋,既有Windows
XP用户需要能够跟上时代发展步伐的现代化PC。如果企业的IT部门继续坚持使用Windows
XP的平台,将引起最终用户的不满,其影响力也会被质疑。积极鼓励用户使用新技术,对IT部门而言也是其自身发展的好机会。

澳门新葡萄京官网注册 3

拥抱新未来

Storm有许多应用实例:实时分析,在线机器学习,连续计算,分布式RPC,ETL等等。Storm的处理速度惊人:一个基准计算每个节点每秒处理超过一百万个元组。它具有可扩展性,容错性,易于设置和操作。

当看到已经部署Windows
7的企业用户正在让十一年前不可能发生的事情落地成真,不禁让人感慨,现有Windows
XP用户真的不该错过这些:通过飞机内的Wi-Fi安全地访问公司网络上的文件夹;在家办公或是在机场等候、休假期间处理工作;全公司几万台PC只需要2个全职员工就可以进行有效的管理和维护……


全面拥抱诸如Windows
7和即将发布的Windows8等新一代操作系统平台,不仅有助于帮助企业为员工带来灵活的工作方式,释放员工的潜能,也能帮助企业节约IT成本,提高工作效率,更好的适应日趋激烈的市场竞争,走上创新发展的道路。

Spark

跟Windows XP说再见

Spark是一个开源集群运算框架,Spark在内存内运行程序的运算速度能做到比Hadoop
MapReduce的运算速度快上100倍,即便是运行程序于硬盘时,Spark也能快上10倍速度。Spark允许用户将数据加载至集群内存,并多次对其进行查询,非常适合用于机器学习算法。

十一年,足以让一个蹒跚学步的孩子成长为翩翩少年;十一年更足以让瞬息万变的IT产业历经沧海桑田。发布十一年来,Windows
XP为PC带来了一次又一次跃进,使企业的工作和生活变得简单、快速而且有趣,帮助用户轻松找到他们需要的。然而,什么都挡不住科技创新的脚步。不要留恋于过去,让我们以开放的心态迎接操作系统新时代!

Spark项目包含下列几项:

RDDs、Spark SQL、Spark Streaming、MLlib。

这些项目的特色:

用Java,Scala,Python,R快速编写应用程序

可扩展至超过8000个结点。

能够在内存内缓存数据集以进行交互式数据分析。

Scala或Python中的交互式命令行接口可降低横向扩展数据探索的反应时间。

Spark
Streaming对即时数据流的处理具有可扩充性、高吞吐量、可容错性等特点。

SQL支持结构化和和关系式查询处理(SQL)。

MLlib机器学习算法和Graphx图形处理算法的高级库。


HPCC

HPCC,High Performance Computing and
Communications(高性能计算与通信)的缩写。同时也称也称为DAS(数据分析超级计算机)。是由LexisNexis风险解决方案开发的开源,数据密集型计算系统平台。HPCC平台整合了在商品计算集群上实现的软件架构,为使用大数据的应用程序提供高性能的数据并行处理。HPCC平台包括支持并行批处理数据处理(Thor)和使用索引数据文件(Roxie)的高性能在线查询应用程序的系统配置。HPCC平台还包含一个以数据为中心的并行数据处理声明性编程语言ECL。

澳门新葡萄京官网注册 4

项目组成:

1、高性能计算机系统(HPCS),内容包括今后几代计算机系统的研究、系统设计工具、先进的典型系统及原有系统的评价等;

2、先进软件技术与算法(ASTA),内容有巨大挑战问题的软件支撑、新算法设计、软件分支与工具、计算计算及高性能计算研究中心等;

3、国家科研与教育网格(NREN),内容有中接站及10亿位级传输的研究与开发;

4、基本研究与人类资源(BRHR),内容有基础研究、培训、教育及课程教材,被设计通过奖励调查者-开始的,长期的调查在可升级的高性能计算中来增加创新意识流,通过提高教育和高性能的计算训练和通信来加大熟练的和训练有素的人员的联营,和来提供必需的基础架构来支持这些调查和研究活动;

5、信息基础结构技术和应用(IITA
),目的在于保证美国在先进信息技术开发方面的领先地位。


Mathout

Mahout 是 Apache Software Foundation(ASF)
旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout包含许多实现,包括聚类、分类、推荐过滤、频繁子项挖掘。此外,通过使用
Apache Hadoop 库,Mahout 可以有效地扩展到云中。

澳门新葡萄京官网注册 5

Mahout 的主要特性包括:

Taste CF,Taste 是 Sean Owen 在 SourceForge 上发起的一个针对 CF
的开源项目,并在 2008 年被赠予 Mahout。

一些支持Map-Reduce 的集群实现包括 k-Means、模糊
k-Means、Canopy、Dirichlet 和 Mean-Shift。

Distributed Naive Bayes 和 Complementary Naive Bayes 分类实现。

针对进化编程的分布式适用性功能。

Matrix 和矢量库。


RapidMiner

RapidMiner是世界领先的数据挖掘解决方案,在一个非常大的程度上有着先进技术。它数据挖掘任务涉及范围广泛,包括各种数据艺术,能简化数据挖掘过程的设计和评价。

功能和特点:

免费提供数据挖掘技术和库

100%用Java代码(可运行在操作系统)

数据挖掘过程简单,强大和直观

内部XML保证了标准化的格式来表示交换数据挖掘过程

可以用简单脚本语言自动进行大规模进程

多层次的数据视图,确保有效和透明的数据

图形用户界面的互动原型

命令行(批处理模式)自动大规模应用

Java API(应用编程接口)

简单的插件和推广机制

强大的可视化引擎,许多尖端的高维数据的可视化建模

400多个数据挖掘运营商支持


Apache Drill

为了帮助企业用户寻找更为有效、加快Hadoop数据查询的方法,Apache软件基金会近日发起了一项名为“Drill”的开源项目。

Apache Drill特点简洁:

Apache
Drill是一个低延迟的分布式海量数据(涵盖结构化、半结构化以及嵌套数据)交互式查询引擎。分布式、无模式(schema-free),

是Google
Dremel的开源实现,本质是一个分布式的mpp(大规模并行处理)查询层,支持SQL及一些用于NoSQL和Hadoop数据存储系统上的语言

更快查询海量数据,通过对PB字节(2的50次方字节)数据的快速扫描完成相关分析

Drill 提供即插即用,在现有的 Hive 和 HBase中可以随时整合部署。

是MR交互式查询能力不足的补充

数据模型,嵌套

列式存储

结合了web搜索和并行DBMS技术


SPSS

SPSS是统计产品与服务解决方案(Statistical Product and Service
Solutions)的简称,为IBM公司推出的一系列用于统计学分析运算、数据挖掘、预测分析和决策支持任务的软件产品及相关服务的总称,有Windows和Mac
OS X等版本。

SPSS原名社会科学统计包(英语Statistical Package for the Social
Sciences),由于用户早已不限于社会科学界,2000年根据缩写改为“SPSS”。

1968年,美国斯坦福大学三位研究生开发出最早的SPSS软件,当时主要面向中小型计算机和企业用户,产品统称SPSSx版。1975年,芝加哥成立SPSS公司。1984年,SPSS公司首先推出了世界上第一个可以在DOS上运行的统计分析软件的PC版本,即SPSS/PC+版。后来又相继推出了Windows和Mac
OS
X等操作系统上的版本,并不断扩展软件的功能相关服务,形成了目前SPSS的基本面貌。2008年9月15日,SPSS
17.0 for Windows版发布。2009年7月28日,SPSS公司发表PASW(Predictive
Analytics Suite Workstation)18.0,同时该公司也被IBM收购。

2009年开始SPSS更名为PASW,旗下主要4个产品组相对应更名:

PASW Statistics(原名SPSS Statistics):统计分析

PASW Modeler(原名Clementine):数据挖掘

Data Collection family(原名Dimensions):数据收集

PASW Collaboration and Deployment Services(原名Predictive Enterprise
Services):企业应用服务


SAS

SAS(全称STATISTICAL ANALYSIS
SYSTEM,简称SAS)是全球最大的软件公司之一,是由美国NORTH
CAROLINA州立大学1966年开发的统计分析软件。

澳门新葡萄京官网注册 6

1976年SAS软件研究所(SAS INSTITUTE
INC。)成立,开始进行SAS系统的维护、开发、销售和培训工作。期间经历了许多版本,并经过多年来的完善和发展,SAS系统在国际上已被誉为统计分析的标准软件,在各个领域得到广泛应用。

SAS是一个模块化、集成化的大型应用软件系统。

SAS由数十个专用模块构成,功能包括数据访问、数据储存及管理、应用开发、图形处理、数据分析、报告编制、运筹学方法、计量经济学与预测等等

SAS系统基本上可以分为四大部分:SAS数据库部分;SAS分析核心;SAS开发呈现工具;SAS对分布处理模式的支持及其数据仓库设计。

SAS系统主要完成以数据为中心的四大任务:数据访问;数据管理;数据呈现;数据分析。

SAS的特点是:

功能强大,统计方法齐,全,新

使用简便,操作灵活

提供联机帮助功能


R

R是一套由数据操作、计算和图形展示功能整合而成的套件。包括:有效的数据存储和处理功能,一套完整的数组(特别是矩阵)计算操作符,拥有完整体系的数据分析工具,为数据分析和显示提供的强大图形功能,一套(源自S语言)完善、简单、有效的编程语言(包括条件、循环、自定义函数、输入输出功能)。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。

R作为一种统计分析软件,是集统计分析与图形显示于一体的。它可以运行于UNIX,Windows和Macintosh的操作系统上,而且嵌入了一个非常方便实用的帮助系统,相比于其他统计分析软件,R还有以下特点:

R是自由软件;

R是一种可编程的语言;

R具有很强的互动性;

如果加入R的帮助邮件列表一,每天都可能会收到几十份关于R的邮件资讯。