Google 服务器超过20万台 每天处理20PB数据
没人确切知道搜索巨人有多少台服务器,但以小可见大:一次简简单单的搜索查询就要动用到700到1000台服务器。根据现有的资料,Google有36个 数据中心,每个数据中心有150个柜式服务器,每个柜含40台服务器,这样计算起来Google拥有的服务器超过20万台,这个数字每天还在增加。在本周 三的Google I/O会议上,Jeffrey Dean略微透露一点Google庞大数据中心的内部情况,在Dean眼里,1,800台的服务器集群根本是小菜一碟:
Dean说,更多的硬件并不意味着可靠性更高,你还需要在软件层次上提高可靠性。“如果你运行1万台机器,肯定每天都会有问题发生。”
Dean用了一个计算机集群来说明硬件故障频率,他说,“在一个集群上线的第一年,会有1000台独立的机器发生故障,数以千计的硬盘故障,一个分布式电力单元出问题,500到1,000台机器下线6小时;20个柜式服务器会出现问题;每次会导致40到80台机器从网络中消失;5个柜会变得不可靠,通过其中的一半信息包会丢失;集群需要更换一次连接的电线,每次会影响5%的机器停止工作两天。”
Dean还称,一个集群有50%的几率过热,不到5分钟内整个服务器瘫痪,需要花1到2天时间去恢复。
Google现在通过在巨大的服务器群集上运行平均100,000个MapReduc任务,来每天处理超过20PB的数据。在2007年9月,一个普通的MapReduce任务运行在大约400台服务器上,一个月大约运行11,000服务器。这些是在Google员工Jeffrey Dean 和 Sanjay Ghemawat一篇ACM论文上透露出搜索巨人的计算处理架构。
每天20PT(20,000TB)是一个恐怖巨大的数据处理数量,也成为了Google一直延续着市场优势的关键。竞争对手微软(Dyrad)和 雅虎(Hadoop) 的搜索存储和处理系统
正在后面苦力的追着Google的GFS,MapReduce和BigTable。
Google一个标准的机器群集节点(node)是由2个2GHz Intel至强处理器(超线程),4GB内存,2个160GB IDE硬盘和1个千兆网络连接组成。这种类型的机器成本通过Penguin Computing或Dell厂商大约每台$2400元。
一个普通的MapReduce任务jobs运行在价值$100万的硬件群集上,还不包括带宽费用,数据中心费用及人力。