大数据还能预测硬盘故障？

玄聪发表于 2014-6-11 11:58:16

http://blog.sina.com.cn/s/blog_e59371cc0101emdk.html
大数据时代已经到来，各种软硬件计算资源愈加丰富，机器学习、数据挖掘正在各个领域发挥越来越大的作用。例如大规模的文本挖掘，海量商品和电影的推荐，语音识别，图像检索，无人驾驶汽车，信用评估等等。从IT时代到DT时代，大数据是阿里巴巴的下一个战略重点，我们的工程师们更是将机器学习用到了极致，商品推荐、广告和搜索结果排序、商品类目预测、聚划算爆款销量预估、来往语音文字转换，一幕幕应用场景，各种算法无处不在。事实上，除了前端应用，这些技术也同样会颠覆基础架构的管理方式。在阿里技术保障部，有一群系统研发工程师正在努力尝试利用机器学习和大数据让苦逼的运维保障工作变得高大上, 比如流量请求智能调度，服务异常自动修复，机器故障提前预测等等。阿里技术保障部的机器学习阿里巴巴旗下有淘宝、天猫、聚划算、支付宝、阿里云、来往等多个事业部，这些事业部每天都在产生形形色色的海量数据。到2014年4月底，阿里巴巴集团已拥有超过100PB已处理过的世界上最具有商业价值的商品数据、用户数据和交易数据。我们的工程师开发了能存储和处理海量规模数据的分布式平台，并时刻保障平台的稳定和高效。目前，阿里巴巴的Hadoop集群已经接近万台服务器，跨越多个数据中心。阿里巴巴自主研发的云计算平台也已经能达到单集群5000台服务器。利用这些分布式计算平台，每天可以处理上百万个在线、离线的数据计算和分析任务运行。阿里巴巴不但是海量数据的消费者，更是海量数据的生产者。阿里巴巴未来会拥有百万级的服务器，把各种app应用、服务器、网络设备和计算系统想像成商品、买家和卖家，每天数以亿计的日志数据、监控数据、网络数据和服务器状态数据在阿里巴巴技术保障部产出。面对如此海量的数据，如果纯粹利用人工来部署服务、执行运维和定位故障，那么这个工作量随着平台的爆炸式发展也会几何倍增长，我们的目标就是通过对历史数据的挖掘和机器学习，总结数据规律，实时指导分析出网站服务是否异常，服务器负载是否过高，网站是否遭受攻击等等线上可能存在的问题。这里重点介绍几个正在进行中的研究课题进展，也欢迎各位感兴趣的同学给出建议。攻击流量自动检测阿里巴巴的服务器每天都遭受着来自世界各地的DDos攻击。由于互联网和PC的高速发展，现在的攻击表现越来越频繁，流量越来越大，成本也越来越低。华为发布的《2013僵尸网络与DDoS攻击专题报告》中提到，去年反垃圾邮件组织宣称“遭受300G+的DDos攻击，是历史上最大规模的DDos攻击”。从阿里巴巴AliGuard安全防护同学了解到，最近一个季度上百G的DDos流量攻击已经成为常态。http://s10.sinaimg.cn/mw690/004cF6UIgy6JAnkAnPPa9&690
常用的DDos攻击方法有：SYN Flood、 DNS Query Flood、 HTTP Flood、慢速连接攻击、以及P2P网络的攻击。抵挡方法一般为针对每种攻击手段，统计syn syn_ack ack rst fin push_ack udp dns icmp http-get http-post等包的接收频率和比例，来判断属于何种攻击，然后采取相应的抵挡策略。但在实际操作就会遇到一些问题 - 首先，不同应用，服务规模大小不同，服务类型不同，因此不同包的接收频率和比例不是固定的，对于混合类型攻击就更难准确设定相关的阈值；其次，对于新的攻击类型，如果没有经验，就不能及时发现。为了解决上述问题，能自动发现攻击，以及发现新的未知类型的攻击，我们已经开始在使用机器学习的方式，根据不同网络包的日志数据，自动学习出不同网络攻击类型的攻击流量的模型，提前将攻击流量清洗掉。尤其是新的未知类型的攻击，我们期望在攻击规模尚小，还不足以影响业务时，就能被我们发现并开始学习模型。硬盘故障预测每天硬盘出错的概率在是万分之一左右，当你只有1台服务器10块硬盘，服务器硬盘出错的概率就会上升到千分之一，阿里巴巴未来会有百万级服务器，千万级硬盘，多块硬盘同时出错的情况会成为常态。如何在硬盘出错的情况下保证数据不丢失，保证服务不受影响？数据存储通常会有多个备份，如mysql 主备库，GFS文件默认3个备份。有数据显示，在海量数据存储平台上，如果多个硬盘同时出故障，那么这些硬盘上存储着同一个文件的备份的概率已经很高。换句话说，如果同时多块硬盘出故障，那么就必然会导致某些文件丢失。对于在线服务，很多服务都依赖本地文件，如果硬盘出故障就必然导致这些在线服务异常，甚至不能提供服务。因此我们需要有一套系统能提前告诉我们哪些硬盘会出错，数据可能丢失。有很多因素会导致硬盘故障，最常见的有以下几种：1. 外部振动2. 温度和湿度3. SOC电器元件损坏4. 声音5. 灰尘这些因素有些能够被采集到，比如温度和湿度、一些元器件数据，但是更多的数据无法被采集和量化，现在硬盘数据安全技术通常使用S.M.A.R.T.。S.M.A.R.T样例:http://s9.sinaimg.cn/mw690/004cF6UIgy6JAnmv1zOb8&690通过硬盘S.M.A.R.T.各个维度的历史数据以及故障信息，结合机器学习算法，我们可以很轻松地学习出不同品牌不同型号的硬盘故障模型。利用这个模型，就可以预测出未来1周内硬盘出故障的概率，结合业务对硬盘稳定性的需求，运维同学就可以做相应的决策，提前统一做好数据备份和硬盘更换，防止数据丢失。除了上述两个应用，还有很多很多的应用也在开始涉水机器学习：比如cdn流量智能调度，故障定位甚至预测，vm资源自动优化调度等等。数据化运营拥有大数据，对我们来说是基础，是资源，是学习的课本。但是把资源变成财富，需要我们从数据采集、传输、存储、计算和分析等多个阶段来构建我们的大数据计算平台，达到数据从覆盖面、精细化、质量和生命周期等多个维度的把控。机器学习不是万能药，但却是一剂解放人力的特效药。我们期望能够将机器学习所擅长的归纳总结能力，结合阿里巴巴海量数据，发挥无穷威力，从提升效率，降低成本的角度，帮助技术保障部建设数据支撑和高度只能得基础决策功能，从而支撑起阿里巴巴未来不断高速增长的业务需求，真正做到数据化运营。作者：叔宝 - 阿里巴巴技术保障部数据化运营团队专家

lovezljwzc 发表于 2014-6-11 22:57:03

图片挂掉了内容太多唉看的头都大了

不倒翁 发表于 2014-6-12 08:20:05

进来学习下，谢了

雨中漫步 发表于 2014-6-12 22:11:56

这是学习贴，好好看看

282705409 发表于 2014-7-19 19:38:28

学习学习 lz加油

hmd 发表于 2014-9-7 10:52:39

顶起来，楼主辛苦了！

页: [1]

iYa.App 软件交流社区's Archiver

大数据还能预测硬盘故障？