欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  数据库

Jame’s Reading 06-28

程序员文章站 2022-06-15 19:02:04
...

运维相关:监控, 运维思想, 高容错设计. Bring the Noise_ Making Effective Use of a Quarter Million Metrics Presentation.pdf http://t.cn/zHe6VNH Etsy员工Abe Stanway 介绍他们最近做的Skyline与Oculus,1. 他们通过StatsD为系统收集了大量的Metrics信

运维相关:监控, 运维思想, 高容错设计.
Bring the Noise_ Making Effective Use of a Quarter Million Metrics Presentation.pdf” http://t.cn/zHe6VNH Etsy员工Abe Stanway 介绍他们最近做的Skyline与Oculus,1. 他们通过StatsD为系统收集了大量的Metrics信息,2.苦于如何找到metrics的异常以及相关关系,3.简要介绍这个实时异常监测系统。

http://t.cn/zH8CD03 Etsy对监控系统的改进,1. Skyline,一个异常监测模块,根据一定的算法,为各个metrics设置一个动态调整的阈值上下限,方便Graph的查看与比较,2. Oculus,一个metrics的模式识别组件,将有同等变化趋势的Graph组合到一起进行展示,方便对系统进行诊断。

http://t.cn/zH8csbt 杜绝指责的故障事后分析。通常,在遇到一个故障后,我们都会指责(责备)具体某个具体操作的人,认为是他不够认真,是他不够小心,是他能力不足…。John Allspaw在本文中详细了说明了Etsy 是更加关注他是在什么情况下,看到什么现象,做出了哪种判断,何种假设,执行了哪些操作

应用容错设计与运维: http://t.cn/zHeiEHk , Netflix 在Velocity会议上介绍其Hystrix(http://t.cn/zHeiEHD的ppt, 其中涉及多种经典的故障隔离方法, 如Bulkhead/Circuit breaker/Fail Fast/Fail Silent (具体概念请参考《Release IT》),相关的Wiki文档在:http://t.cn/zHeiEHe 容错设计的典范。

http://t.cn/zH8fmSt 关于运维的85条基本规则,1. 容量第一,2. Keep it simple,3.Cache仅仅应该被用来提升用户体验,而不是缓解容量问题,4. 不要一切工具/内容都自己写,5. 丢数据是最不可容忍的事情,6.了解系统的瓶颈,并知道该如何解决,7.要有有效的容量管理程序。……

系统设计相关:
http://t.cn/zHkbxuO Jonathan Ellis 讨论Cassandra遭遇的几个大的误解,1. Cassandra is a map of maps,这是我最初的理解,现在可以以表/字段的含义来理解了,2.对读支持较差,经过几年的优化,目前表现已经不错,3.难以利用,4.难以基于它进行开发,5.还不够成熟. 总的来讲,其实这几个问题已经得到很大缓解

http://t.cn/zjgGjwY http://t.cn/zHe6ZVQ 两个Ebay使用Cassandra,深度介绍他们为什么选择Cassandra(多机房支持、高可用、可扩展,卓越写性能),在哪些场景使用(社交相关、用户习惯信息、时间虚列信息),以及如何设计这几类系统的。

http://t.cn/zHdEXxN Jeff Darcy针对James Hughes(http://t.cn/zHdEXxp 的一个PPT做的评论,James认为传统的分布式文件系统,由于元信息系统的管理开销,导致其扩展性受到限制. 从Jeff的角度看, 这是因为James看到了一个分布式并不那么文件系统的HDFS的角度, 而整体上冤枉了传统的分布式文件系统.

http://t.cn/zHdQdC2 Facebook使用高级纠错码(erasure codes)来解决数据的冗余成本问题. 使用 Locally Repairable Codes(LRC,局部可修复码)来替代传统的Reed-Solomon码,在多牺牲14%空间的情况下,获得一倍的磁盘IO能力以及快一倍的恢复效率,并显著减少网络开销. Windows Azure也在使用类似的技术.
相关论文与代码, Facebook的论文: http://t.cn/zHdQFVU facebook的代码: http://t.cn/zHdQFV4 windows Azure的论文地址: http://t.cn/zHdQFVL

http://t.cn/zHEBgRu (谢谢 @zolker ) Facebook的数据总线Wormhole , 几点理解:1. 基于数据库Redo的消息流, 2. 按照业务分片做消息分片,3. 会保留一定的消息历史,保留数据库的txid(原子性),做基于时间点的【可靠有序】消息处理,4.处理效率有待进一步发布的论文确认,5.秒峰值千万DML(10m/s)。

http://t.cn/zHERaBj (@何_登成 已经转过), 我的一点总结:1. CPU不是速度/效率不能提升,而是散热/频率不能提升,2. 内存/磁盘/硬盘 对于顺序读写的支持能力都更好,3. 内存对顺序/随机的处理能力差别有2-3倍,如果Cache友好,可以到几十倍,4. 磁盘差别有100倍(1-2MB,100MB),5.软件要围绕硬件特征去设计.

http://t.cn/zHRkw6L 从5个角度来理解Scalability的含义,1. 从算法角度看,如果能将O(n)的算法改进成O(1)或O(Logn)的算法, 2. 应用架构角度看, c10k问题的解决以及其思路,3.无状态的设计,4. 层次化设计,类似于内存层次结构,5.系统架构,利用不同的硬件.

http://t.cn/zH8e9kA Jonas Bonér (Typesafe的CTO,AKKA背后的公司),介绍如何实现事件驱动的、可扩展的、能容错的系统,其中关于Performance Vs Scalability,阻塞、异步、锁机制的解析,关于消息系统的ACK的说法,容错机制的设计(Bulkheads?)都很不错。

Oracle技术相关:
http://t.cn/zTUHTum 如何切换到普通的监听日志格式. 在使用Oracle 11g的时候,会在Diag下产生大量XML格式的listener日志文件, 虽然很不错, 但是由于有基于普通listener.log日志文件的分析工具,这些xml的文件实际上没有啥价值了, 可以通过diag_adr_enabled_listener = off来关闭此日志.

http://t.cn/zHBB6XU Oracle数据库相关的压力测试工具概览. 1. IO压测工具(orion/iometer ). 2. 数据库级别的测试工具(SLOB ,DBMS_RESOURCE_MANAGER.CALIBRATE_IO),3. 应用级的测试工具(Hammerora ,Swingbench,simora),4. 基于应用的测试工具(LoadRunner).

其它:非技术问题
http://t.cn/zHQesew 周其仁江南论坛发言 户籍制度改革时间表. 最后,周其仁说,改革不论有多难,现在都要跟腐败和社会的溃败赛跑,要和社会主体人群的期望值赛跑,要把不损害他人利益的法外活动吸纳到*中来,变成合法制度化的运作过程。

观念的水位,刘瑜认为,社会的变革需要大众的观念作为前奏,之所以没有发生根本的变化,很多时候只是因为目前的水位还不够,她对中国的未来充满希望,只是因为现在,大家的观念的水位由于新的信息传播机制的变化,已经有了明显的提高。良治社会的到来有赖于观念水位的进一步上涨。

迷人的谎言, 崔卫平在《经济观察报》的影评专栏合集,崔卫平的文字一如既往的细腻,对于电影、人性的深度解析,本书中介绍了大量的经典的电影,以及这些电影导演(伯格曼、波兰斯基、基耶斯洛夫斯基)在拍摄这些电影时的状态,追求,心路历程。

旧山河,作者刀尔登,刀尔登的文笔非常的犀利,对于历史的掌故每每都是手到擒来,不过,总体上讲,他的文字更多是通过这些历史掌故剖析现时的社会。每篇文字都有很多逗人发笑的地方,以至于我几乎是一口气将这本书读完的。刀尔登早期混迹江湖的笔名为三七,我是从2005年开始喜欢这哥们的文字的.

Related posts:

  1. Jame’s Reading 10-14
  2. Jame’s Reading 09-10
  3. Jame’s Reading 07-25
Jame’s Reading 06-28