一年的时间很快就过去了,这一年,工作上好像只是围绕这Cassandra。前面也写了不少文章,不过都比较浅,原因种种。从明天开始,我除了翻译一些Cassandra的文章之外,还要把这一年的所得逐渐写出来。和大家分享,讨论,也为Cassandra在国内推广,出点力。尽管不如Hbase那般火热,但是我仍旧十分看好Cassandra。尤其是1.0版本以后的发展,越来越给力。 这篇博客主要列出以后会写的一些点。如果不列出来,不强迫自己,恐怕拖一拖就过去了,对自己对后来搞Cassandra的同学,都不好。所以,我要先列出来:
- SizeTired Compaction的改进——主要效果会提升读性能【】
- Leveled Compaction的改进——主要效果是在写比例较大的时候,提升读性能。这个比例不能明确,在做的时候,大家可以根据我文章中的一些参数,结合自己的情况进行调整【】
- Cassandra写过程分析,以及写性能的进一步提升——主要效果是大幅提升写性能,减小GC对读写的影响
- Cassandra索引改进,目前Cassandra使用的是LSM索引机制,较大改善了写性能。但是却牺牲了一定读性能。我们的一个主要工作,改写了Cassandra的索引机制,使得读性能大幅度提升
- Cassandra在引入SSD的情况下的改进——Cassandra在1.1以后,针对SSD做了一定的优化,但是比较简单,我会首先分析如何利用1.1本身提供的机制,然后与大家讨论我们的改进思路【】
- Cassandra集群启动加速——这个比较简单,我在围脖里说了,但是还是在博客里写写,在围脖上写东西,总是觉得心里不够踏实。
- 大数据下,Cassandra从0.x升级到1.x的升级方案讨论。官方给出的升级方案非常简单,在大数据的条件下,升级非常艰难。何为大数据,我不知道定义,我只知道,单机数据超过10T,采用官方的方案几乎无法完成,即使可以完成,时间单位也是按年记的。
- 最后,我用过Voldemort,Cassandra,做过搜索引擎文档存储,快照存储,采集状态信息存储,我想总结一下大规模分布式的一些自己的看法,目前尚不成熟。等前面的写完吧,也许还是不是时机,那就再去公司锻炼一番。
这上面的几点,我主要是围绕着读写性能完成的,分布式关注的不多。不过分布式也很重要。
列出上面的表格,逼着自己把这些搞定。其实这是一件好事儿,你做过一个东西,你看过一个东西,这个时候,这个东西,还不是你的东西。当你梳理一下,把这个东西写出来的时候,它慢慢的变成你的东西。我说了,这么多东西,希望你能明白,这个东西,到底是什么东西。
有很多事,不可言传,比如系统的feel,做研究的feel等。很多事情,都讲究feel。努力钻研,我想就还会有feel。
【完】