项目简介

数据越来越多，传统的关系型数据库支撑不了，分布式数据仓库又非常贵。几十亿、几百亿、甚至几千亿的数据量，如何才能高效的分析？
mdrill是由阿里妈妈开源的一套数据的软件，针对TB级数据量，能够仅用10台机器，达到秒级响应，数据能实时导入,可以对任意的维度进行组合与过滤。
mdrill作为数据在线分析处理软件，可以在几秒到几十秒的时间，分析百亿级别的任意组合维度的数据。
在阿里10台机器完成每日30亿的数据存储，其中10亿为实时的数据导入，20亿为离线导入。目前集群的总存储1000多亿80~400维度的数据。
目前有阿里、腾讯、京东、联想、一号店、美团、大街网、亚信、恒隆兴等多家公司在使用。

mdrill的特性

1.满足大数据查询需求：adhoc每天的数据量为30亿条，随着日积月累，数据会越来越大，mdrill采用列存储，索引，分布式技术，适当的分区等满足用户对数据的实时在线分析的需求。
2.支持增量更新：离线形式的mdrill数据支持按照分区方式的增量更新。
3.支持实时数据导入：在仅有10台机器的情况下，支持每天10亿级别（高峰每小时2亿）的实时导入。
4.响应时间快：列存储、倒排索引、高效的数据压缩、内存计算，各种缓存、分区、分布式处理等等这些技术，使得mdrill可以仅在几秒到几十秒的时间分析百亿级别的数据。
5.低成本：目前在阿里adhoc仅仅使用10台48G内存的PC机，但确存储了超过千亿规模的数据。

版本下载

资源列表

mdrill contributors

母延年(子落)、秦剑(含光)、郑博文(士远)、陈鹏(伯时)、木晗、逸客、张壮、凌凝
谷磊(QQ506413250)、刘宏凯(QQ23276998)、孙磊(QQ29130962)、范宜坚(@yehaozi)

jstorm Core contributors 点击进入

封仲淹(纪君祥)、李鑫(丙吉)、母延年(子落)、周鑫(陈均)

mdrill数据量的增长

时间点	数据量	事件
12年12月	小于2亿	adhoc首次上线
13年1月	20~30亿	由2台机器扩容到了10台
13年5月2日	100亿	首次过百亿
13年7月24日	400亿	首次开源
13年11月	1000亿	全文检索模式ods_allpv_ad_d上线
13年12月	1500亿	实时数据以及无线数据的接入
14年2月	3200亿	11台机器，硬盘使用率30%
14年3月28日	4900亿	11台机器，硬盘使用率60%

其他

FAQ
mdrill技术交流群:171465049
微博：https://weibo.com/mynyannian

Name		Name	Last commit message	Last commit date
Latest commit History 158 Commits
doc		doc
software		software
trunk		trunk
LICENSE.txt		LICENSE.txt
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

项目简介

mdrill的特性

版本下载

资源列表

mdrill contributors

jstorm Core contributors 点击进入

mdrill数据量的增长

其他

About

Releases

Packages

Languages

License

wasser224/mdrill

Folders and files

Latest commit

History

Repository files navigation

项目简介

mdrill的特性

版本下载

资源列表

mdrill contributors

jstorm Core contributors 点击进入

mdrill数据量的增长

其他

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages