七叶笔记 » 数据库 » MongoDB中强大的统计框架Aggregation使用实例解析

MongoDB中强大的统计框架Aggregation使用实例解析

分类: 数据库 | 浏览: 386

好了，现在数据库里面有100条学生数据了。

现在我要得到广东学生的平均年龄，在mongo控制台输入：

如果想到得到所有省份的平均年龄，那就更加简单了：

如果想得到广东省所有科目的平均成绩：

加上排序：

实验二、寻找发帖水王有一个保存着杂志文章的集合，你可能希望找出发表文章最多的那个作者。假设每篇文章被保存为MongoDB中的一个文档。

1、插入数据

现在我们拥有了10000条文章数据了。

2、用$project将author字段投射出来

这个语法与查询中的字段选择器比较像：可以通过指定"fieldname" : 1选择需要投射的字段，或者通过指定"fieldname":0排除不需要的字段。

执行完这个"$project"操作之后，结果集中的每个文档都会以{"_id" : id, "author" : "authorName"}这样的形式表示。这些结果只会在内存中存在，不会被写入磁盘。

3、用group将作者名称分组

这样就会将作者按照名字排序，某个作者的名字每出现一次，就会对这个作者的"count"加1。

这里首先指定了需要进行分组的字段"author"。这是由"_id" : "$author"指定的。可以将这个操作想象为：这个操作执行完后，每个作者只对应一个结果文档，所以"author"就成了文档的唯一标识符（"_id"）。

第二个字段的意思是为分组内每个文档的"count"字段加1。注意，新加入的文档中并不会有"count"字段；这"$group"创建的一个新字段。

执行完这一步之后，结果集中的每个文档会是这样的结构：{"_id" : "authorName", "count" : articleCount}。

4、用sort排序

这个操作会对结果集中的文档根据"count"字段进行降序排列。

5、限制结果为前5个文档

这个操作将最终的返回结果限制为当前结果中的前5个文档。在MongoDB中实际运行时，要将这些操作分别传给aggregate()函数：

aggregate()会返回一个文档数组，其中的内容是发表文章最多的5个作者。

我在db中造了些数据(数据时随机生成的, 能用即可)，没有建索引，文档结构如下：

Document结构:

接下来要实现两个功能：

统计上海学生平均年龄统计每个省各科平均成绩

接下来一一道来

统计上海学生平均年龄

从这个需求来讲，要实现功能要有几个步骤: 1. 找出上海的学生. 2. 统计平均年龄 (当然也可以先算出所有省份的平均值再找出上海的)。如此思路也就清晰了

首先上 $match, 取出上海学生

接下来用 $group 统计平均年龄

$avg 是 $group的子命令，用于求平均值，类似的还有 $sum, $max .... 上面两个命令等价于

下面是Java代码

输出结果：

如此工程就结束了，再看另外一个需求

统计每个省各科平均成绩

首先更具数据库文档结构，subjects是数组形式，需要先‘劈'开，然后再进行统计

主要处理步骤如下：

1. 先用$unwind 拆数组 2. 按照 province, subject 分租并求各科目平均分

$unwind 拆数组

按照 province, subject 分组，并求平均分

java代码如下:

输出结果

统计就此结束.... 稍等，似乎有点太粗糙了，虽然统计出来的，但是根本没法看，同一个省份的科目都不在一起。囧

接下来进行下加强,

支线任务：将同一省份的科目成绩统计到一起( 即，期望 'province':'xxxxx', avgscores:[ {'xxx':xxx}, ....] 这样的形式)

要做的有一件事，在前面的统计结果的基础上，先用 $project 将平均分和成绩揉到一起，即形如下面的样子

再按省份group，将各科目的平均分push到一块，命令如下：

$project 重构group结果

$使用 group 再次分组

java 代码如下：

结果如下：

七叶笔记

MongoDB中强大的统计框架Aggregation使用实例解析

相关文章

更多编程视频和电子书关注公众号

最近发表

标签列表