数据聚合（一）

jay54520 2018-01-21 原文

在统计学中，聚合的定义指

使用基于多组观测结果的总结的统计替换多组观测结果 — 来自 https://web.archive.org/web/20120112062156/http://www.r-bloggers.com/aggregation-and-restructuring-data-from-%E2%80%9Cr-in-action%E2%80%9D/

预期的功能及实现

实现一个由分钟到年的聚合系统。

一、根据下一级数据聚合

比如小时的数据由分钟聚合，天的数据由小时聚合，周、月的数据由天聚合，年的数据由月聚合。

要求：

下级数据存在
选择正确的下级数据。比如月数据就不能由周数据聚合，而只能从天来聚合。

好处：
可以减少计算量。

二、数据完整

由于要根据下一级数据聚合，所以每个级别的数据都不能少。所以需要

能够检测（各个级别的）数据完整
能够幂等地重跑数据
自动检测到数据不完整后，能自动地重跑数据

时区问题

一般的聚合都是基于时间的，比如从分钟以下聚合为分钟，然后小时，天，周，月，年等，所以就会有时区存在。

写入与查询

写入数据库的时间要带上时区。因为 MySQL、MongoDB 等数据库会将写入的 datetime 转化为 UTC 时区再储存，所以如果写入的时间没有带时区，数据库就会认为写入时间是 UTC 时区，可能会与你预期的不一致。

同理，查询时也要带上时区，因为数据库默认没有时区的时间为 UTC 时区。

聚合结果的时间储存

由于当前级别的数据是根据下一级数据聚合的，所以需要储存级别–时间类型以及时间。

时间类型为

minutely
hourly
daily
weekly
monthly
yearly

聚合时间为时间段的起点，我们把它叫做 time_start。

"date_type" : "minutely", "time_start" : ISODate("2018-01-21T05:01:00Z")
"date_type" : "minutely", "time_start" : ISODate("2018-01-21T05:02:00Z")
...
"date_type" : "minutely", "time_start" : ISODate("2018-01-21T05:59:00Z")
// 根据以上的分钟数据聚合小时数据
"date_type" : "hourly", "time_start" : ISODate("2018-01-21T05:00:00Z")

多时区

由于在不同时区的每天的定义是不同的：

北京时间 07月31日为 “07月30日16:00:00 UTC — 07月31日16:00:00 UTC” 而东京则为 “07月30日15:00:00 UTC — 07月31日15:00:00 UTC”。

我目前的想法是再给聚合加上时区参数，但在本文不讨论聚合包含多时区问题，因为能用到的地方比较少。

聚合时机

聚合时机为当下一级别的数据不再变化时。一般来说，过去的数据是不会再变化的，所以我们聚合过去的数据：当前分钟聚合上一分钟的数据，当前小时聚合上一小时的数据，每月一号计算上一月的数据。

如果存在特殊情况导致要等待的久一些：比如由于网络延迟导致数据来的慢一些。我们也要进行调整：比如当前分钟聚合5分钟前的数据。

版权声明：本文为jay54520原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://www.cnblogs.com/jay54520/p/8324273.html

数据聚合（一）的更多相关文章

GMT、UTC、UNIX时间戳、时区
GMT、UTC、CTS： UTC时间：世界协调时间（UTC）是世界上不同国家用来调节时钟和时间的主要时间标准， […]...
.net framework MVC 下 Hangfire使用，时区，权限
NuGet 上有几个可用的Hangfire 的软件包。如果在ASP.NET应用程序中安装HangFire，并使 […]...
UTC时间 GMT时间本地时间北京时间时区夏令时简要说明
1.UTC时间与 GMT时间整个地球分为二十四时区，每个时区都有自己的本地时间。为了统一起见，使用一个统一 […]...
常见的统计解决方案
最近用MySQL做统计的需求比较多，这里整理一些常用的场景方便后期查阅，同时也是抛砖引玉的过程。其中包括普通的 […]...
R数据分析第一篇：温习概率论
概率论是人们在长期实践中发现的理论，是客观存在的。自然界和社会上发生的现象是多种多样的，有一类现象，在一定条件 […]...
状态机编程思想（1）：括号内外字符数量统计
这是曾经的一个面试题，正好引出状态机编程思想。挺不错的一个例子。题目描述给定一个字符串，它由以下字符组成： […]...
随机模拟【2】：随机模拟的研究范围和特征-2
随机模拟【2】：随机模拟的研究范围和特征-2 本系列同步发布于本人的知乎专栏：确定性随机个人觉得随机模拟有一 […]...
Hadoop大数据单词统计
编写WordCount数单词程序0x00启动hadoop集群shell脚本编写：vim start#!/bin/bash/opt/hadoop-2.6.0-cdh5.6.0/sbin/start-all.sh给脚本加权限chmo...

随机推荐

MySQL 下载与安装 MySQL 官网地址：https://www.mysql.com/
等待下载完成双击运行如果有需要我们可以新增一个用户出来点击 Add User，不需要的话 […]...
Python强大的日志模块logging
前言日志是对于软件执行所发生的事件的一种追踪记录方式。日常使用过程中对代码执行的错误和问题会进行查看日志来分 […]...
钉钉outgoing机器人小项目开发
最近公司有个小项目，关于总部人员每天都要读书，需要想个方案对每个人的读书的情况做统计。经过几次考虑，然后看了下 […]...
雷军:曾经干掉山寨机,现在干掉山寨店（将性价比进行到底）
雷军文/金错刀雷军、马云放话说新零售即将来临，刘强东表示“新零售不就是我一直干的事吗？” 新零售到底是个啥 […]...
Matlab 线性拟合 & 非线性拟合
zz http://blog.csdn.net/abcjennifer/article/details/768 […]...
Kafka 入门（四）– Python Kafka Client 性能测试
一、前言　　由于工作原因使用到了 Kafka，而现有的代码并不能满足性能需求，所以需要开发高效读写 Kafk […]...
Thymeleaf对象的使用：数字对象
Thymeleaf主要使用 org.thymeleaf.expression.Numbers 类处理数字，在模 […]...
matlab中的rng函数
rng函数一、matlab中的随机函数有：rand、randn 1、rand功能：生成0-1之间的伪随机数 […]...

展开目录

目录导航