PipelineDB的版本更新记录.
由于我不认识其他人在使用,我打算改变计划,不写有关使用PipelineDB的提示。因为PipelineDB经常有版本更新,所以我想回顾一下更新的内容。
呂布カープはPipeLineDBのEnterprise版(write scale)の検証をしており、NDAのためにそれらの情報を公開することは難しいです。したがって、影響のないアップデート情報と解説(興味を引くものだけを選びます)を提供します。最新版を使用することをお勧めします。
0.8.0 -> 八点八
-
- 起動ポートがpostgresqlと同じポートになりました
-
- Smarter Step-sizes for Sliding Window Queries
- その他大量の改善
当对流中频繁插入数据时,会将其细分记录到具有实体数据的表(mrel0)中。在引用连续视图时,需要对这个实体表进行汇总并返回结果,因此需要选择大量的记录进行select和grouping。
从这个版本开始,支持将hour或minute等函数用于WHERE子句的arrival_timestamp。hour和minute是date_trunc的别名,因此支持date_trunc所能实现的所有功能。
通过指定这些,可以使实体数据以这种单位进行创建,从而实现显著的性能改进。
0.8.1 = 零点八一
-
- Kafkaをサポート
-
- TopKの処理を Filtered Space Saving のアルゴリズムでサポート
http://www.l2f.inesc-id.pt/~fmmb/wiki/uploads/Work/misnis.ref0a.pdf
Sliding Windowの改善
各種バグFixと性能改善
stream_commit_intervalのオプションを追加
从这个版本开始,解决了使用amazon-linux的rpm进行安装时每个脚本权限设置被破坏的问题。在0.8.0版本中,pipeline-init等没有正确的权限设置。
另外,在此版本中,连续视图不再显示(在最新的0.8.4之后的每夜版本中已修复)。
0.8.3 八点三
-
- アドホックな継続クエリのサポート
-
- TopKは今まで固定長の型しかサポートしなかったが、可変長の型をサポートするように
-
- Keyed Min/Max のサポート
step_factorを使ってSliding Windowを調整できるように
1個のstreamから複数のcvを作る時の性能改善
被添加了一个名为“padhoc”的命令行工具,现在可以随机尝试CV。
padhoc -c 'select x::text, count(*) from stream group by x'
只有在配置文件中启用adhoc query并启动服务器才能使用它。
之前,TopK只支持固定长度的类型(例如int),现在也支持VARCHAR等可变长度的类型。
Keyed Min/Max是指支持keyed_max和keyed_min的函数。keyed_max(arg1,arg2)用于保留arg1中的最大值arg2。
我稍稍关心的是,当arg1的值相同时,返回的不是最后一个arg2,而是第一个arg2。
0.8.4 八点八分四秒
-
- マルチコア環境下での性能改善
-
- 書き込みI/Oの改善
- 厳密な異なり数の算出が可能に
关于写入I/O,
数据会连续地传入流中,但是在使用布隆过滤器或者HLL的情况下,如果相同的值连续传入,就没有必要遵守更新的规则去进行更新。从这个版本开始,如果相同的值连续传入,将不再对后续值进行更新。
有关严格的不同计数,
以前,使用 count(distinct column) 并且基于概率数据结构的HyperLogLog进行计算。尽管无法得到精确的不同计数,但从此版本开始可以使用 exact_count_distinct(column)。
总结
所以,让我们使用最新版本吧。
如果您想在升级时迁移数据,似乎可以通过以下方法实现。(如果可以清空数据,则推荐进行清洁安装)