PipelineDB的版本更新记录.

由于我不认识其他人在使用,我打算改变计划,不写有关使用PipelineDB的提示。因为PipelineDB经常有版本更新,所以我想回顾一下更新的内容。

呂布カープはPipeLineDBのEnterprise版(write scale)の検証をしており、NDAのためにそれらの情報を公開することは難しいです。したがって、影響のないアップデート情報と解説(興味を引くものだけを選びます)を提供します。最新版を使用することをお勧めします。

0.8.0 -> 八点八

    • 起動ポートがpostgresqlと同じポートになりました

 

    • Smarter Step-sizes for Sliding Window Queries

 

    その他大量の改善

当对流中频繁插入数据时,会将其细分记录到具有实体数据的表(mrel0)中。在引用连续视图时,需要对这个实体表进行汇总并返回结果,因此需要选择大量的记录进行select和grouping。
从这个版本开始,支持将hour或minute等函数用于WHERE子句的arrival_timestamp。hour和minute是date_trunc的别名,因此支持date_trunc所能实现的所有功能。
通过指定这些,可以使实体数据以这种单位进行创建,从而实现显著的性能改进。

0.8.1 = 零点八一

    • Kafkaをサポート

 

    • TopKの処理を Filtered Space Saving のアルゴリズムでサポート

http://www.l2f.inesc-id.pt/~fmmb/wiki/uploads/Work/misnis.ref0a.pdf

Sliding Windowの改善
各種バグFixと性能改善

stream_commit_intervalのオプションを追加

从这个版本开始,解决了使用amazon-linux的rpm进行安装时每个脚本权限设置被破坏的问题。在0.8.0版本中,pipeline-init等没有正确的权限设置。

另外,在此版本中,连续视图不再显示(在最新的0.8.4之后的每夜版本中已修复)。

0.8.3 八点三

    • アドホックな継続クエリのサポート

 

    • TopKは今まで固定長の型しかサポートしなかったが、可変長の型をサポートするように

 

    • Keyed Min/Max のサポート

step_factorを使ってSliding Windowを調整できるように
1個のstreamから複数のcvを作る時の性能改善

被添加了一个名为“padhoc”的命令行工具,现在可以随机尝试CV。

padhoc -c 'select x::text, count(*) from stream group by x'

只有在配置文件中启用adhoc query并启动服务器才能使用它。

之前,TopK只支持固定长度的类型(例如int),现在也支持VARCHAR等可变长度的类型。

Keyed Min/Max是指支持keyed_max和keyed_min的函数。keyed_max(arg1,arg2)用于保留arg1中的最大值arg2。
我稍稍关心的是,当arg1的值相同时,返回的不是最后一个arg2,而是第一个arg2。

0.8.4 八点八分四秒

    • マルチコア環境下での性能改善

 

    • 書き込みI/Oの改善

 

    厳密な異なり数の算出が可能に

关于写入I/O,
数据会连续地传入流中,但是在使用布隆过滤器或者HLL的情况下,如果相同的值连续传入,就没有必要遵守更新的规则去进行更新。从这个版本开始,如果相同的值连续传入,将不再对后续值进行更新。

有关严格的不同计数,
以前,使用 count(distinct column) 并且基于概率数据结构的HyperLogLog进行计算。尽管无法得到精确的不同计数,但从此版本开始可以使用 exact_count_distinct(column)。

总结

所以,让我们使用最新版本吧。
如果您想在升级时迁移数据,似乎可以通过以下方法实现。(如果可以清空数据,则推荐进行清洁安装)

广告
将在 10 秒后关闭
bannerAds