填补市场空白,Apache TsFile 如何重新定义时序数据管理

图灵汇官网

2023年终,中国开源技术领域再获国际高度认可

11月15日,全球顶尖开源软件基金会ASF董事会决议,时序数据文件格式TsFile升级为Apache顶级项目(Top-Level Project, TLP),成为继时序数据库Apache IoTDB之后,Apache在时序数据领域的重要里程碑。

TsFile,由Apache IoTDB项目团队研发,专为高效管理时序数据设计,同时也是IoTDB的核心存储格式。项目自启动以来,迅速汇聚了来自包括天谋科技、清华大学、华为、eBay、东方国信、用友等多家企业的贡献,于今年2月20日成功发布了1.0.0版本。此版本兼容多类数据类型、编码和压缩算法,并支持多样化的读写及查询模式。

TsFile的成功升级,不仅象征着中国开源项目在国际舞台上的实力展现,也填补了时序数据领域的一项关键空白,标志着在这一领域取得了重大突破。

统一管理时序数据:TsFile的使命与价值

时序数据,作为带有时标签的数据,因其随时间变化而展现出的动态特征,在物联网、智能制造、金融分析等众多领域发挥着至关重要的作用。然而,长期以来,时序数据的文件格式标准化问题一直是业界面临的挑战。

在处理时序数据时,企业通常会面临多种存储格式的困扰,如自定义CSV、二进制格式以及Parquet、ORC等通用文件格式。这不仅增加了统一管理和整合数据源的难度,而且由于缺乏针对时序数据特性的优化,导致主键信息冗余存储,查询性能受限。

TsFile正是为解决这一问题而生,旨在提供一种统一且标准化的时序数据格式。在设计之初,IoTDB团队就从时序数据的特性出发,关注于:

  • 时序模型:以物联网为核心,每个时间序列与特定设备关联,形成层次结构,以实现数据的高效组织。
  • 高效压缩与存储:针对时间序列数据的特性,采用列式存储,按设备组织数据,实现最小存储空间占用的同时,保证连续性。
  • 高性能写入:通过块写入机制,实现数据的最大吞吐量。
  • 快速访问:构建基于时间、设备、物理量的索引结构,加速数据检索速度。

TsFile的关键特性与优势

对比其他文件格式,TsFile凭借自主研发的技术,提供了更为高效的时序数据管理和灵活的数据传输解决方案。其主要特性包括:

  • 独立使用:通过SDK实现数据的直接读写,适用于轻量级应用场景。
  • 优化存储与压缩:采用先进的压缩技术,显著减少存储空间需求,相较于通用文件格式,压缩比提升超过20%。
  • 灵活元数据管理:支持动态元数据管理,无需预定义即可写入数据,简化了数据管理和处理流程,同时结合列式数据写入模式,提高写入吞吐量。
  • 高效查询性能:通过设备、传感器和时间维度索引,实现快速的时序数据过滤与查询,显著提升查询吞吐量。
  • 协同同步:作为时序数据库IoTDB的底层存储,支持存算分离架构,便于数据加载与导出,适应不同环境的部署与同步需求。
  • 开放集成:与Spark、Flink等大数据软件无缝集成,确保跨不同数据处理环境的兼容性,支持时序数据的深度分析。

结论

TsFile的内核创新体现在其独特的列式存储文件结构、高效的编码与压缩技术上,这些设计优化了时序数据的存储与管理效率,显著提升了查询性能,为时序数据领域带来了革命性的改变。通过提供统一且高效的时序数据格式,TsFile不仅满足了当前行业的需求,也为未来的数据处理与分析提供了强大的技术支持。

本文来源: 图灵汇 文章作者: 向欣