AI时代的多模态列式存储——LanceDB技术概览 特别说明:本文所讨论的技术设计均基于Lance v2和Lance v2.1 在从Parquet到Arrow——列式存储概览一文中,我们回顾了过去十余年主流的开源列式存储格式。正如前文所述,数据存储的发展始终顺应着上层应用I/O模式的变迁。近年来,随着AI技术的爆发式发展,我们迎来了比大数据时代还“大”的AI时代,对数据I/O的需求也随之发生深刻变革。这使得原有的列式存储方案在某些场景下面临新的 2025-07-21 列式存储 > 向量数据库 #列式存储 #Lance #LanceDB #AI存储
从Parquet到Arrow——列式存储概览 数据存储总是需要顺应上层应用的IO模式而发展的。进入大数据时代的数十年里,OLAP分析性系统逐渐替代OLTP事务型系统成为了当下主流的数据系统,对OLAP更为友好的列式存储也随之成为研究热点得以野蛮发展。本文以存储模型的发展出发,简述列式存储设计的关键点,并着重介绍当下主流的开源列式存储格式,为读者提供一张全局视图。 2025-07-07 列式存储 #列式存储 #Parquet #ORC #Arrow
论文阅读 | Ditto:An Elastic and Adaptive Memory-Disaggregated Caching System 文章出自香港中文大学,华为云左鹏飞参与指导,发表于SOSP`23。这项研究是作者在华为云实习期间完成的,主要工作是设计了一种面向分离式内存架构的缓存系统。缓存可能是分离式内存这种大内存系统最具实用价值的应用方向了,在我看来这篇论文选题上具备比较高的实践价值。 2025-06-01 论文阅读 #论文阅读 #分离式内存 #缓存系统
论文阅读 | Design Guidelines for Correct, Efficient, and Scalable Synchronization using One-Sided RDMA 文章由达姆施塔特工业大学的TOBIAS ZIEGLER等人发表于SIGMOD'23,主要描述了如何利用one-sided RDMA来构建正确、高效且具有扩展性的同步机制。 2024-01-30 论文阅读 #RDMA #论文阅读
论文阅读 | SingularFS:A Billion-Scale Distributed File System Using a Single Metadata Server 这篇文章出自清华大学存储研究组(舒继武团队),探讨了可承载Billion级别分布式文件系统的元数据服务构建。文章发表在了ATC`23。 2023-11-24 论文阅读 #文件系统 #论文阅读 #元数据
论文阅读 | SMART:A High-Performance Adaptive Radix Tree for Disaggregated Memory 文章提出了一个适用于分离式内存架构的基数树。主要工作由复旦大学和华为云完成,发表于OSDI'23。 2023-09-23 论文阅读 #论文阅读 #分离式内存 #基数树
单机部署K3s 最近发现自己对同网段多主机的实验环境需求越来越高了,服务器嘛多了租不起,实验室主机嘛大家共用的不太放得开手脚,虚拟机嘛数量起来有点吃不消,那还是在自己的服务器上部署容器编排平台吧。 2023-05-07 杂货 #K8s #K3s #Docker #容器
论文阅读 | Patronus:High-Performance and Protective Remote Memory 这篇文章发表于FAST'23,是清华大学存储研究组提出的工作。文章介绍了他们基于RDMA并通过软件协同设计实现的高性能且有保护的远程内存。 2023-05-06 论文阅读 #RDMA #论文阅读 #Remote Memory
Hexo博客重搭建 换了个服务器,又要把博客环境重新安装一遍,但是基本忘了怎么做了。为了避免以后出现同一状况,把整个流程记录一下。 这不是从头开始搭建Hexo博客,只是把存在github的博客内容和配置在一台新的服务器上拉下来重新搭建环境 2023-05-05 杂货 #博客