ZTorchan
  • 首页
  • 归档
  • 分类
  • 标签
  • 资源
  • 清单
    读书 电影 游戏
  • 留言板
  • 友链
  • 关于

AI时代的多模态列式存储——LanceDB技术概览

特别说明:本文所讨论的技术设计均基于Lance v2和Lance v2.1 在从Parquet到Arrow——列式存储概览一文中,我们回顾了过去十余年主流的开源列式存储格式。正如前文所述,数据存储的发展始终顺应着上层应用I/O模式的变迁。近年来,随着AI技术的爆发式发展,我们迎来了比大数据时代还“大”的AI时代,对数据I/O的需求也随之发生深刻变革。这使得原有的列式存储方案在某些场景下面临新的
2025-07-21
列式存储 > 向量数据库
#列式存储 #Lance #LanceDB #AI存储

从Parquet到Arrow——列式存储概览

数据存储总是需要顺应上层应用的IO模式而发展的。进入大数据时代的数十年里,OLAP分析性系统逐渐替代OLTP事务型系统成为了当下主流的数据系统,对OLAP更为友好的列式存储也随之成为研究热点得以野蛮发展。本文以存储模型的发展出发,简述列式存储设计的关键点,并着重介绍当下主流的开源列式存储格式,为读者提供一张全局视图。
2025-07-07
列式存储
#列式存储 #Parquet #ORC #Arrow

论文阅读 | Ditto:An Elastic and Adaptive Memory-Disaggregated Caching System

文章出自香港中文大学,华为云左鹏飞参与指导,发表于SOSP`23。这项研究是作者在华为云实习期间完成的,主要工作是设计了一种面向分离式内存架构的缓存系统。缓存可能是分离式内存这种大内存系统最具实用价值的应用方向了,在我看来这篇论文选题上具备比较高的实践价值。
2025-06-01
论文阅读
#论文阅读 #分离式内存 #缓存系统

论文阅读 | Design Guidelines for Correct, Efficient, and Scalable Synchronization using One-Sided RDMA

文章由达姆施塔特工业大学的TOBIAS ZIEGLER等人发表于SIGMOD'23,主要描述了如何利用one-sided RDMA来构建正确、高效且具有扩展性的同步机制。
2024-01-30
论文阅读
#RDMA #论文阅读

论文阅读 | SingularFS:A Billion-Scale Distributed File System Using a Single Metadata Server

这篇文章出自清华大学存储研究组(舒继武团队),探讨了可承载Billion级别分布式文件系统的元数据服务构建。文章发表在了ATC`23。
2023-11-24
论文阅读
#文件系统 #论文阅读 #元数据

论文阅读 | SMART:A High-Performance Adaptive Radix Tree for Disaggregated Memory

文章提出了一个适用于分离式内存架构的基数树。主要工作由复旦大学和华为云完成,发表于OSDI'23。
2023-09-23
论文阅读
#论文阅读 #分离式内存 #基数树

使用brpc遇到的一些bug和解决方案

这篇文章记录一下在使用brpc的时候遇到的bug以及解决方案,长期更新。
2023-06-02
杂货
#brpc #bug

单机部署K3s

最近发现自己对同网段多主机的实验环境需求越来越高了,服务器嘛多了租不起,实验室主机嘛大家共用的不太放得开手脚,虚拟机嘛数量起来有点吃不消,那还是在自己的服务器上部署容器编排平台吧。
2023-05-07
杂货
#K8s #K3s #Docker #容器

论文阅读 | Patronus:High-Performance and Protective Remote Memory

这篇文章发表于FAST'23,是清华大学存储研究组提出的工作。文章介绍了他们基于RDMA并通过软件协同设计实现的高性能且有保护的远程内存。
2023-05-06
论文阅读
#RDMA #论文阅读 #Remote Memory

Hexo博客重搭建

换了个服务器,又要把博客环境重新安装一遍,但是基本忘了怎么做了。为了避免以后出现同一状况,把整个流程记录一下。 这不是从头开始搭建Hexo博客,只是把存在github的博客内容和配置在一台新的服务器上拉下来重新搭建环境
2023-05-05
杂货
#博客
12

搜索