梗概

按列存储数据

示例

从表面上看，列式数据库的使用方式与传统的行式数据库非常相似，都是通过SQL语句来创建表、插入数据和查询数据。但在实际应用中，列式数据库在数据存储和查询性能方面有显著的不同和优势，特别是在大规模数据分析场景中。以下是两者的核心区别和列式数据库的独特优势：

1. 数据存储方式的差异

行式存储：行式数据库（如MySQL、PostgreSQL）按行存储数据。这意味着同一行的数据是连续存放在一起的。在常规应用中，比如用户注册信息的CRUD（增删改查）操作，这种存储方式很有效。
列式存储：列式数据库按列存储数据。同一列的数据连续存放在一起，这使得它在涉及某几列的大规模查询时特别高效。例如，有如下数据表：

user_id	event_type	event_time	event_value
1	click	2023-08-16 10:00:00	1.5
2	view	2023-08-16 10:05:00	2.3
1	purchase	2023-08-16 10:10:00	9.9
在行式存储中，这些数据会依次存储为：

1, click, 2023-08-16 10:00:00, 1.5
2, view, 2023-08-16 10:05:00, 2.3
1, purchase, 2023-08-16 10:10:00, 9.9

在列式存储中，同样的数据会被分列存储：

user_id: 1, 2, 1
event_type: click, view, purchase
event_time: 2023-08-16 10:00:00, 2023-08-16 10:05:00, 2023-08-16 10:10:00
event_value: 1.5, 2.3, 9.9

2. 查询性能的差异

假设你只需要查询event_type和event_value这两列的数据：

行式存储：数据库需要读取整个行的数据，然后从中提取出这两列，涉及不必要的I/O操作。
列式存储：只需要读取相关列的数据即可，其他列不会被读取，I/O负担显著降低，查询速度更快。在实际使用中，这种差异在大数据场景下尤为显著，尤其是在数据分析、数据聚合、实时统计等场景中。

3. 压缩率与存储效率

列式数据库在压缩数据方面通常比行式数据库更有效。因为同一列的数据类型相同且数据相似性高，压缩算法可以更好地发挥作用，从而节省存储空间。

4. 适用场景的差异

行式数据库：适用于OLTP（在线事务处理）系统，如银行交易系统、订单管理系统等，特点是频繁的插入、更新和删除操作。
列式数据库：适用于OLAP（在线分析处理）系统，如数据仓库、商业智能系统等，特点是大规模数据的读取和分析操作。

总结

虽然从使用上看，列式数据库和行式数据库的操作没有本质区别，但它们在底层的存储机制、数据读取效率、压缩能力和应用场景上有显著不同。列式数据库的优势在大规模数据分析中非常明显，这也是为什么在诸如数据仓库和实时分析的场景中，它们被广泛采用的原因。

🪴qql1's digital garden

探索

列数据库

梗概

示例

1. 数据存储方式的差异

2. 查询性能的差异

3. 压缩率与存储效率

4. 适用场景的差异

总结

关系图谱

目录

反向链接