1 Star 0 Fork 0

zpzhao / toadb

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
克隆/下载
贡献代码
同步代码
取消
提示: 由于 Git 不支持空文件夾,创建文件夹后会生成空的 .keep 文件
toadb.wiki @ 313b7b6
Loading...
README
MulanPSL-2.0

[toc]

简介

toad database system,“癞蛤蟆”数据库,正如其名,我们想吃天鹅肉,它是一款从零完全开始手写的数据库,同时在每做一步都会有教程和分析,期待更多人加入,一起同行。

中文教程地址

地址:https://senllang.blog.csdn.net/category_12338586.html

介绍数据库整体架构,SQL执行流程,重点对于存储架构,SQL解析,SQL执行进行了重点分析; 根据代码的更新进度,详细介绍各模块流程,开发流程。

更新记录

update by 2024/3/29

源码规模

-------------------------------------------------------------------------------
Language                     files          blank        comment           code
-------------------------------------------------------------------------------
C                               47           3264           2534          12860
C/C++ Header                    55            750            789           1838
yacc                             1             93             33            828
Bourne Shell                     6            144            128            475
Markdown                         4            119              0            376
JSON                             4              0              0            244
lex                              3             30             43            243
make                             4             63             84            127
-------------------------------------------------------------------------------
SUM:                           124           4463           3611          16991
-------------------------------------------------------------------------------

updated by 2024/3/25

benchmark 测试结果,采用TPC-B的测试模型。

初始化数据,scale=10, 最大的toad_accounts表有100万条数据,耗时如下:

insert into toad_accounts aid:1000000
load toad_accounts endTime: 2024-03-22 23:39:38
begin time:2024-03-22 08:26:39
end time  :2024-03-22 23:39:38
---------------------------------------------------------
load data finish.
total elapse time: 15h12m59s
create table elapse time: 1s
total of load table data elapse time: 15h12m58s
total of load toad_branches data elapse time:
total of load toad_tellers data elapse time:
total of load toad_accounts data elapse time: 15h12m58s

real    912m58.523s
user    13m1.022s
sys     15m15.532s

运行测试程序,执行了600s,tps=0.27。

Test process elapse(s) 594 tps=.27
---------------------------------------------------------
test end.............
begin time: 2024-03-24 08:44:00
  end time: 2024-03-24 08:54:02
Test process total runtimes(s)  :10m2s
Test process total transactions :168
Test process average tps=.27

updated by 2024/3/22

  1. 支持update set where基本语句,set中可以带有简单表达式;
  2. 支持多版本,以new->older的顺序进行串链,older版本放在undo数据块;
  3. 服务端以后台服务形式运行,客户端通过共享内存方式与服务端通信,可以支持多客户端单服务端;

updated by 2024/1/22

  • 功能变化
  1. 执行计划整理,增加投影节点,对于逻辑执行计划增加表达式计算;

updated by 2023/11/15

概述

主要更新了解析树,增加了查询树和执行计划树的生成,这有利于带条件SQL和复杂SQL处理,同时节点化各个关系代数运算后,有利于执行计划优化的实现。与此同时,更新了执行器,可以通过输入的计划树来执行,不再像以前通过SQL解析结果。

更新内容

下面将分别描述更新的内容:

  • 解析树

在词法分析、语法分析的过程中,会生成解析树,将用不同节点来表示各子句及存储它们传递的信息,这样有助于后续步骤的开展。在开发解析树时,尽可能与存储模型,数据库类型无关,希望做成一个通用的SQL解析器,它的输入就是SQL字符,输出就是解析树,不像现在每种类型的数据都有一个解析器。真正与数据库,存储模型相关的,是在下一步骤,也就是查询树。

  • 查询树

查询树,也叫做逻辑执行计划,它的主要是把SQL用关系代数进行表达,不同关系代数用不同节点表示,树的层次来表示节点之间的关系。当然在转换的过程中,会对SQL中的数据进行检查,比如表是否存在,表的元数据是否一致等;同时还会对一些SQL子句进行展开和替换,比如对sellect *, 将它的结果目标列替换为所有的属性列,这就是常说的重写的过程。当然,在真实数据库中,重写阶段还会对视图,规则等进行处理。

  • 计划树

计划树,也叫执行计划,或者叫做物理执行计划树,它是一个树状结构,每个节点的类型对应着真正要执行的动作。当然未来会在生成计划树之前,可以再增加一个优化器,对各种可能的SQL子句进行重新整理,提升子句,逻辑检查等,这将大大提升执行的效率。

  • 执行器

之前只对简单的SQL执行全表查询,更新后通过输入的物理执行计划,只需要递归的遍历执行计划的节点,按对应节点的类型执行相应动作即可,然后返回target对应的元组,更新后执行器更加通用,更加灵活。 未来增加索引,优化节点执行动作,增加节点执行接口,这些将变成局部修改。

  • 内存管理

之前对于动态内存申请并没有进行释放管理,本次增加了一个简单的内存管理,实现一种内存上下文的机制,在上下文使用完成后,会统一释放之前上下文中申请的内存。在程序退出时,会释放所有申请的内存。同时,为了方便调式,对于动态申请的内存,标定了内存的起始和结尾,这样可以方便探测到内存越界的情况。 这是一个公共组件,目前只是简单实现,后期与数据库的缓存管理一起进行模块级实现。

举例说明

下面举几个例子说明一下变化情况。

  • insert 语句

比如insert into tablename(...) values(...),(...); ,这条插入语句。

之前是通过遍历values子句,循环执行执行表的动作。

更新之后,values子句转换为一个虚似的表,在执行计划中,会有一个表扫描的节点,将返回的元组,再执行一个ModifyTable动作。这样就是一个通用的操作,未来很方便的支持insert into ... select ...这种形式,或者更复杂的形式。

  • select 语句 如上所述,之前只有一个表的全表扫描。现在对于表扫描,实现一种迭代器的扫描方式,每次可以返回下一个扫描到的元组。对于多表和带条件表达式时,增加控制节点,比如两个表的连接,会增加嵌套循环节点,先从外表中拿到一个元组,再从内表中依次扫描元组,如果两表都有元组,则输出结果,当内表遍历完时,从外表再扫描下一个元组,再从头遍历内表。

目前只有顺序扫描和嵌套循环两种实现路径。

支持情况

目前toadb支持的SQL语法有:

  • DDL

create table tableName(columnName type,...); drop table tableName; 创建表和删除表的SQL支持;

  • DML

insert into tablename(...) values(...),(...); 向表中插入数据,可以是一个values,也可以带多组值;

  • DQL

select columName,.. from tableName,.. where qual and qual or qual; 可以查询单个或多个表,带有条件(目前需要带一个条件),目前对条件并没有处理,只是简单的返回全表。当查询为多表时,会以积的形式返回结果,也就是两边非空的所有列。

updated by 2023/8/17

  • 物理存储模式的改变
  • 原来传统的行存储模式,也叫NSM(N-Arr storage model),每一行的数据是连续存放在一起;
  • 改变后的存储模式为行列混合存放模式 PAX(partition attributes across), 这结合了DSM(Decomposition storage model ) 和 NSM的优势;
  • 对四条SQL语句的适配
  • 创建表时,不仅创建表数据文件,还要创建分组管理文件,这两者是一一对应的
  • 在插入数据时,按分组查找空闲空间,如果没有时,先新建分组,再插入数据;
  • 查询时,按分组来扫描数据;当前只支持 select * 配匹;如果按列时,那么只从磁盘加载对应列的数据即可,这就是PAX模式的优势;
  • 删除表时,当然也是需要成对删除表数据文件和分组文件

updated by 2023/6/17

  • 支持四条SQL语句的执行,分别是

create table tablename(columnname type, ...);
drop table tablename;

insert into tablename(columnname,...) values(val...);
select columnname,... from tablename;

当前查找支持全部列表,不支持部分列名的过滤。

  • 支持的类型:

int/integer, 整型数字,如88,99等;
char, 单个字符,如'a','b'等,用‘’包括起来;
varchar, 字符串,也是用‘’包括;
bool,布尔值,用数字表示,0是false,非零为true,显示为F/T;

updated by 2023/5/26

完成flex/bison语法解析的框架,能够解析几个关键词,字符串,数字。

数据库SQL解析

分为两部分, 词法分析器scanner 语法分析器grammar

目前支持的SQL情况(tag: toadb_01):

  • 支持DDL: create table name (column type,..); drop table name;

  • 支持DML: select */ column, ... from tablename; insert into tablename(column...) values(...);

编译执行

安装编译工具

  • 需要安装gcc ,推荐8.5版本及以上
  • 安装 flex 词法解析器, 推荐2.6.1版本及以上
  • 安装 bsion 语法解析器, 推荐3.0.4版本及以上

编译词法与语法解析器

在toadb/src 当前目录下执行

make parser 如果没有做修改的话,可以跳过这一步,因为库中已经包含编译后的文件

编译数据库

在toadb/src 目录下执行

make

使用教程

在toadb/src 当前目录下执行

  • 开始运行
[senllang@hatch src]$ ./toadb-0-01 -D ./toadbtest
Welcome to Toad Database Manage System.
cwd :/mnt/sda1/data/gitdata/hatch/Coder/operator/toadb/src
datadir: [./toadbtest]
toadb>

-D 参数指定数据文件存放的目录,最后不需要加'/', 最好是绝对路径; 之后创建的表,对应的表文件就会存放在此目录下

  • 创建表
toadb> create table student(sid integer, sname varchar, ssex char);
  • 查询表
toadb> select sid,sname,ssex from student;
return 0 rows
  • 向表中插入数据
toadb> insert into student(sid,sname,ssex) values(1,'lilei','M');
  • 单行数据查询
toadb> select sid,sname,ssex from student;
|sid-|sname|ssex|
|   1|lilei|   M|
return 1 rows
  • 插入多行数据
toadb> insert into student(sid,sname,ssex) values(2,'hanmeimei','F');
toadb> insert into student(sid,sname,ssex) values(3,'richel','F');

注意: 目前数据中不能带有空格,这是在词法分析中的问题。 比如'han meimei'这样就会解析错误。

  • 查询多行数据
toadb>  select sid,sname,ssex from student;
|sid-|sname----|ssex|
|   1|    lilei|   M|
|   2|hanmeimei|   F|
|   3|   richel|   F|
return 3 rows
  • 删除表
toadb> drop table student;
  • 退出toadb
toadb> quit

最后输入quit 回车后,退出toadb client。

roadmap

0.5 版本开发

  • 功能 事务机制,保证事务的原子性,一致性;

  • 限制

0.4 版本开发

  • 功能 执行计划功能开发,在SQL解析后,重写查询树,生成执行计划树,执行器按照执行计划进行;

  • 限制

0.3 版本开发

  • 功能: 完善SQL解析,支持select ... from ... where ... 简单语句;、

  • 限制: 暂不支持 table.column带 .的格式;

0.2版本开发

功能:行列混合的存储模式

0.1版本开发

功能:支持创建表,删除表,插入数据,删除数据 数据库特性:客户端,词法/语法解析,SQL执行,数据字典,存储管理

开发指南

词法分析器和语法分析器使用了著名的开源工具flex和bison组合,flex能够按照正则表达式规则解析出关键字,标识符,以及其它字符串;而bison则通过它的语法推导规则,将各个部分解析成一个个表达式,每个表达式形成逆波兰式的抽象语法树。

词法分析器编写过程的注意事项:

词法分析器是向前看一个字符,所以对于规则在文件中的前后顺序就有要求。比如标识符字串如果放在操作符规则之后,那么在匹配时就会先匹配到操作符的分号,此时就会执行操作符的规则,而把前面的字符串会丢掉,把两者换个顺序就会优先匹配标识符,当下一个字符为分号时,先执行标识符的动作,再取分号进行分析。

语法分析器编写过程注意事项:

语法分析器在编写过程中遇到两个问题: (1)语法分析器规则里要使用当前表达式的值时,需要给表达式定义类型,默认是yylval为整型,如果是字符串时,就需通过%union定义,然后在token里绑定类型; (2)语法分析器第二部分规则定义部分,规则推导出的内容必须是词法分析器返回的内容,比如列名和类型中间是空格,但是空格在词法分析器中已经过滤掉了,就不能用空格来分隔了。

语法树生成

创建表的执行

执行过程涉及到执行模块和存储模块,还有数据字典。目前对于数据字典,简单存储在表文件中。

  • 执行模块,主要对流程和输入的信息进行组合;
  • 在存储模块,主要是文件的操作,如创建表文件,二进制信息的写入;

数据库目录定义

在程序启动时指定,使用-D参数;

  • 如果没有创建时,需要加init参数。
  • 如果已经存在的目录,需要进行校验;

表文件格式定义

文件以块为单位存储,第一个块是存储元数据信息,也就是数据字典内容;

  • 先是表信息,包括块大小,当前块号,列(列名,列类型)列表,有效块的记录:块数量;
木兰宽松许可证, 第2版 木兰宽松许可证, 第2版 2020年1月 http://license.coscl.org.cn/MulanPSL2 您对"软件"的复制、使用、修改及分发受木兰宽松许可证,第2版("本许可证")的如下条款的约束: 0. 定义 "软件" 是指由"贡献"构成的许可在"本许可证"下的程序和相关文档的集合。 "贡献" 是指由任一"贡献者"许可在"本许可证"下的受版权法保护的作品。 "贡献者" 是指将受版权法保护的作品许可在"本许可证"下的自然人或"法人实体"。 "法人实体" 是指提交贡献的机构及其"关联实体"。 "关联实体" 是指,对"本许可证"下的行为方而言,控制、受控制或与其共同受控制的机构,此处的控制是指有受控方或共同受控方至少50%直接或间接的投票权、资金或其他有价证券。 1. 授予版权许可 每个"贡献者"根据"本许可证"授予您永久性的、全球性的、免费的、非独占的、不可撤销的版权许可,您可以复制、使用、修改、分发其"贡献",不论修改与否。 2. 授予专利许可 每个"贡献者"根据"本许可证"授予您永久性的、全球性的、免费的、非独占的、不可撤销的(根据本条规定撤销除外)专利许可,供您制造、委托制造、使用、许诺销售、销售、进口其"贡献"或以其他方式转移其"贡献"。前述专利许可仅限于"贡献者"现在或将来拥有或控制的其"贡献"本身或其"贡献"与许可"贡献"时的"软件"结合而将必然会侵犯的专利权利要求,不包括对"贡献"的修改或包含"贡献"的其他结合。如果您或您的"关联实体"直接或间接地,就"软件"或其中的"贡献"对任何人发起专利侵权诉讼(包括反诉或交叉诉讼)或其他专利维权行动,指控其侵犯专利权,则"本许可证"授予您对"软件"的专利许可自您提起诉讼或发起维权行动之日终止。 3. 无商标许可 "本许可证"不提供对"贡献者"的商品名称、商标、服务标志或产品名称的商标许可,但您为满足第4条规定的声明义务而必须使用除外。 4. 分发限制 您可以在任何媒介中将"软件"以源程序形式或可执行形式重新分发,不论修改与否,但您必须向接收者提供"本许可证"的副本,并保留"软件"中的版权、商标、专利及免责声明。 5. 免责声明与责任限制 "软件"及其中的"贡献"在提供时不带任何明示或默示的担保。在任何情况下,"贡献者"或版权所有者不对任何人因使用"软件"或其中的"贡献"而引发的任何直接或间接损失承担责任,不论因何种原因导致或者基于何种法律理论,即使其曾被建议有此种损失的可能性。 6. 语言 "本许可证"以中英文双语表述,中英文版本具有同等法律效力。如果中英文版本存在任何冲突不一致,以中文版为准。 条款结束 如何将木兰宽松许可证,第2版,应用到您的软件 如果您希望将木兰宽松许可证,第2版,应用到您的新软件,为了方便接收者查阅,建议您完成如下三步: 1, 请您补充如下声明中的空白,包括软件名、软件的首次发表年份以及您作为版权人的名字; 2, 请您在软件包的一级目录下创建以"LICENSE"为名的文件,将整个许可证文本放入该文件中; 3, 请将如下声明文本放入每个源文件的头部注释中。 Copyright (c) 2023 [name of copyright holder] [Software Name] is licensed under Mulan PSL v2. You can use this software according to the terms and conditions of the Mulan PSL v2. You may obtain a copy of Mulan PSL v2 at: http://license.coscl.org.cn/MulanPSL2 THIS SOFTWARE IS PROVIDED ON AN "AS IS" BASIS, WITHOUT WARRANTIES OF ANY KIND, EITHER EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO NON-INFRINGEMENT, MERCHANTABILITY OR FIT FOR A PARTICULAR PURPOSE. See the Mulan PSL v2 for more details. Mulan Permissive Software License,Version 2 Mulan Permissive Software License,Version 2 (Mulan PSL v2) January 2020 http://license.coscl.org.cn/MulanPSL2 Your reproduction, use, modification and distribution of the Software shall be subject to Mulan PSL v2 (this License) with the following terms and conditions: 0. Definition Software means the program and related documents which are licensed under this License and comprise all Contribution(s). Contribution means the copyrightable work licensed by a particular Contributor under this License. Contributor means the Individual or Legal Entity who licenses its copyrightable work under this License. Legal Entity means the entity making a Contribution and all its Affiliates. Affiliates means entities that control, are controlled by, or are under common control with the acting entity under this License, 'control' means direct or indirect ownership of at least fifty percent (50%) of the voting power, capital or other securities of controlled or commonly controlled entity. 1. Grant of Copyright License Subject to the terms and conditions of this License, each Contributor hereby grants to you a perpetual, worldwide, royalty-free, non-exclusive, irrevocable copyright license to reproduce, use, modify, or distribute its Contribution, with modification or not. 2. Grant of Patent License Subject to the terms and conditions of this License, each Contributor hereby grants to you a perpetual, worldwide, royalty-free, non-exclusive, irrevocable (except for revocation under this Section) patent license to make, have made, use, offer for sale, sell, import or otherwise transfer its Contribution, where such patent license is only limited to the patent claims owned or controlled by such Contributor now or in future which will be necessarily infringed by its Contribution alone, or by combination of the Contribution with the Software to which the Contribution was contributed. The patent license shall not apply to any modification of the Contribution, and any other combination which includes the Contribution. If you or your Affiliates directly or indirectly institute patent litigation (including a cross claim or counterclaim in a litigation) or other patent enforcement activities against any individual or entity by alleging that the Software or any Contribution in it infringes patents, then any patent license granted to you under this License for the Software shall terminate as of the date such litigation or activity is filed or taken. 3. No Trademark License No trademark license is granted to use the trade names, trademarks, service marks, or product names of Contributor, except as required to fulfill notice requirements in section 4. 4. Distribution Restriction You may distribute the Software in any medium with or without modification, whether in source or executable forms, provided that you provide recipients with a copy of this License and retain copyright, patent, trademark and disclaimer statements in the Software. 5. Disclaimer of Warranty and Limitation of Liability THE SOFTWARE AND CONTRIBUTION IN IT ARE PROVIDED WITHOUT WARRANTIES OF ANY KIND, EITHER EXPRESS OR IMPLIED. IN NO EVENT SHALL ANY CONTRIBUTOR OR COPYRIGHT HOLDER BE LIABLE TO YOU FOR ANY DAMAGES, INCLUDING, BUT NOT LIMITED TO ANY DIRECT, OR INDIRECT, SPECIAL OR CONSEQUENTIAL DAMAGES ARISING FROM YOUR USE OR INABILITY TO USE THE SOFTWARE OR THE CONTRIBUTION IN IT, NO MATTER HOW IT'S CAUSED OR BASED ON WHICH LEGAL THEORY, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGES. 6. Language THIS LICENSE IS WRITTEN IN BOTH CHINESE AND ENGLISH, AND THE CHINESE VERSION AND ENGLISH VERSION SHALL HAVE THE SAME LEGAL EFFECT. IN THE CASE OF DIVERGENCE BETWEEN THE CHINESE AND ENGLISH VERSIONS, THE CHINESE VERSION SHALL PREVAIL. END OF THE TERMS AND CONDITIONS How to Apply the Mulan Permissive Software License,Version 2 (Mulan PSL v2) to Your Software To apply the Mulan PSL v2 to your work, for easy identification by recipients, you are suggested to complete following three steps: i. Fill in the blanks in following statement, including insert your software name, the year of the first publication of your software, and your name identified as the copyright owner; ii. Create a file named "LICENSE" which contains the whole context of this License in the first directory of your software package; iii. Attach the statement to the appropriate annotated syntax at the beginning of each source file. Copyright (c) 2023 [name of copyright holder] [Software Name] is licensed under Mulan PSL v2. You can use this software according to the terms and conditions of the Mulan PSL v2. You may obtain a copy of Mulan PSL v2 at: http://license.coscl.org.cn/MulanPSL2 THIS SOFTWARE IS PROVIDED ON AN "AS IS" BASIS, WITHOUT WARRANTIES OF ANY KIND, EITHER EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO NON-INFRINGEMENT, MERCHANTABILITY OR FIT FOR A PARTICULAR PURPOSE. See the Mulan PSL v2 for more details.

简介

toad database system,“癞蛤蟆”数据库,正如其名,我们想吃天鹅肉,它是一款从零完全开始手写的数据库,同时在每做一步都会有教程和分析,期待更多人加入,一起同行。 中文教程地址 https://senllang.blog.csdn.net/category_12338586.html, 介绍数据库整体架构,SQL执行流程,重点对于存储架构,SQL解析,SQL执行进行了重点分析。 展开 收起
C 等 5 种语言
MulanPSL-2.0
取消

发行版

暂无发行版

贡献者

全部

近期动态

加载更多
不能加载更多了
C
1
https://gitee.com/zpzhao/toadb.git
git@gitee.com:zpzhao/toadb.git
zpzhao
toadb
toadb
master

搜索帮助

53164aa7 5694891 3bd8fe86 5694891