基础概念
函数依赖:
- 函数依赖(Functional Dependency)表示在数据库表中的两个属性之间的关系,其中一个属性的值决定另一个属性的值。
- 用符号表示为 X -> Y,其中 X 是决定属性 Y 的集合。
非平凡的函数依赖:
- 非平凡的函数依赖是指 X -> Y,其中 Y 不包含于 X,这意味着 X 对 Y 有真正的函数依赖,而不是简单的平凡依赖。
- 如果Y包含于X,则称X对Y是平凡的函数依赖。
完全函数依赖:
- 完全函数依赖表示在属性组合 X 中的每个属性都对属性 Y 有函数依赖,而且没有 X 中的任何真子集可以决定 Y。
- 如果存在 X -> Y,并且对于 X 中的每个属性子集 X’,X’ -> Y 都不成立,则称 Y 对 X 具有完全函数依赖。
部分函数依赖:
- 部分函数依赖是指属性 Y 依赖于属性组合 X 中的一部分,而不是全部属性。换句话说,存在 X -> Y 且存在 X’ 是 X 的真子集,X’ -> Y 也成立。
- 部分函数依赖通常需要通过规范化来消除,以维护数据库的一致性。
传递依赖:
- 传递依赖发生在 X -> Y 和 Y -> Z 两个函数依赖条件下,其中 X -> Z 成立。这意味着属性 Z 对属性 X 具有传递依赖。
- 传递依赖是规范化中的一个关键概念,通常需要考虑来减少数据表中的冗余和提高数据库的性能。
主属性和候选码:
- 主属性是包含在候选键(候选码)中的属性,这些属性能够唯一标识数据库表中的每个记录。
- 候选码是具有唯一性的属性组合,可以用来唯一标识表中的记录。
全码:
- 全码是指属性组合中包含了所有的属性,这些属性组合不仅是候选码,而且是全码,因为它们可以唯一标识表中的记录。
范式
第一范式 (1NF):
第一范式是数据库中数据组织的最基本要求,它需要确保每个列的值都是不可再分的原子值,也就是每一列都不能包含多个值或数据的数组。
条件:
- 每个列都必须包含原子值,不能包含重复的数据。
- 所有列都应该有唯一的列名,以避免歧义。
缺点: - 数据冗余问题:因为每行都包含完整的数据,可能会导致数据冗余,增加存储需求。
- 更新异常:如果需要更新多行中的相同数据,必须确保更新所有行,否则会导致数据不一致性。
第二范式 (2NF):
第二范式建立在第一范式的基础上,它要求表中需要消除非主属性对候选码的部分函数依赖。
条件:
- 数据表必须符合第一范式。
- 所有非主键列必须完全依赖于主键。
缺点:
- 增加复杂性:在实践中,实现第二范式可能需要多个表,这增加了数据库查询的复杂性。
- 可能存在数据冗余问题,尤其是在多对多关系的情况下。
第三范式 (3NF):
第三范式进一步规范了数据库表的设计,要求表中需要消除非主属性对候选码的传递函数依赖。
条件:
- 数据表必须符合第一范式和第二范式。
- 非主键列之间不能相互依赖。
缺点:
- 数据冗余问题仍然可能存在,尤其在大型数据库中。
- 查询时需要多次连接表,可能影响性能。
巴斯-科德范式 (BCNF):
BCNF是对第三范式的进一步规范,它强调了主键的重要性,消除主属性对候选码的部分和传递函数依赖。
条件:
- 数据表必须符合第一范式和第二范式。
- 每个非主键列必须完全依赖于主键,而不是部分依赖。
- 主键之间不能存在函数依赖关系。
缺点: - 可能需要进一步规范化数据,增加表的数量,复杂性以及查询的复杂性。
- BCNF的目标是确保数据的完整性和一致性,通过消除部分依赖和传递依赖来减少数据冗余。
###第四范式 (4NF):
第四范式是对多值依赖的规范化,它处理多个独立多值属性的情况。多值依赖指的是,一个表的某些列的值可以取多个值,而这些值与其他列的值无关。
条件:
- 数据表必须符合BCNF。
- 表中的任何非主键列不可同时依赖于主键的任何一部分。
缺点: - 需要更多的表和关联,可能增加复杂性。
- 第四范式的目标是处理多值依赖,确保数据表不包含重复信息,以保持数据库的一致性。