神奇的 SQL 之温柔的陷阱 → 三值逻辑 与 NULL !

  • 时间:
  • 浏览:0
  • 来源:大发pk10_pk10人工计划_大发pk10人工计划

前言

  开心一刻 

     有四个 中国小孩参加国外的脱口秀节目,可能语言不通,于是找了有四个 翻译。

    主持人问:“Who is your favorite singer ?”

    翻译:”你最喜欢哪个歌手啊 ?”

    小孩兴奋地回答:”Michael Jackson”

    翻译转身对主持人说:”迈克尔-杰克逊”

    主持人看着翻译:"是我不好哪此 ?"

    电视机前的观众:"我为社 一阵一阵蒙?" 

NULL

  NULL 用于表示缺失的值或遗漏的未知数据,有的是一种具体类型的值。数据表中的 NULL 值表示该值所处的字段为空,值为 NULL 的字段还不可不可否 值,尤其要明白的是:NULL 值与 0 可能空字符串是不同的。

  一种 NULL

    这人说法当让我们 可能会随便说说 很奇怪,可能 SQL 里只所处一种 NULL 。然而在讨论 NULL 时,当让我们 一般一定会将它分成一种类型来思考:“未知”(unknown)和“不适用”(not applicable,inapplicable)。

    以“问你戴墨镜的人眼睛是哪此颜色”这人情况报告为例,这自己的眼睛肯定是有颜色的,为社 让可能他不摘掉眼镜,别人就问你他的眼睛是哪此颜色。这就叫作未知。而“问你冰箱的眼睛是哪此颜色”则属于“不适用”。可能冰箱根本就还不可不可否 眼睛,所以“眼睛的颜色”这人属性之所以适用于冰箱。“冰箱的眼睛的颜色”这人说法和“圆的体积”“男性的分娩次数”一样,有的是还不可不可否 意义的。平时,当让我们 习惯了说“问你”,为社 让“问你”也分所以种。“不适用”这人情况报告下的 NULL ,在语义上更接近于“无意义”,而有的是“不选泽 ”。这里总结一下:“未知”指的是“随便说说 现在问你,但去掉 许多条件后就还不能知道”;而“不适用”指的是“无论为社 努力都无法知道”。

    关系模型的伟大的伟大的造出 E.F. Codd 最先给出了这人分类。下图是他对“丢失的信息”的分类

  为哪此需用写成“IS NULL”,而有的是“= NULL”

    我相信不少人有原先的困惑吧,尤其是相信刚学 SQL 的小伙伴。当让我们 来看个具体的案例,假设当让我们 有如下表以及数据

DROP TABLE IF EXISTS t_sample_null;
CREATE TABLE t_sample_null (
    id INT(11) unsigned NOT NULL AUTO_INCREMENT COMMENT '自增主键',
    name VARCHAR(30) NOT NULL COMMENT '名称',
    remark VARCHAR(30) COMMENT '备注',
    primary key(id)
) COMMENT 'NULL样例';

INSERT INTO t_sample_null(name, remark)
VALUES('zhangsan', '张三'),('李四', NULL);

    当让我们 要查询备注为 NULL 的记录(为 NULL 这人叫法一种是不对的,所以 当让我们 日常中可能叫习惯了,具体往下看),为社 查,所以新手会写出原先的 SQL

-- SQL 不报错,但查没得结果
SELECT * FROM t_sample_null WHERE remark = NULL;

    执行时不报错,为社 让查没得当让我们 要我的结果, 这是为哪此了 ? 这人问题当让我们 先放着,当让我们 往下看

三值逻辑

  这人三值逻辑有的是三目运算,指的是有四个 逻辑值,没办法 人可能有问题了,逻辑值有的是还不可不可否 真(true)和假(false)吗,哪来的第有四个 ? 说这话时当让我们 需用注意所处的环境,在主流的编程语言中(C、JAVA、Python、JS等)中,逻辑值随便说说 还不可不可否 2 个,但在 SQL 中却所处第有四个 逻辑值:unknown。这人阵一阵类式当让我们 平时所说的:对、错、问你。

  逻辑值 unknown 和作为 NULL 的一种的 UNKNOWN (未知)是不同的东西。前者是明确的布尔型的逻辑值,后者既有的是值有的是的是变量。为了便于区分,前者采用小写字母 unknown ,后者用大写字母 UNKNOWN 来表示。为了让当让我们 理解两者的不同,当让我们 来看有四个 x=x 原先的简单等式。x 是逻辑值 unknown 时,x=x 被判断为 true ,而 x 是 UNKNOWN 时被判断为 unknown 

-- 这人是明确的逻辑值的比较
unknown = unknown → true

-- 这人大约NULL = NULL
UNKNOWN = UNKNOWN → unknown

   三值逻辑的逻辑值表

    NOT

    AND

    OR

    图中淡蓝色次责是三值逻辑中独有的运算,这在二值逻辑中是还不可不可否 的。其余的 SQL 谓词全部都能由这有四个 逻辑运算组合而来。从这人意义上讲,这人几个逻辑表还不能说是 SQL 的母体(matrix)。

    NOT 励志的话 ,可能逻辑值表比较简单,所以很好记;为社 让对于 AND 和 OR,可能组合出来的逻辑值较多,所以全部记住非常困难。为了便于记忆,请注意这有四个 逻辑值之间有下面原先的优先级顺序。

      AND 的情况报告: false > unknown > true

      OR 的情况报告: true > unknown > false

    优先级高的逻辑值会决定计算结果。类式 true AND unknown ,可能 unknown 的优先级更高,所以结果是 unknown 。而 true OR unknown 励志的话 ,可能 true 优先级更高,所以结果是 true 。记住这人顺序后就能更方便地进行三值逻辑运算了。一阵一阵需用记住的是,当 AND 运算中含 晒 unknown 时,结果肯定无需是 true (反之,可能AND 运算结果为 true ,则参与运算的双方需用都为 true )。

-- 假设 a = 2, b = 5, c = NULL,下列表达式的逻辑值如下

a < b AND b > c  → unknown
a > b OR b < c   → unknown
a < b OR b < c   → true
NOT (b <> c)     → unknown

  “IS NULL” 而非 “= NULL”

    当让我们 再回到问题:为哪此需用写成“IS NULL”,而有的是“= NULL”

    对 NULL 使用比较谓词后得到的结果无缘无故 unknown 。而查询结果只会中含 WHERE 子句里的判断结果为 true 的行,无需中含 判断结果为 false 和 unknown 的行。不所以 等号,对 NULL 使用许多比较谓词,结果有的是的是一样的。所以无论 remark 是有的是 NULL ,比较结果有的是 unknown ,还不可不可否 永远还不可不可否 结果返回。以下的式子一定会被判为 unknown

-- 以下的式子一定会被判为 unknown
= NULL
> NULL
< NULL
<> NULL
NULL = NULL

    还不可不可否 ,为哪此对 NULL 使用比较谓词后得到的结果永远可能为真呢?这是可能,NULL 既有的是值有的是的是变量。NULL 所以 有四个 表示“还不可不可否 值”的标记,而比较谓词只适用于值。为社 让,对之所以值的 NULL 使用比较谓词原先所以 还不可不可否 意义的。“列的值为 NULL ”、“NULL 值” 原先的说法一种所以 错误的。可能 NULL有的是值,所以没得定义域(domain)中。相反,可能没办法 人认为 NULL 是值,还不可不可否 当让我们 还不能倒过来想一下:它是哪此类型的值?关系数据库中所处的值必然属于一种类型,比如字符型或数值型等。所以,要是 NULL 是值,还不可不可否 它就需用属于一种类型。

    NULL 容易被认为是值的原因 有有四个 。第有四个 是高级编程语言中间,NULL 被定义为了有四个 常量(所以语言将其定义为了整数0),这原因 了当让我们 的混淆。为社 让,SQL 里的 NULL 和许多编程语言里的 NULL 是全部不同的东西。第四个 原因 是,IS NULL 原先的谓词是由有四个 单词构成的,所以当让我们 容易把 IS 当作谓词,而把 NULL 当作值。一阵一阵是 SQL 里还有 IS TRUE 、IS FALSE 原先的谓词,当让我们 由此类推,从而原先认为有的是的是还不可不可否 道理。为社 让正如讲解标准 SQL 的书里提醒当让我们 注意的那样,当让我们 应该把 IS NULL 看作是有四个 谓词。为社 让,写成 IS_NULL 原先是我不好更大约。

温柔的陷阱

  比较谓词和 NULL

    排中律不成立

      排中律指同有四个 思维过程中,有四个 相互矛盾的思想还不能 同假,必有一真,即“要么A要么非A”

      假设当让我们 有学生表:t_student

DROP TABLE IF EXISTS t_student;
CREATE TABLE t_student (
    id INT(11) unsigned NOT NULL AUTO_INCREMENT COMMENT '自增主键',
    name VARCHAR(30) NOT NULL COMMENT '名称',
    age INT(3) COMMENT '年龄',
    remark VARCHAR(30) NOT NULL DEFAULT '' COMMENT '备注',
    primary key(id)
) COMMENT '学生信息';

INSERT INTO t_student(name, age)
VALUE('zhangsan', 25),('wangwu', 30),('bruce', 32),('yzb', NULL),('boss', 18);

SELECT * FROM t_student;
View Code

      表中数据 yzb 的 age 是 NULL,也所以 说 yzb 的年龄未知。在现实世界里,yzb 是 20 岁,可能有的是 20 岁,二者必居其一,这毫无问题是有四个 真命题。还不可不可否 在 SQL 的世界里了,排中律还适用吗? 当让我们 来看有四个 SQL 

SELECT * FROM t_student
WHERE age = 20 OR age <> 20;

      咋一看,这不所以 查询表中全部记录吗? 当让我们 来看下实际结果

      yzb 没查出来,这是为哪此了?当让我们 来分析下,yzb 的 age 是 NULL,还不可不可否 这条记录的判断步骤如下

-- 1. 约翰年龄是 NULL (未知的 NULL !)
SELECT *
FROM t_student
WHERE age = NULL
OR age <> NULL;

-- 2. 对 NULL 使用比较谓词后,结果为unknown
SELECT *
FROM t_student
WHERE unknown
OR unknown;

-- 3.unknown OR unknown 的结果是unknown (参考三值逻辑的逻辑值表)
SELECT *
FROM t_student
WHERE unknown;

      SQL 励志的话 的查询结果里还不可不可否 判断结果为 true 的行。要想让 yzb 再次老出在结果里,需用去掉 下面原先的 “第 3 个条件”

-- 去掉

 3 个条件:年龄是20 岁,可能有的是20 岁,可能年龄未知
SELECT * FROM t_student
WHERE age = 20 
    OR age <> 20
    OR age IS NULL;

    CASE 表达式和 NULL

      简单 CASE 表达式如下

CASE col_1
    WHEN = 1 THEN 'o'
    WHEN NULL THEN 'x'
END

      这人 CASE 表达式一定无需返回 ×。这是可能,第四个 WHEN 子句是 col_1 = NULL 的缩写形式。正如当让我们 所知,这人式子的逻辑值永远是 unknown ,为社 让 CASE 表达式的判断最好的措施与 WHERE 子句一样,只认可逻辑值为 true 的条件。正确的写法是像下面原先使用搜索 CASE 表达式

CASE WHEN col_1 = 1 THEN 'o'
    WHEN col_1 IS NULL THEN 'x'
END

  NOT IN 和 NOT EXISTS 有的是等价的

    当让我们 在对 SQL 励志的话 进行性能优化时,无缘无故用到的有四个 技巧是将 IN 改写成 EXISTS ,这是等价改写,并还不可不可否 哪此问题。为社 让,将 NOT IN 改写成 NOT EXISTS 时,结果之所以一样。

    当让我们 来看个例子,当让我们 有如下两张表:t_student_A 和 t_student_B,分别表示 A 班学生与 B 班学生 

DROP TABLE IF EXISTS t_student_A;
CREATE TABLE t_student_A (
    id INT(11) unsigned NOT NULL AUTO_INCREMENT COMMENT '自增主键',
    name VARCHAR(30) NOT NULL COMMENT '名称',
    age INT(3) COMMENT '年龄',
    city VARCHAR(30) NOT NULL COMMENT '城市',
    remark VARCHAR(30) NOT NULL DEFAULT '' COMMENT '备注',
    primary key(id)
) COMMENT '学生信息';

INSERT INTO t_student_A(name, age, city)
VALUE
('zhangsan', 25,'深圳市'),('wangwu', 30, '广州市'),
('bruce', 32, '北京市'),('yzb', NULL, '深圳市'),
('boss', 43, '深圳市');

DROP TABLE IF EXISTS t_student_B;
CREATE TABLE t_student_B (
    id INT(11) unsigned NOT NULL AUTO_INCREMENT COMMENT '自增主键',
    name VARCHAR(30) NOT NULL COMMENT '名称',
    age INT(3) COMMENT '年龄',
    city VARCHAR(30) NOT NULL COMMENT '城市',
    remark VARCHAR(30) NOT NULL DEFAULT '' COMMENT '备注',
    primary key(id)
) COMMENT '学生信息';

INSERT INTO t_student_B(name, age, city)
VALUE
('马化腾', 45, '深圳市'),('马三', 25, '深圳市'),
('马云', 43, '杭州市'),('李彦宏', 41, '深圳市'),
('年轻人', 25, '深圳市');

SELECT * FROM t_student_A;
SELECT * FROM t_student_B;
View Code

    需求:查询与 A  班住在深圳的学生年龄不同的 B 班学生,也所以 查询出 :马化腾 和 李彦宏,这人 SQL 该怎么可否写,像原先?

-- 查询与 A  班住在深圳的学生年龄不同的 B 班学生 ?
SELECT * FROM t_student_B
WHERE age NOT IN (
    SELECT age FROM t_student_A 
    WHERE city = '深圳市'
);

    当让我们 来看下执行结果

    当让我们 发现结果是空,查询还不能 任何数据,这是为哪此了 ?这里 NULL 又以后以后开始作怪了,当让我们 一步一步来看看究竟所处了哪此

    还不能看出,在进行了一系列的转换后,还不可不可否 根小记录在 WHERE 子句里被判断为 true 。也所以 说,可能 NOT IN 子查询中用到的表里被选泽 的列中所处 NULL ,则 SQL 励志的话 整体的查询结果永远是空。这是很可怕的问题!

    为了得到正确的结果,当让我们 需用使用 EXISTS 谓词

-- 正确的SQL 励志的话

:马化腾和李彦宏将被查询到
SELECT * FROM t_student_B B
WHERE NOT EXISTS ( 
    SELECT * FROM t_student_A A
    WHERE B.age = A.age
    AND A.city = '深圳市' 
);

    执行结果如下

    同样地,当让我们 再来一步一步地看看这段 SQL 是怎么可否处理年龄为 NULL 的行的

    也所以 说,yzb 被作为 “与任何人的年龄有的是同的人” 来处理了。EXISTS 只会返回 true 可能false,永远无需返回 unknown。为社 让有的是了 IN 和 EXISTS 还不能互相替换使用,而 NOT IN和 NOT EXISTS 却不还不能互相替换的混乱问题。

  还有许多许多的陷阱,比如:限定谓词和 NULL、限定谓词和极值函数有的是等价的、聚合函数和 NULL 等等。

总结

  1、NULL 用于表示缺失的值或遗漏的未知数据,有的是一种具体类型的值,还不能 对其使用谓词

  2、对 NULL 使用谓词后的结果是 unknown,unknown 参与到逻辑运算时,SQL 的运行会和预想的不一样

  3、 IS NULL 整个是有四个 谓词,而有的是:IS 是谓词,NULL 是值;类式的还有 IS TRUE、IS FALSE

  4、要想处理 NULL 带来的各种问题,最佳最好的措施应该是往表里去掉 NOT NULL 约束来尽力排除 NULL

    我的项目中含 个硬性规定:所有字段需用是 NOT NULL,建表的以后就去掉 此约束

参考

  《SQL进阶教程》

navicat

  https://gitee.com/youzhibing/tools/blob/master/NavicatforMySQL.rar