多表连接查询

    此节将详细叙述 Join 的连接类型。

    内连接的连接结果只返回匹配连接条件的行。

    例如,想要知道编写过最多书的作家是谁,需要将作家基础信息表 authors 与书籍作者表 book_authors 进行连接。

    • SQL
    • Java

    在下面的 SQL 语句当中,通过关键字 JOIN 声明要将左表 authors 和右表 book_authors 的数据行以内连接的方式进行连接,连接条件为 a.id = ba.author_id,那么连接的结果集当中将只会包含满足连接条件的行。假设有一个作家没有编写过任何书籍,那么他在 authors 表当中的记录将无法满足连接条件,因此也不会出现在结果集当中。

    查询结果如下:

    1. +------------+----------------+-------+
    2. | author_id | author_name | books |
    3. +------------+----------------+-------+
    4. | 431192671 | Emilie Cassin | 7 |
    5. | 865305676 | Nola Howell | 7 |
    6. | 572207928 | Lamar Koch | 6 |
    7. | 3894029860 | Elijah Howe | 6 |
    8. | 1150614082 | Cristal Stehr | 6 |
    9. | 4158341032 | Roslyn Rippin | 6 |
    10. | 2430691560 | Francisca Hahn | 6 |
    11. | 3346415350 | Leta Weimann | 6 |
    12. | 1395124973 | Albin Cole | 6 |
    13. | 2768150724 | Caleb Wyman | 6 |
    14. +------------+----------------+-------+
    15. 10 rows in set (0.01 sec)

    在 Java 中内连接的示例如下:

    1. public List<Author> getTop10AuthorsOrderByBooks() throws SQLException {
    2. List<Author> authors = new ArrayList<>();
    3. try (Connection conn = ds.getConnection()) {
    4. Statement stmt = conn.createStatement();
    5. ResultSet rs = stmt.executeQuery("""
    6. SELECT ANY_VALUE(a.id) AS author_id, ANY_VALUE(a.name) AS author_name, COUNT(ba.book_id) AS books
    7. FROM authors a
    8. GROUP BY ba.author_id
    9. ORDER BY books DESC
    10. LIMIT 10;
    11. """);
    12. while (rs.next()) {
    13. author.setId(rs.getLong("author_id"));
    14. author.setName(rs.getString("author_name"));
    15. author.setBooks(rs.getInt("books"));
    16. authors.add(author);
    17. }
    18. }
    19. return authors;
    20. }

    左外连接会返回左表中的所有数据行,以及右表当中能够匹配连接条件的值,如果在右表当中没有找到能够匹配的行,则使用 NULL 填充。

    Left Outer Join

    例如,在 Bookshop 应用的首页,希望展示一个带有平均评分的最新书籍列表。在这种情况下,最新的书籍可能是还没有经过任何人评分的,如果使用内连接就会导致这些无人评分的书籍信息被过滤掉,而这并不是期望的结果。

    • SQL
    • Java

    在下面的 SQL 语句当中,通过 LEFT JOIN 关键字声明左表 books 将以左外连接的方式与右表 ratings 进行连接,从而确保 books 表当中的所有记录都能得到返回。

    查询结果如下:

    1. +------------+---------------------------------+---------------+
    2. | book_id | book_title | average_score |
    3. +------------+---------------------------------+---------------+
    4. | 3438991610 | The Documentary of lion | 2.7619 |
    5. | 3897175886 | Torey Kuhn | 3.0000 |
    6. | 1256171496 | Elmo Vandervort | 2.5500 |
    7. | 1036915727 | The Story of Munchkin | 2.0000 |
    8. | 270254583 | Tate Kovacek | 2.5000 |
    9. | 1280950719 | Carson Damore | 3.2105 |
    10. | 1098041838 | The Documentary of grasshopper | 2.8462 |
    11. | 1476566306 | The Adventures of Vince Sanford | 2.3529 |
    12. | 4036300890 | The Documentary of turtle | 2.4545 |
    13. | 1299849448 | Antwan Olson | 3.0000 |
    14. +------------+---------------------------------+---------------+
    15. 10 rows in set (0.30 sec)

    看起来最新出版的书籍已经有了很多评分,为了验证上面所说的,通过 SQL 语句把 The Documentary of lion 这本书的所有评分给删掉:

    1. DELETE FROM ratings WHERE book_id = 3438991610;

    再次查询,你会发现 The Documentary of lion 这本书依然出现在结果集当中,但是通过右表 ratingsscore 列计算得到的 average_score 列被填上了 NULL

    如果改成使用的是内连接 JOIN 结果会怎样?这就交给你来尝试了。

    在 Java 中左外连接的示例如下:

    1. public List<Book> getLatestBooksWithAverageScore() throws SQLException {
    2. Statement stmt = conn.createStatement();
    3. ResultSet rs = stmt.executeQuery("""
    4. SELECT b.id AS book_id, ANY_VALUE(b.title) AS book_title, AVG(r.score) AS average_score
    5. FROM books b
    6. LEFT JOIN ratings r ON b.id = r.book_id
    7. GROUP BY b.id
    8. ORDER BY b.published_at DESC
    9. LIMIT 10;
    10. """);
    11. while (rs.next()) {
    12. Book book = new Book();
    13. book.setId(rs.getLong("book_id"));
    14. book.setTitle(rs.getString("book_title"));
    15. book.setAverageScore(rs.getFloat("average_score"));
    16. books.add(book);
    17. }
    18. }
    19. return books;
    20. }

    右外连接返回右表中的所有记录,以及左表当中能够匹配连接条件的值,没有匹配的值则使用 NULL 填充。

    TiDB 在 SQL 语法层面上不支持 LEFT SEMI JOIN table_name,但是在执行计划层面,子查询相关的优化会将 semi join 作为改写后的等价 JOIN 查询默认的连接方式。

    在显式声明连接的 JOIN 语句作为 SQL 标准出现之前,在 SQL 语句当中可以通过 FROM t1, t2 子句来连接两张或多张表,通过 WHERE t1.id = t2.id 子句来指定连接的条件。你可以将其理解为隐式声明的连接,隐式连接会使用内连接的方式进行连接。

    TiDB 支持下列三种常规的表连接算法,优化器会根据所连接表的数据量等因素来选择合适的 Join 算法去执行。你可以通过 EXPLAIN 语句来查看查询使用了何种算法进行 Join。

    如果发现 TiDB 的优化器没有按照最佳的 Join 算法去执行。你也可以通过 Optimizer Hints 强制 TiDB 使用更好的 Join 算法去执行。

    例如,假设上文当中的左连接查询的示例 SQL 使用 Hash Join 算法执行更快,而优化器并没有选择这种算法,你可以在 SELECT 关键字后面加上 Hint /*+ HASH_JOIN(b, r) */(注意:如果表名添加了别名,Hint 当中也应该使用表别名)。

    1. EXPLAIN SELECT /*+ HASH_JOIN(b, r) */ b.id AS book_id, ANY_VALUE(b.title) AS book_title, AVG(r.score) AS average_score
    2. FROM books b
    3. LEFT JOIN ratings r ON b.id = r.book_id
    4. GROUP BY b.id
    5. ORDER BY b.published_at DESC
    6. LIMIT 10;

    Join 算法相关的 Hints:

    在实际的业务场景中,多个表的 Join 语句是很常见的,而 Join 的执行效率和各个表参与 Join 的顺序有关。TiDB 使用 Join Reorder 算法来确定多个表进行 Join 的顺序。

    当优化器选择的 Join 顺序并不够好时,你可以使用 语法让 TiDB 强制按照 FROM 子句中所使用的表的顺序做联合查询。

    关于该算法的实现细节和限制你可以通过查看Join Reorder 算法简介章节进行了解。