sql中union主要用于合并多个select语句的结果集并去除重复行,而union all则保留所有行包括重复数据。1. 合并相似数据:如使用union将结构相同的customers_us和customers_eu表中的客户信息合并,自动去除customer_id为1的重复记录;2. 数据清洗和报表生成:如通过union all将月度和季度销售数据整合成统一报表,用sales_type字段区分数据来源;3. 数据迁移和整合:如将old_db1.customers与old_db2.users的数据通过字段映射插入到新结构的new_data_warehouse.customers表中,实现不同结构数据的统一存储。
SQL中UNION主要用于合并多个SELECT语句的结果集,去除重复行。它能把结构相似的数据整合在一起,方便查询和分析。UNION ALL则保留所有行,包括重复的。
结果集合并的3种典型场景:
合并相似数据,数据清洗和报表生成,以及数据迁移和整合。
如何使用UNION合并来自不同表的相似数据?
假设我们有两个表:customers_us和customers_eu,分别存储美国和欧洲的客户信息。这两个表的结构相同,但数据来源不同。
CREATE TABLE customers_us ( customer_id INT PRIMARY KEY, first_name VARCHAR(50), last_name VARCHAR(50), email VARCHAR(100) ); CREATE TABLE customers_eu ( customer_id INT PRIMARY KEY, first_name VARCHAR(50), last_name VARCHAR(50), email VARCHAR(100) ); INSERT INTO customers_us (customer_id, first_name, last_name, email) VALUES (1, 'John', 'Doe', 'john.doe@example.com'), (2, 'Jane', 'Smith', 'jane.smith@example.com'); INSERT INTO customers_eu (customer_id, first_name, last_name, email) VALUES (3, 'Alice', 'Johnson', 'alice.johnson@example.com'), (1, 'John', 'Doe', 'john.doe@example.com'); -- 故意插入重复数据
要合并这两个表的数据,可以使用UNION:
SELECT customer_id, first_name, last_name, email FROM customers_us UNION SELECT customer_id, first_name, last_name, email FROM customers_eu;
这个查询会返回所有客户的信息,但会自动去除重复的行(例如,customer_id为1的记录只会出现一次)。如果想保留所有行,包括重复的,可以使用UNION ALL:
SELECT customer_id, first_name, last_name, email FROM customers_us UNION ALL SELECT customer_id, first_name, last_name, email FROM customers_eu;
这样,customer_id为1的记录会出现两次。
UNION在数据清洗和报表生成中的作用是什么?
在数据清洗方面,UNION可以用来合并不同来源的数据,这些数据可能因为格式不一致或者数据质量问题需要清洗。比如,某个字段在不同表中使用了不同的命名,或者某些数据项缺失,我们可以通过UNION把这些数据整合起来,然后进行统一的处理。
在报表生成方面,UNION可以将不同类型的报表数据合并成一个总报表。例如,我们可以将按月统计的销售数据和按季度统计的销售数据合并起来,生成一个更全面的销售报表。
假设我们有两个表:monthly_sales和quarterly_sales,分别存储月度和季度销售数据。
CREATE TABLE monthly_sales ( month INT, year INT, total_sales DECIMAL(10, 2) ); CREATE TABLE quarterly_sales ( quarter INT, year INT, total_sales DECIMAL(10, 2) ); INSERT INTO monthly_sales (month, year, total_sales) VALUES (1, 2023, 1000.00), (2, 2023, 1200.00), (3, 2023, 1500.00); INSERT INTO quarterly_sales (quarter, year, total_sales) VALUES (1, 2023, 3700.00), -- 第一季度总销售额 (2, 2023, 4000.00); -- 第二季度总销售额
要生成一个包含月度和季度销售数据的报表,可以使用UNION:
SELECT year, month AS period, total_sales, 'Monthly' AS sales_type FROM monthly_sales UNION ALL SELECT year, quarter AS period, total_sales, 'Quarterly' AS sales_type FROM quarterly_sales;
这个查询会返回一个包含所有月度和季度销售数据的报表,其中sales_type字段用于区分不同的数据类型。
如何利用UNION进行数据迁移和整合?
在数据迁移和整合过程中,UNION可以用来合并来自不同数据库或者不同表的数据,将它们整合到一个新的数据库或者表中。这在系统升级、数据仓库建设等场景中非常常见。
例如,假设我们需要将两个旧数据库中的数据迁移到一个新的数据仓库中。这两个数据库中的表结构可能略有不同,但包含相似的数据。我们可以使用UNION将这些数据整合起来,然后插入到新的数据仓库中。
假设我们有两个数据库:old_db1和old_db2,分别存储客户信息。这两个数据库中的表结构略有不同。
old_db1中的表结构:
CREATE TABLE old_db1.customers ( id INT PRIMARY KEY, name VARCHAR(100), email VARCHAR(100) ); INSERT INTO old_db1.customers (id, name, email) VALUES (1, 'John Doe', 'john.doe@example.com'), (2, 'Jane Smith', 'jane.smith@example.com');
old_db2中的表结构:
CREATE TABLE old_db2.users ( user_id INT PRIMARY KEY, full_name VARCHAR(100), email_address VARCHAR(100) ); INSERT INTO old_db2.users (user_id, full_name, email_address) VALUES (3, 'Alice Johnson', 'alice.johnson@example.com'), (4, 'Bob Williams', 'bob.williams@example.com');
要将这两个数据库中的数据迁移到一个新的数据仓库中,可以使用UNION:
CREATE TABLE new_data_warehouse.customers ( customer_id INT PRIMARY KEY, full_name VARCHAR(100), email VARCHAR(100) ); INSERT INTO new_data_warehouse.customers (customer_id, full_name, email) SELECT id, name, email FROM old_db1.customers UNION ALL SELECT user_id, full_name, email_address FROM old_db2.users;
这个查询会将old_db1.customers和old_db2.users中的数据合并起来,然后插入到new_data_warehouse.customers表中。注意,我们需要在SELECT语句中指定正确的字段名,以便将数据正确地插入到目标表中。