sql
去重
提示
Hive SQL 教程 编写中,使用过程中有任何建议,提供意见、建议、纠错、催更加微信 gairuo123。欢迎关注本教程作者新书《深入浅出Pandas:利用Python进行数据处理与分析》 。作者开办 Python 数据分析培训,详情 Python 数据分析培训。
我们取到某列数据后发现有重复的内容,但需求可能是需要知道有几个不重复的内容。Select 里 DISTINCT
可用于对数据进行去重。
本文例子中使用的数据是筛选指定字段中的数据内容。
select distinct column_name from table_name
注:
select distinct class from students
查询有多少个班级,就是将查出的班级进行去重:
'''
class|
-----+
1|
2|
3|
'''
select distinct class, gender from students
对班级和性别进行去重,会将这两列的值进行组合,再留下不重复的组合:
'''
class|gender|
-----+------+
1|男 |
2|女 |
1|女 |
2|男 |
3|男 |
'''
在真实环境中,数据往往是流水形成出现,有些字段会有大量的重复值,我们需要进行去重。count(distinct uuid)
是常用的获取 UV 的方法。
distinct 与 group by
可以得到相同的结果,从效率上可能会比 distinct 更高,后边会讲。