Java Stream 中 distinct() 方法产生重复元素的探究与解决-小浪学习网

Java Stream 中 distinct() 方法产生重复元素的探究与解决

本文深入探讨了 Java Stream 中使用 distinct() 方法时出现重复元素的常见原因，即在流处理过程中修改了参与 equals() 和 hashCode() 计算的字段。通过示例代码和详细分析，阐述了这种行为背后的机制，并提供了避免此类问题的有效方法，包括使用不可变数据结构和调整操作顺序。

理解 distinct() 的工作原理

Java Stream 的 distinct() 方法用于去除流中的重复元素。它的工作原理是基于 Object.equals(Object) 方法来比较元素是否相等。更具体地说，它通常使用一个 HashSet 来跟踪已经遇到的元素。当遇到一个新的元素时，distinct() 会检查该元素是否已经存在于 HashSet 中。如果不存在，则将其添加到 HashSet 并将其包含在结果流中；否则，该元素将被丢弃。

关键在于，HashSet 的正确运作依赖于元素的 hashCode() 和 equals() 方法的实现。如果一个对象在添加到 HashSet 后，其参与 hashCode() 或 equals() 计算的字段发生了改变，那么 HashSet 将无法正确识别该对象是否已经存在，从而导致重复元素的出现。

导致重复元素的罪魁祸首：可变对象

最常见的问题是在流处理过程中修改了对象的状态，特别是那些参与 equals() 和 hashCode() 计算的字段。考虑以下示例：

立即学习“Java免费学习笔记（深入）”；

import lombok.AllArgsConstructor; import lombok.Data; import lombok.EqualsAndHashCode;  import java.util.Arrays; import java.util.List; import java.util.stream.Collectors;  @Data @AllArgsConstructor @EqualsAndHashCode class TestBean {     String col; }  public class DistinctExample {     public static void main(String[] args) {         List<TestBean> obj_list = Arrays.asList(new TestBean("aa"), new TestBean("bb"), new TestBean("bb")).stream()                 .distinct()                 .map(tt -> {                     tt.col = tt.col + "_t";                     return tt;                 })                 .collect(Collectors.toList());         System.out.println(obj_list);     } }

在这个例子中，TestBean 类使用了 Lombok 的 @EqualsAndHashCode 注解自动生成了 equals() 和 hashCode() 方法，这些方法基于 col 字段进行比较。在流处理过程中，我们首先使用 distinct() 方法去除重复的 TestBean 对象，然后使用 map() 方法修改每个对象的 col 字段。

问题在于，当 distinct() 方法第一次遇到 TestBean(“bb”) 时，它会将其添加到内部的 HashSet 中。然后，map() 方法将其 col 字段修改为 “bb_t”。当 distinct() 方法再次遇到 TestBean(“bb”) 时，由于其 col 字段已经被修改，导致 HashSet 无法正确识别该对象已经存在，从而将其也添加到结果流中，最终导致重复元素的出现。

解决方案

为了避免这种问题，可以采取以下几种方法：

使用不可变对象： 如果对象是不可变的，即其状态在创建后不能被修改，那么 hashCode() 和 equals() 的结果将始终保持一致，从而避免了重复元素的出现。Java 16 引入的 record 类型非常适合表示不可变数据：
```
record TestBean(String col) {}
```

调整操作顺序： 将修改对象状态的操作放在 distinct() 方法之前或之后，确保在 distinct() 方法执行时，对象的状态是稳定的。

List<TestBean> obj_list = Arrays.asList(new TestBean("aa"), new TestBean("bb"), new TestBean("bb")).stream()         .map(tt -> {             TestBean newTt = new TestBean(tt.col + "_t"); // Create a new object             return newTt;         })         .distinct()         .collect(Collectors.toList());

或者：

List<TestBean> obj_list = Arrays.asList(new TestBean("aa"), new TestBean("bb"), new TestBean("bb")).stream()         .distinct()         .collect(Collectors.toList())         .stream() // Re-stream the distinct list         .map(tt -> {             tt.col = tt.col + "_t";             return tt;         })         .collect(Collectors.toList());

第一种方法在 map 操作中创建新的 TestBean 对象，避免了修改原始对象的状态。第二种方法先进行 distinct 操作，再对结果列表进行 map 操作。

重新实现 equals() 和 hashCode() 方法： 如果必须修改对象的状态，并且无法避免在 distinct() 方法中使用可变对象，那么可以重新实现 equals() 和 hashCode() 方法，确保它们只基于那些在流处理过程中不会被修改的字段进行比较。但这是一种比较复杂的方法，需要谨慎考虑。

总结

在使用 Java Stream 的 distinct() 方法时，需要特别注意可变对象带来的问题。通过使用不可变对象、调整操作顺序或重新实现 equals() 和 hashCode() 方法，可以有效地避免重复元素的出现，确保流处理的正确性。关键在于理解 distinct() 方法的工作原理，以及对象状态变化对 HashSet 的影响。记住，避免在流处理过程中修改对象的状态是最佳实践。

文章版权归作者所有，未经允许请勿转载。

THE END

JAVA教程
# ai # 对象 # Java # 数据结构 # map # Object