线上问题-并发引起的优惠券超发问题

问题

线上商品优惠券超发
一个用户限领一张结果发了三张,而且不止一个用户

起因

同事细心发现线上有部分用户优惠券居然超发了,如果没发现可想而知。感谢感谢

开始处理

  • 确认超发数量、快速拉通解决方案
  • 初步定位问题原因: 定时任务跑全量正在生效的优惠券,给未分发到的用户或符合条件的用户进行批量分发操作,造成并发领取问题

解决

大致业务流程:

  1. 聚合层定时任务触发开启多线程RPC调用优惠券分发服务(双节点)
  2. A方法数据先插入数据库(分发)
  3. B方法执行更新操作(领取)

第一版 并发锁

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
public class a{
public void A(){
// 向数据库插入数据
// 分发优惠券
A.installBatch(list);
// 调用B,进行
// 领取优惠券
B.(list);
}
}
public class b{
public void B(List<A> list)){
// 获取锁
RLock lock = redissonClient.getLock(KEY);
try {
// 设置时间
lock.lock(2, TimeUnit.SECONDS);
// 判断优惠领取数量是否达到上限
// 领取优惠券
update(list);
// 创建定时任务
// ......
} catch (Exception e) {
log.error(e);
}finally {
// 释放锁
lock.unlock();
}
}
}

用以上方式可以顺利加锁(优惠券ID+用户ID做为 redis KEY), 但是在测试中还是会出现并发问题, 未解决 其实锁没有问题
经典开始走偏:
怀疑是A 的事物没提交,导致B 查询有问题

  1. 在方法B 开启新事物@Transactional(propagation = Propagation.REQUIRES_NEW) ,结果一张都领不上了,反向解bug属于是
  2. 然后想是不是A的事物没提交导致B开新事物也查不到呀, 然后手动提交A的事物还是不行,奇怪了,简直在错误的路上越走越远了…

结论

其实分发优惠券的并发是来自于聚合层多线程调用方法A,且可能同时将调用两个服务, 导致无法保证"判断优惠券领取上限"查询是正确数据, 造成优惠数量判断异常,优惠券超发,只能超不能少那种…唉

第二版 并发锁+优惠券数量原子自增(Redis)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
public class a{
public void A(){
// 向数据库插入数据
// 分发优惠券
A.installBatch(list);
// 调用B,进行
// 领取优惠券
B.(list);
}
}

public class b{
public void B(List<A> list)){
// 获取锁
RLock lock = redissonClient.getLock(KEY);
try {
// 设置时间
lock.lock(2, TimeUnit.SECONDS);
// 如果数量为空,设置值
Object numValue = redisService.get(numKey.toString());
// 用户剩余可领取数量
int maxNum = 0;
if (Validator.empty(numValue)) {
// 优惠券设置限领,判断用户领取数量
// 获取用户优惠券领取数量
maxNum = 可领取数 - 已领取数;
// 初始化redis优惠券分发数据
redisService.increment(numKey.toString(), maxNum, TWO_MINUTE);
}
} else {
maxNum = Integer.parseInt(numValue.toString());
}
// 判断优惠领取数量是否达到上限
// 领取优惠券
update(list);
// 原子自增-1
redisService.increment(numKey.toString(), -1, TWO_MINUTE);
// 创建定时任务
// ......
} catch (Exception e) {
log.error(e);
}finally {
// 释放锁
lock.unlock();
}
}
}

写在最后

  • 对业务和数据敏感度还是不够
  • 比单线程逻辑更复杂排查问题难
  • 为保证最终数据一致性,付出的代价是巨大的