一次tddl-sequence问题的排查

背景

在测试环境,有个同事发现了一个ID插入的时候报了主键冲突。这是一件很奇怪的事情,在大家的理解中,使用了Sequence功能,每个节点的内存拿的ID段应该都是不同的,不可能会出现这个问题。不然这又要颠覆认知了~

思考

  • 是否有人手动插入了一条数据,然后出入的时候手动设置了ID呢?
  • 是否有人手动调整了Sequencevalue呢?
  • 为什么数据库还存在了ID相同,但在不同表的数据呢?是不是多线程写的有毛病啊?

初步排查

  • 确认没有人手动插入ID,都是用程序获取的方式;
  • 那有时间与精力去手动设置Sequencevalue啊,确实谁去没事儿管这个;
  • 数据ID相同数据在不同表,明显是2台不同的项目Node导致的。

总结:确定问题出现了2台机器获取的Sequencevalue范围冲突了。

问题表现出来的确实如此,难道真的要颠覆我们的认知吗?因为问题算比较严重,所以非常的重视。一定要找到问题的原因所在!

具体排查

此时,我们发现代码有一处调整过,就是配置TDDLSequenceinnerStep(内部步长),由原来的1000调整为5000。为什么调整大了,是因为在数据迁移的时候,数据量很大,减少由于ID扩容对数据库操作的时间(其实在这里,可以看出这位开发同学已经非常优秀了,其他地方也一定会非常的注意性能的设计)。

这里我的认知也是,就算我修改内部步长跟其他人不一样,也不会影响Sequence冲突的问题啊,这个Sequence应该会自己保证。不知道大家是不是跟我的想法也一样?

抱着半怀疑SequenceBug问题与一定要解决掉问题的思绪,大家来开始撸源代码了。这才是解决问题的王道~

这里参考的版本是:tddl-sequence-3.2.jar,用的是GroupSequence

找出问题的根源点

第一步会撸nextValue()方法,下面贴一下核心代码。

newValue = oldValue + outStep; // 新的值就是数据库中老的值 + 外部步长的求和

int affectedRows = stmt.executeUpdate();// 把新的值再更新到数据库中去

return new SequenceRange(newValue + 1, newValue + innerStep);// 该结点的范围就是[newValue + 1, newValue + innerStep]  

在这里就初步判断,这里有大坑。如果2个项目的内部步长不一致,范围就会存在交集,问题确实是这个问题导致的,但是这不符合常理,为什么设计者要这么设计?此时的心情就是必须要tddl-sequence撸清楚。

下面把看源码时候不太理解的部分解答清楚。

内部步长与外部步长的关系

outStep = innerStep * dscount; // 外部步长 = 内部步长 * sequence所在的数据源个数  

这应该算是tddl-sequence里面的一个约定了吧,outStep算是每次修改的sequence里value的步长或者说单元。

一般大家的dscount配置的是1,也就是00库。

步长有调整怎么办?

private boolean check(int index, long value) {  
    return (value % outStep) == (index * innerStep); // 这里不相等,就意味着outStep有调整过
}
// 如果说我们只有一个dscount,这里的index=0,理论上value就要是outStep的整数倍

adjust = true; // 这里儿我们要配置为true,当发现调整了步长,就会自动调节sequence表了  
// 具体如何调整的
newValue = (newValue - newValue % outStep) + outStep + index * innerStep;  
// newValue - newValue % outStep 就是把数据缩减到最近一个可以整除outStep的值,然后再加上一个outStep。

回顾问题

回顾到事情上来,具体例子说明:

用我们组的小伙伴画的神图

http://static.cyblogs.com/7ba2efab-2797-4bda-a62c-21a3a3d6b4eb.jpg

解释一下,2个不同的应用一个步长是5000,一个步长是1000。步长大的会覆盖步长小的节点;

数据库的value=1000时候;

projectAoutStep=5000拿到的范围是:[6000, 11000],先获取sequence

projectBoutStep=1000拿到的范围是:[7000, 8000],后获取sequence

那如果步长大的节点先插入了数据并且使用了步长小的节点还未使用的ID值,那后面步长小的结点过来插入的时候就报主键冲突了。

疑问点?

为什么数据库的值是1000,步长是5000的时候。获取的范围是[6000,11000]呢?浪费了5000啊。

这个问题就是由于步长调整导致的,因为sequence要让数据库的值是outStep的整数倍。