第107章 李洛的迷惑行为一

舒明转身出门之后,朝林语眨了眨眼,留着门示意林语进去。林语有些迷茫地瞧了她一眼,赶紧敲了敲门,走了进去。

林语一进门,周诗亦便问:“开发环境的mergekey坏了是吧?”

林语怔了怔,他这么快就知道了?

她红着脸承认:“是的。前天q市几家新平台的数据进来,用户编号不规整。我们把新数据的首字母b去了,数据格式改成了整数,然后就直接归进了主数据库,漏了和原数据查重的步骤。”

客户的数据质量往往相当糟心。同一个用户编号,有些数据点是规整的b10,有些存成了b10.00,甚至还有奇怪的b0010。其实这三个指代的都是同一个用户——q市红星星小学的一头十岁神兽,毛毛。

要把毛毛的数据归在一起,必须预处理用户编号。考虑到主数据库的用户编号本就都是整数,郑力便简单粗暴地去掉了字母b,然后将浮点型数据改成了整数型(把10.00、0010都变成10)。这样一来,那些b10的兄弟姐妹们,都会被转化为10这个整数。

林语主动把问题揭露出来:“但是这样处理后,新加进来的数据点和主数据库原有的数据相重了,所以mergekey就坏了。完全是我们的失误。”

原先的主数据里,有另一头神兽——a市蓝星星小学的亮亮,编号10。如果毛毛的数据以“b10”为编号进入数据库,它和那几百万原有用户的数据都毫不相干。两头神兽自可相安无事。但现在这样,毛毛的编号就和亮亮重合了,他俩就被当成了同一个人。

这看似是个非常简单的问题,但在数据量百亿千亿的规模下,并没有那么容易被监测到。

林语知道这个错误实在过于愚蠢,忐忑着出言补救:“我已经着手让实习生在改了。还是把字母b加回来,新数据的用户编号就按字符串录入。这一步很快,但是先前已有模块的代码都得添加处理字符串编号的功能,这些调整......还得要两个小时。”

现在各个模块都无法正常运行,耽误了其他组的工作,林语一时也只想了这个办法先对付着。

“嗯,我已经改过了。”周诗亦语气随意。

“你什么时候改的?”林语十分惊讶,“半小时前数据才归并进去呢。”

“就刚才啊,我看数据出问题了。就按现在的处理,再加个1e9不行么?主数据库里用户编号最长也只有八位。”周诗亦表示真的很好奇,“这样和原数据库格式相同,其他代码也都不用动。总共要不了五分钟。”