时间:2022-12-20 00:30:02 | 来源:信息时代
时间:2022-12-20 00:30:02 来源:信息时代
发现驱动探查 : 通过预计算的度量来指出数据异常,在聚集级指导用户分析数据。
对于数据立方体中存放的数据,可以通过使用一些诸如下钻、上钻、切片、切块等OLAP操作,搜索方体中感兴趣的模式,进而去识别数据中的例外和异常。这种假设驱动的探查(hypothesis-driven exploration)有很多缺点。用户需要根据自己的直觉和假定去识别数据中的异常,搜索过程不是自动的,需要搜索的空间可能非常大,而且由于高层次的聚集不可能指示低层次的异常,所以很容易忽略有趣的模式,人工检查堆积如山的数据往往使用户错过数据中的异常等模式。
发现驱动探查是一种替代方法,发现驱动探查并不是通过用户的直觉和假定来找到数据异常,而是通过预计算的度量来指出数据异常,在聚集级来指导用户的数据分析过程。
异常(exception)是一个数据立方体单元值,基于某种统计模型,它显著地不同于预期值。这类统计模型考虑单元所属的所有维上度量值的变化。例如,如果商品销售数据分析揭示,与其他所有月份相比,12月份的销售增长了,这对时间维看来是一个异常。然而,如果考虑商品维。这不是一个异常,因为在12月份,其他商品的销售也有类似的增长。
有三种度量用作异常指示符,帮助标识数据异常。这些度量指出单元中的量相对于期望值的奇异程度。对于所有的聚集层,计算这些度量,并将它们关联到每一个单元。它们是:
(1) SelfExp: 指示相对于同一聚集层的其他单元的奇异程度。
(2) InExp: 指示该单元之下某处的奇异程度,如果由它下钻的话。
(3) PathExp: 指示由该单元的每条下钻路径的奇异程度。
以上三种度量是基于表分析的统计方法,度量值考虑了给定单元值涉及的所有分组(聚集)。一个单元值是否异常要根据它与它的期望值相差多少判定。单元的值同它的期望值之间的差称为余量。直观地,余量越大,单元的值越异常。为比较余量值,需要按照与余量相关的期望标准差对值定标。这样,一个单元被视为异常,如果它的定标余量值超过一个预定的阈值。SelfExp、InExp和PathExp度量就是给予这种定标余量。