SPL分组优化技巧

1. 常规分组

当分组聚合的结果集不大时，可以使用groups。例如有学生成绩表存储在集文件中，表结构如下：

创新互联是一家集网站建设,海曙企业网站建设,海曙品牌网站建设,网站定制,海曙网站建设报价,网络营销,网络优化,海曙网站推广为一体的创新建站企业，帮助传统企业提升企业形象加强企业竞争力。可充分满足这一群体相比中小企业更为丰富、高端、多元的互联网需求。同时我们时刻保持专业、时尚、前沿，时刻以成就客户成长自我，坚持不断学习、思考、沉淀、净化自己，让我们为更多的企业打造出实用型网站。

Scores

class

studentID

subject

score

……

现在计算每个学生的总分数：

	A
1	=file("scores.btx").import@b()
2	=A1.groups(studentID; sum(score):TotalScore)

A1：成绩表的数据装入内存。

A2：按照studentID字段分组，计算总分。

如果成绩表数据太大，无法装入内存，则可以用游标方式：

	A
1	=file("scores.btx").cursor@b()
2	=A1.groups(studentID; sum(score):TotalScore)

A1：得到成绩表的游标。

A2：按照studentID字段分组，计算总分。

当成绩表记录很多，分组计算的结果集很大时，就要使用groupx：

	A
1	=file("scores.btx").cursor@b()
2	=A1.groupx(studentID; sum(score):TotalScore;10000)

A1：得到成绩表的游标。

A2：按照studentID字段分组，计算总分。

groupx的最后一个参数是缓冲区行数，也就是内存里能够一次处理的记录条数，这里指定为10000，实际使用时要根据自己的情况进行调整。

2. 有序分组

2.1. 前半有序

当数据对分组字段有序时，可以使用groups@o。如上例中，当成绩表对studentID字段有序时，就可以加上选项o：

	A
1	=file("scores.btx").import@b()
2	=A1.groups@o(studentID; sum(score):TotalScore)

如果成绩表太大，无法装入内存，可以使用游标：

	A
1	=file("scores.btx").cursor@b()
2	=A1.groups@o(studentID; sum(score):TotalScore)

同样，如果有序分组的结果集很大，就不能用groups，这时要使用group：

	A
1	=file("scores.btx").cursor@b()
2	=A1.group(studentID; sum(score):TotalScore)

group的返回是游标，这一点跟groups不一样。

2.2. 后半有序

“后半”有序是指：要分组的表 T 已经对字段a,b有序，现在我们要将表T按字段b进行分组。例如有保存销售记录的集文件sale.btx，表结构如下：

Sales

date

employeeID

amount

……

销售表对字段date,employeeID有序，现在要计算每个员工的销售总额，对employeeID字段做分组，这时常规分组会计算hash，但这种后半有序的情况可以使用groups@h，看一下实现：

	A
1	=file("sale.btx").import@b()
2	=A1.groups@h(employeeID; sum(amount):TotalAmount)

如果销售表太大，无法装入内存，可以使用游标：

	A
1	=file("sale.btx").cursor@b()
2	=A1.groups@h(employeeID; sum(amount):TotalAmount)

3. 序号分组

当分组表达式的结果是序号的时候，可以使用groups@n。仍然使用上例的销售表，现在要计算统计每个月的销售额，实现是这样的：

	A
1	=file("sale.btx").cursor@b()
2	=A1.groups@n0(month(date):MONTH;sum(amount): TotalAmount)

A1：得到销售表的游标。

A2：把date字段转换为月份，计算每个月的销售总额；如果存在date字段是null的情况，则要加上选项@0。

使用@n之后，会依据序号去分组，而不用再计算HASH，所以要比不带@n时快。

使用3亿条数据测试，本案例实际测试结果：

耗时（秒）
有 @n	没有 @n
39	49

4. 过滤拆分

过滤拆分是指根据条件分组，满足条件和不满足条件的分成两个集。使用select可以做到这种拆分，但是要遍历两次，即一次select(条件true)，和一次select(条件false)。

而使用group和align只需要遍历一次。以上面成绩表为例，现在要把成绩及格的和不及格的分成两组，看一下group的实现：

	A
1	=file("scores.btx").import@b()
2	=A1.group(score>=60)

需要注意的是，使用group过滤拆分的结果不一定是两个集，有可能结果只有一个集，如本例中，有可能出现成绩都大于60的情况。这时候需要判断一下结果集的个数，或者使用align，因为align的结果肯定是两个集，没有符合条件的记录，也会产生一个空集。来看一下align的实现：

	A
1	=file("scores.btx").import@b()
2	=A1.align@a([true,false],score>=60)

如果想在过滤拆分中把不满足的写进文件，可以使用select(x;file)，看一下实现：

	A
1	=file("scores.btx").cursor@b()
2	=A1.select (score>=60;file(“Fail.btx”))
3	=A2.fetch()

执行完成后，A3里是成绩及格的，不及格的会保存到集文件Fail.btx。

如果要拆分为多个集，可以使用groupn。例如要把成绩分为优秀、良好、及格和不及格这些集合，可以这样实现：

	A
1	=file("scores.btx").cursor@b()
2	=[file(“Excellent.btx”), file(“Good.btx”), file(“Pass.btx”), file(“Fail.btx”)]
3	=A1.groupn(if(score>=90:1, score>=80:2, score>=60:3,4);A2)
4	=A3.fetch()

5. 组内TopN

top也可以用于group中，例如计算每个部门里薪水的最大值：

	A
1	=file("employee.btx").cursor@b()
2	=A1.groups(dept;top(-1,salary):MaxSalary)

A1：得到员工表的游标。

A2：按照dept字段分组，组内再求最高薪水值，命名为topSalary。

A2执行结果的MaxSalary字段是数值，如果想查询薪水最高的员工的信息，可以写成这样：

	A
1	=file("employee.btx").cursor@b()
2	=A1.groups(dept;top(-1;salary):MaxSalary)

top不仅可以返回最大值，还可以得到前n个最靠前的值，这时把1写成n即可。例如计算每个部门里薪水排前三名的员工的信息：

	A
1	=file("employee.btx").cursor@b()
2	=A1.groups(dept;top(-3;salary):topSalary)

6. 并行

使用groups进行分组计算时，还可以采取并行方式进一步提高性能，这时要加上选项@m。

如上面例中，计算每个员工的销售总额，看一下并行方式的实现：

	A
1	=file("sale.btx").import@m()
2	=A1.groups@m(employeeID; sum(amount):TotalAmount)

如果数据太大，无法装入内存，可以使用多路游标：

	A
1	=file("sale.btx").cursor@mb()
2	=A1.groups@m(employeeID; sum(amount):TotalAmount)

分享文章：SPL分组优化技巧
当前地址：http://bzwzjz.com/article/igsggh.html

用户体验为先导为品牌带来生命力

SPL分组优化技巧

1. 常规分组

2. 有序分组

2.1. 前半有序

2.2. 后半有序

3. 序号分组

4. 过滤拆分

5. 组内TopN

6. 并行

其他资讯

用户体验为先导 为品牌带来生命力

SPL分组优化技巧

1. 常规分组

2. 有序分组

2.1. 前半有序

2.2. 后半有序

3. 序号分组

4. 过滤拆分

5. 组内TopN

6. 并行

其他资讯

用户体验为先导为品牌带来生命力