hadoop下怎么计算MapReduce过程中需要的缓冲区大小

本篇内容介绍了“hadoop下怎么计算MapReduce过程中需要的缓冲区大小”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!

成都创新互联长期为上1000+客户提供的网站建设服务,团队从业经验10年,关注不同地域、不同群体,并针对不同对象提供差异化的产品和服务;打造开放共赢平台,与合作伙伴共同营造健康的互联网生态环境。为平山企业提供专业的成都网站制作、网站建设,平山网站改版等技术服务。拥有十年丰富建站经验和众多成功案例,为您定制开发。

在Map阶段,map函数会产生中间数据输出并保存在内存缓冲区中(缓冲区大小由io.sort.mb参数指定)。一旦达到占用阈值(默认是80%),缓冲区的内容就会写入本地磁盘,这也就是所谓的溢写(spill)。

缓冲区内会存储溢写记录的元数据(每条数据元数据长度为16字节)和溢写记录。

分配给元数据的空间由参数io.sort.record.percent指定,默认5%,其余分配给溢写记录使用。

要确定缓冲区所需的内存空间,需要计算溢写记录和元数据分别所占空间大小。

具体计算方法如下:

hadoop下怎么计算MapReduce过程中需要的缓冲区大小

  • Record length = Map output bytes / Map output records = 68022178 / 472293 = 144bytes

  • Spilled Records Size =  Spilled Records * Record length = 144 * 472293 = 68022178 = 64M

  • Metadata Size = Metadata length * Spilled Records = 16 * 472293 = 7556688 = 7M

io.sort.record.percent = 16 / (16 + 144) = 0.1

io.sort.mb = Metadata size + Spilled Records size = 64 + 7 = 71M

“hadoop下怎么计算MapReduce过程中需要的缓冲区大小”的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识可以关注创新互联网站,小编将为大家输出更多高质量的实用文章!


文章名称:hadoop下怎么计算MapReduce过程中需要的缓冲区大小
转载源于:http://bzwzjz.com/article/ijjess.html

其他资讯

Copyright © 2007-2020 广东宝晨空调科技有限公司 All Rights Reserved 粤ICP备2022107769号
友情链接: 高端网站设计 定制网站制作 成都网站建设 企业网站设计 网站建设公司 网站建设 成都网站设计制作公司 重庆网站制作 定制网站建设多少钱 重庆网站建设 品牌网站建设 上市集团网站建设 成都网站设计 成都网站设计 网站设计制作报价 响应式网站建设 成都网站设计公司 成都商城网站制作 成都响应式网站建设公司 重庆网站设计 网站设计制作 高端网站建设