PytorchDataLoader变长数据处理方式-创新互联

关于Pytorch中怎么自定义Dataset数据集类、怎样使用DataLoader迭代加载数据,这篇官方文档已经说得很清楚了,这里就不在赘述。

创新互联科技有限公司专业互联网基础服务商,为您提供德阳机房服务器托管高防服务器租用,成都IDC机房托管,成都主机托管等互联网服务。

现在的问题:有的时候,特别对于NLP任务来说,输入的数据可能不是定长的,比如多个句子的长度一般不会一致,这时候使用DataLoader加载数据时,不定长的句子会被胡乱切分,这肯定是不行的。

解决方法是重写DataLoader的collate_fn,具体方法如下:

# 假如每一个样本为:
sample = {
	# 一个句子中各个词的id
	'token_list' : [5, 2, 4, 1, 9, 8],
	# 结果y
	'label' : 5,
}


# 重写collate_fn函数,其输入为一个batch的sample数据
def collate_fn(batch):
	# 因为token_list是一个变长的数据,所以需要用一个list来装这个batch的token_list
  token_lists = [item['token_list'] for item in batch]
  
  # 每个label是一个int,我们把这个batch中的label也全取出来,重新组装
  labels = [item['label'] for item in batch]
  # 把labels转换成Tensor
  labels = torch.Tensor(labels)
  return {
    'token_list': token_lists,
    'label': labels,
  }


# 在使用DataLoader加载数据时,注意collate_fn参数传入的是重写的函数
DataLoader(trainset, batch_size=4, shuffle=True, num_workers=4, collate_fn=collate_fn)

网页名称:PytorchDataLoader变长数据处理方式-创新互联
当前路径:http://bzwzjz.com/article/ggogc.html

其他资讯

Copyright © 2007-2020 广东宝晨空调科技有限公司 All Rights Reserved 粤ICP备2022107769号
友情链接: 成都网站制作 成都网站制作 响应式网站设计方案 网站建设方案 响应式网站建设 LED网站设计方案 网站制作 成都网站建设 高端网站设计 成都网站建设 成都响应式网站建设 重庆外贸网站建设 成都网站建设公司 重庆企业网站建设 成都响应式网站建设 成都网站制作 营销型网站建设 成都网站设计 专业网站设计 外贸营销网站建设 企业网站建设 高端网站建设