用代码分析python如何读取hdfs并返回dataframe-创新互联

这篇文章主要用代码分析python如何读取hdfs并返回dataframe,内容清晰明了,对此有兴趣的小伙伴可以学习一下,相信大家阅读完之后会有帮助。

创新互联专注于企业成都全网营销、网站重做改版、高台网站定制设计、自适应品牌网站建设、H5网站设计电子商务商城网站建设、集团公司官网建设、外贸营销网站建设、高端网站制作、响应式网页设计等建站业务,价格优惠性价比高,为高台等各大城市提供网站开发制作服务。

不多说,直接上代码

from hdfs import Client
import pandas as pd
 
HDFSHOST = "http://xxx:50070"
FILENAME = "/tmp/preprocess/part-00000" #hdfs文件路径
COLUMNNAMES = [xx']
 
def readHDFS():
'''
读取hdfs文件
 
Returns:
df:dataframe hdfs数据
'''
client = Client(HDFSHOST)
# 目前读取hdfs文件采用方式:
# 1. 先从hdfs读取二进制数据流文件
# 2. 将二进制文件另存为.csv
# 3. 使用pandas读取csv文件
with client.read(FILENAME) as fs:
content = fs.read()
s = str(content, 'utf-8')
file = open("data/tmp/data.csv", "w")
file.write(s)
df = pd.read_csv("data/tmp/data.csv", names=COLUMNNAMES)
return df

标题名称:用代码分析python如何读取hdfs并返回dataframe-创新互联
网页链接:http://bzwzjz.com/article/dodeos.html

其他资讯

Copyright © 2007-2020 广东宝晨空调科技有限公司 All Rights Reserved 粤ICP备2022107769号
友情链接: 网站建设 成都网站制作 营销网站建设 重庆手机网站建设 成都网站建设公司 网站建设费用 成都网站设计 网站制作 成都网站建设公司 成都网站设计 成都网站制作 网站建设公司 成都网站制作 企业网站设计 达州网站设计 成都网站建设公司 成都网站建设 网站设计制作 成都响应式网站建设公司 成都定制网站建设 成都网站制作 成都网站建设流程