mrjob

软件截图:
mrjob
软件详细信息:
版本: 0.4
上传日期: 20 Feb 15
开发: David Marin
许可: 免费
人气: 16

Rating: 3.0/5 (Total Votes: 1)

mrjob是一个Python模块,可以帮助你编写和运行Hadoop的流工作。
mrjob完全支持亚马逊弹性MapReduce(EMR)服务,让您买的时候Hadoop集群上以小时为单位。它也可以用自己的Hadoop集群。
安装:
蟒蛇setup.py安装
设置EMR亚马逊
  *创建一个Amazon Web Services账户:http://aws.amazon.com/
  *注册弹性MapReduce:http://aws.amazon.com/elasticmapreduce/
  *让您的访问和密钥(去http://aws.amazon.com/account/并点击“安全证书”),并设置环境变量$ AWS_ACCESS_KEY_ID并据此$ AWS_SECRET_ACCESS_KEY

试试吧!

#本地
蟒蛇mrjob /例子/ mr_word_freq_count.py README.md>计数
#在EMR
蟒蛇mrjob /例子/ mr_word_freq_count.py README.md -r EMR>计数
#Hadoop集群上
蟒蛇mrjob /例子/ mr_word_freq_count.py README.md -r的Hadoop>计数
高级配置
在其他AWS地区运行,上传你的源代码树,运行make,并使用其他高级mrjob功能,你需要设置mrjob.conf。 mrjob会在其的conf文件:
  *〜/ .mrjob
  * mrjob.conf在$ PYTHONPATH任何地方
  * /etc/mrjob.conf
见mrjob.conf.example以获取更多信息

特点

  • 在EMR运行作业,你自己的Hadoop集群,或本地(测试)。
  • 在写多步工作(一个地图,减少步送入下一个)
  • 复制您的生产环境中的Hadoop
  • 上传您的源代码树,并把它放在你的工作的$ PYTHONPATH
  • 运行彩妆和其他安装脚本
  • 设置环境变量(如$ TZ)
  • 在容易从压缩包安装Python包(EMR只)
  • 在安装透明地mrjob.conf配置文件处理
  • 从EMR自动解读错误日志
  • 在SSH隧道来的Hadoop作业跟踪器上的EMR
  • 在最低设置
  • 要运行EMR,设置$ AWS_ACCESS_KEY_ID美元AWS_SECRET_ACCESS_KEY
  • 要运行Hadoop集群上,设置$ HADOOP_HOME

要求

  • 在Python中

类似的软件

grayson
grayson

20 Feb 15

cloud-calculator
cloud-calculator

12 May 15

StarCluster
StarCluster

14 Apr 15

MPICH
MPICH

11 May 15

显影剂的其他软件 David Marin

doloop
doloop

11 May 15

意见 mrjob

评论没有发现
添加评论
打开图片!