mrjob是一个Python模块,可以帮助你编写和运行Hadoop的流工作。
mrjob完全支持亚马逊弹性MapReduce(EMR)服务,让您买的时候Hadoop集群上以小时为单位。它也可以用自己的Hadoop集群。
安装:
蟒蛇setup.py安装
设置EMR亚马逊
  *创建一个Amazon Web Services账户:http://aws.amazon.com/
  *注册弹性MapReduce:http://aws.amazon.com/elasticmapreduce/
  *让您的访问和密钥(去http://aws.amazon.com/account/并点击“安全证书”),并设置环境变量$ AWS_ACCESS_KEY_ID并据此$ AWS_SECRET_ACCESS_KEY
试试吧!
#本地
蟒蛇mrjob /例子/ mr_word_freq_count.py README.md>计数
#在EMR
蟒蛇mrjob /例子/ mr_word_freq_count.py README.md -r EMR>计数
#Hadoop集群上
蟒蛇mrjob /例子/ mr_word_freq_count.py README.md -r的Hadoop>计数
高级配置
在其他AWS地区运行,上传你的源代码树,运行make,并使用其他高级mrjob功能,你需要设置mrjob.conf。 mrjob会在其的conf文件:
  *〜/ .mrjob
  * mrjob.conf在$ PYTHONPATH任何地方
  * /etc/mrjob.conf
见mrjob.conf.example以获取更多信息
特点:
- 在EMR运行作业,你自己的Hadoop集群,或本地(测试)。
- 在写多步工作(一个地图,减少步送入下一个)
- 复制您的生产环境中的Hadoop
- 上传您的源代码树,并把它放在你的工作的$ PYTHONPATH
- 运行彩妆和其他安装脚本
- 设置环境变量(如$ TZ)
- 在容易从压缩包安装Python包(EMR只)
- 在安装透明地mrjob.conf配置文件处理
- 从EMR自动解读错误日志
- 在SSH隧道来的Hadoop作业跟踪器上的EMR
- 在最低设置
- 要运行EMR,设置$ AWS_ACCESS_KEY_ID美元AWS_SECRET_ACCESS_KEY
- 要运行Hadoop集群上,设置$ HADOOP_HOME
要求:
- 在Python中
评论没有发现