`
king_tt
  • 浏览: 2113446 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

MapReduce下的数据传递

 
阅读更多

好久没写点文章了,上一篇文章都是4月的了。实在不应该。实习是解决了,但随后的事也多了去了。实验报告、课程设计、比赛、论文、软考、考试。我嘞个去,杂那么多哟~~ 忙是忙,但还是不要忘里学习。今天来讨论上次做TF-IDF时遇到的问题---MapReduce下的数据传递。

我们写MapReduce程序时,有时需要将一定的值(这里是少量 的)从cilent传到map或者reduce.又或者从map传到reduce。

我们先来讨论比较简单的第一种。

解决办法,在main()函数中通过xml文件设定需要传送的值。然后在map函数中读取就行了。

第二种肯定不能使用第一种的方法。因为map阶段跟reduce阶段不一定在同一台机子上,就算map设定了值,reduce也不能够读出来。这里我们就只有使用笨办法了,直接从文件里读。

闲话少说,上代码:

注释我基本写在了代码里。

分享到:
评论

相关推荐

    hadoop mapreduce多表关联join多个job相互依赖传递参数

    mapreduce多表关联join多个job相互依赖传递参数

    MapReduce:超大机群上的简单数据处理

    用户自定义的map函数,接受一个输入对,然后产生一个中间key/value对集.MapReduce库把所有具有相同中间key I的中间value聚合在一起,然后把它们传递给reduce函数. 用户自定义的reduce函数,接受一个中间key I和相关的一...

    mapreduce高级特性3

    结合案例讲解mr重要知识点1.1 多表连接1.2 mr各组件之间数据传递1.3 mr中压缩设置1.4 多个job之间有序执行1.5 自定义outputFormat

    mapreduce-db-operat:mapreduce实现数据从hdfs到mysql之间的相互传递

    mapreduce-db-operatmapreduce实现数据从hdfs到mysql之间的相互传递

    COMP5349A1:使用 hadoop mapreduce 分析大数据集

    COMP5349A1 使用 hadoop mapreduce 分析大数据集详细要求请参考 assignment1_handout.pdf ##如何运行###...保持在同一目录中将整数参数传递给 task1.sh(或 task2.sh),指示作业开始于。第一次,该参数始终为 1

    论文研究-基于MapReduce的并行SFLA-FCM聚类算法.pdf

    该算法利用SFLA算法的子群内模因信息传递和全局信息交换来搜索高质量的聚类中心,根据MapReduce编程模型设计算法流程,实现并行化,使其具有处理大规模数据集的能力。实验证明,并行SFLA-FCM算法提高了的搜索能力和...

    Airplane-MapReduce:探索hadoop mapreduce进行航空公司延误分析的项目

    MapReduce航空公司调查该项目调查了1987年至2008年的航空公司数据。主要重点是延误。 哪些航空公司造成的延误最多,哪些城市与天气相关的延误最多,一天中的哪一天,一周中的几天或一年中的哪几个月是延误最差(或...

    完整版大数据云计算课程 Hadoop数据分析平台系列课程 Hadoop 04 MapReduce 共31页.pptx

    熟练地在Hadoop和操作系统以及关系型数据库之前传递数据 能独立制定数据集成方案 熟练地向Hadoop提交作业以及查询作业运行情况 了解Map-Reduce原理,能书写Map-Reduce程序 了解HDFS原理,能熟练地对HDFS中的文件进行...

    MapReduce_Programs:该存储库仅适用于MapReduce程序。

    矩阵矢量乘法:此处矩阵和矢量的维数通过输入文件发送(不作为参数传递)。 MATRIX MATRIX乘法:在这里,尺寸标注作为参数(通过JonConf)从驱动程序类传递(两个Matrix都默认为2×2)。 因此,应在驱动程序类中...

    MongoDB学习笔记之MapReduce使用示例

    使用 MapReduce 要实现两个函数 Map 函数和 Reduce 函数, Map 函数调用 emit(key, value), 遍历 collection 中所有的记录, 将key 与 value 传递给 Reduce 函数进行处理。Map 函数必须调用 emit(key, value) 返回键值...

    DMR:多核系统的确定性MapReduce

    我们提出DMR ,一种确定的MapReduce库,它保证MapReduce的应用程序在执行时并发行为的确定性,而不管地图或减少函数是否对输入数据的次序敏感。DMR对映射任务实施轮循的调度,并对减少任务实施划分的调度,从而保证...

    yelp-heat-map:Yelp 学术数据集的 MapReduce 算法,用于创建单词的地理热图

    经度] 值(IntWritable):频率目前已经使用 Yelp 在此处提供的评论和业务的 JSON 数据进行了测试: : 要运行该程序,您还需要获取 json-simple 库并将其作为参数传递给 libjars。 hadoop jar <buil

    大数据处理流程.pdf

    扩展: 1、数据处理主要技术 Sqoop:作为⼀款开源的离线数据传输⼯具,主要⽤于Hadoop(Hive) 与传统数据库(MySql,PostgreSQL)间的数据传递。它可以 将⼀个关系数据库中数据导⼊Hadoop的HDFS中,也可以将HDFS中的...

    论文研究-一种基于Pregel-like的社会网络隐私保护方法.pdf

    该方法避免了传统MapReduce模型在多次迭代处理时的数据反复迁移和作业连续调度等问题,利用“节点为中心”的思想,通过节点间消息传递和程序的多次迭代实现大规模社会网络的隐私保护处理。基本思想为,首先将社会...

    第七章-《大数据导论》大数据处理平台.pdf

    + 大量复杂的计算和分析 缺点: 依赖于单机性能:CPU + RAM (摩尔定律) 难以处理海量数据 分布式计算 基本思想: 使用一组计算机协调完成一项工作 分布式系统开发:MPI(消息传递接口) 总共287个函数 MPI_Send( )...

    Hadoop实战中文版

    6.3.1 通过combiner来减少网络流量 6.3.2 减少输入数据量 6.3.3 使用压缩 6.3.4 重用JVM 6.3.5 根据猜测执行来运行 6.3.6 代码重构与算法重写 6.4 小结 第7章 细则手册 7.1 向任务传递作业定制的参数 ...

    同一张地图的结果差异减少了在不同Hadoop平台上实现的传递关闭算法-研究论文

    Apache MapReduce是与Apache Hadoop一起使用的软件框架,该框架已成为事实上的用于在分布式计算环境中处理和存储大量数据的标准平台。 本文介绍的研究重点是针对不同的分布式环境运行时,有效的迭代传递闭合算法的...

    大数据面试题-.docx

    Client 端上传文件的时候下列哪项正确 a)数据经过 NameNode 传递给 DataNode b)Client 端将文件切分为 Block,依次上传 c)Client 只上传数据到一台 DataNode,然后由 NameNode 负责 Block 复制工作 11. 下列哪个是 ...

    Hadoop实战(陆嘉恒)译

    在云上运行Hadoop9.1 Amazon Web Services 简介9.2 安装AWS9.2.1 获得AWS身份认证凭据9.2.2 获得命令行工具9.2.3 准备SSH密钥对9.3 在EC2 上安装Hadoop9.3.1 配置安全参数9.3.2 配置集群类型9.4 在EC2 上运行...

    大数据的基础知识.pdf

    HDFS YARN MapReduce Map阶段并⾏处理数据 Reduce阶段对Map处理数据的结构进⾏汇总 ⼤数据体系 名词解释 序 序 号 号 名称 名称 描述 描述 1 Sqoop Sqoop是⼀款开源的⼯具,主要⽤于在Hadoop、Hive与传统的数据库...

Global site tag (gtag.js) - Google Analytics