`
文章列表

Hive调优实战

    博客分类:
  • hive
Hive优化总结   ---by 食人花       优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。 理解hadoop的核心能力,是hive优化的根本。这是这一年来,项目组所有成员宝贵的经验总结。   长期观察hadoop处理数据的过 ...
一、    控制hive任务中的map数: 1.    通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.siz ...
本文介绍了Facebook公司数据分析系统中的RCFile存储结构,该结构集行存储和列存储的优点于一身,在 MapReduce环境下的大规模数据分析中扮演重要角色。 Facebook曾在2010 ICDE(IEEE International Conference on Data Engineering)会议上介绍了数据仓库Hive。Hive存储海量数据在Hadoop系统中,提供了一套类数据库的数据存储和处理机制。它采用类 SQL语言对数据进行自动化管理和处理,经过语句解析和转换,最终生成基于Hadoop的MapReduce任务,通过执行这些任务完成数据处理。图1显 示了Hive数据仓库的 ...

Hive 数据倾斜总结

    博客分类:
  • hive
  转载:http://www.tbdata.org/archives/2109 几个比较特殊的点都提到了,大家可以作为参考。 在做Shuffle阶段的优化过程中,遇到 了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters ...

hive merge file

    博客分类:
  • hive
当Hive输入由很多个小文件组成,由于每个小文件都会启动一个map任务,如果文件过小,以至于map任务启动和初始化的时间大于逻辑处理的时间,会造成资源浪费,甚至OOM。 为此,当我们启动一个任务,发现输入数据量小但任务数量多时,需要注意在Map前端进行输入合并 当然,在我们向一个表写数据时,也需要注意输出文件大小 1. Map输入合并小文件 对应参数: set mapred.max.split.size=256000000;  #每个Map最大输入大小 set mapred.min.split.size.per.node=100000000; #一个节点上split的至少的大小  set m ...

Hive MapJoin 优化

    博客分类:
  • hive
1、Hive本地MR   如果在hive中运行的sql本身数据量很小,那么使用本地mr的效率要比分布式的快很多。但是hive本地MR对内存使用很敏感,查询的数据不能太大,否则本地内存是吃不消的。 So the query processor will launch this task in a child jvm, which has the same heap size as the Mapper's. Since the Local Task may run out of memory, the query processor will measure the memory usage ...
Hive使用的是Hadoop的文件系统和文件格式,比如TEXTFILE,SEQUENCEFILE等。          在Hive中对中间数据或最终数据数据做压缩,是提高数据吞吐量和性能的一种手段。对数据做压缩,可以大量减少磁盘的存储空间,比如基于文本 ...
先来说下Hive中内部表与外部表的区别: Hive 创建内部表时,会将数据移动到数据仓库指向的路径;若创建外部表,仅记录数据所在的路径, 不对数据的位置做任何改变。在删除表的时候,内部表的元数据和数据会被一起删除, 而外部表只删除元数据,不删除数据。这样外部表相对来说更加安全些,数据组织也更加灵活,方便共享源数据。 需要注意的是传统数据库对表数据验证是 schema on write(写时模式),而 Hive 在load时是不检查数据是否 符合schema的,hive 遵循的是 schema on read(读时模式),只有在读的时候hive才检查、解析具体的 数据字段、schema。 读时模 ...

MongoDB优化的方法

引自http://www.2cto.com/database/201203/123993.html 部署优化(Linux系统):   1.关闭MongoDB数据存储所在文件的atime(mount -o remount,noatime,nodiratime)   2.设置file descriptor limit和user process limit为4k+    3.选择正确的文件系统.MongoDB的数据文件是采用的预分配模式,在Replication中,Master和Replica Sets的非Arbiter节点都是会预先创建足够的空文件用以存储操作日志.这些文件分配操作 ...
引自http://my.oschina.net/baowenke/blog/97756   mongodb可以通过profile来监控数据,进行优化。 查看当前是否开启profile功能用命令 db.getProfilingLevel()  返回level等级,值为0|1|2,分别代表意思:0代表关闭,1代表记录慢命令,2代表全部 开始profile功能为

git远程分支更新

    博客分类:
  • java
 git remote prune origin清理掉远程不存在但本地存在的分支。或者说是清理掉远程已经删除的分支。 
SVM-支持向量机算法概述 引自http://blog.csdn.net/passball/article/details/7661887 (一)SVM的背景简介 支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势, ...

python安装

http://www.lfd.uci.edu/~gohlke/pythonlibs/#pyqt
引自http://cloudera.iteye.com/blog/656459 1 lucene简介 1.1 什么是lucene Lucene是一个全文搜索框架,而不是应用产品。因此它并不像http://www.baidu.com/ 或者google Desktop那么拿来就能用,它只是提供了一种工具让你能实现这些产品。 1.2 lucene ...

mongodb---foursquare

http://blog.nosqlfan.com/tags/foursquare
Global site tag (gtag.js) - Google Analytics