Hive调优实战

博客分类：

hive

Hive优化总结 ---by 食人花优化时，把hive sql当做map reduce程序来读，会有意想不到的惊喜。理解hadoop的核心能力，是hive优化的根本。这是这一年来，项目组所有成员宝贵的经验总结。长期观察hadoop处理数据的过 ...

2014-01-16 21:09
浏览 864
评论(0)
分类:互联网

map和reduce 个数的设定（Hive优化）经典

博客分类：

hive

一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.siz ...

2014-01-16 21:03
浏览 693
评论(0)
分类:互联网

本文介绍了Facebook公司数据分析系统中的RCFile存储结构，该结构集行存储和列存储的优点于一身，在 MapReduce环境下的大规模数据分析中扮演重要角色。 Facebook曾在2010 ICDE（IEEE International Conference on Data Engineering）会议上介绍了数据仓库Hive。Hive存储海量数据在Hadoop系统中，提供了一套类数据库的数据存储和处理机制。它采用类 SQL语言对数据进行自动化管理和处理，经过语句解析和转换，最终生成基于Hadoop的MapReduce任务，通过执行这些任务完成数据处理。图1显示了Hive数据仓库的 ...

2014-01-13 12:36
浏览 653
评论(0)
分类:互联网

Hive 数据倾斜总结

博客分类：

hive

转载：http://www.tbdata.org/archives/2109 几个比较特殊的点都提到了，大家可以作为参考。在做Shuffle阶段的优化过程中，遇到了数据倾斜的问题，造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters� ...

2014-01-13 12:15
浏览 602
评论(0)
分类:互联网

hive merge file

博客分类：

hive

当Hive输入由很多个小文件组成，由于每个小文件都会启动一个map任务，如果文件过小，以至于map任务启动和初始化的时间大于逻辑处理的时间，会造成资源浪费，甚至OOM。为此，当我们启动一个任务，发现输入数据量小但任务数量多时，需要注意在Map前端进行输入合并当然，在我们向一个表写数据时，也需要注意输出文件大小 1. Map输入合并小文件对应参数： set mapred.max.split.size=256000000; #每个Map最大输入大小 set mapred.min.split.size.per.node=100000000; #一个节点上split的至少的大小 set m ...

2014-01-11 10:12
浏览 901
评论(0)
分类:互联网

Hive MapJoin 优化

博客分类：

hive

1、Hive本地MR 如果在hive中运行的sql本身数据量很小，那么使用本地mr的效率要比分布式的快很多。但是hive本地MR对内存使用很敏感，查询的数据不能太大，否则本地内存是吃不消的。 So the query processor will launch this task in a child jvm, which has the same heap size as the Mapper's. Since the Local Task may run out of memory, the query processor will measure the memory usage ...

2014-01-11 10:05
浏览 1059
评论(0)
分类:互联网

深入学习《Programing Hive》：数据压缩

博客分类：

hive

Hive使用的是Hadoop的文件系统和文件格式，比如TEXTFILE，SEQUENCEFILE等。在Hive中对中间数据或最终数据数据做压缩，是提高数据吞吐量和性能的一种手段。对数据做压缩，可以大量减少磁盘的存储空间，比如基于文本� ...

2014-01-08 17:22
浏览 1060
评论(0)
分类:互联网

Hive 中内部表与外部表的区别与创建方法

博客分类：

hive

先来说下Hive中内部表与外部表的区别： Hive 创建内部表时，会将数据移动到数据仓库指向的路径；若创建外部表，仅记录数据所在的路径，不对数据的位置做任何改变。在删除表的时候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。这样外部表相对来说更加安全些，数据组织也更加灵活，方便共享源数据。需要注意的是传统数据库对表数据验证是 schema on write（写时模式），而 Hive 在load时是不检查数据是否符合schema的，hive 遵循的是 schema on read（读时模式），只有在读的时候hive才检查、解析具体的数据字段、schema。读时模 ...

2014-01-08 17:21
浏览 2372
评论(0)
分类:互联网

MongoDB优化的方法

博客分类：

mongod

引自http://www.2cto.com/database/201203/123993.html 部署优化(Linux系统): 1.关闭MongoDB数据存储所在文件的atime(mount -o remount,noatime,nodiratime) 2.设置file descriptor limit和user process limit为4k+ 3.选择正确的文件系统.MongoDB的数据文件是采用的预分配模式,在Replication中,Master和Replica Sets的非Arbiter节点都是会预先创建足够的空文件用以存储操作日志.这些文件分配操作 ...

2013-11-27 22:52
浏览 614
评论(0)
分类:互联网

mongodb的监控与性能优化

博客分类：

mongod

引自http://my.oschina.net/baowenke/blog/97756 mongodb可以通过profile来监控数据，进行优化。查看当前是否开启profile功能用命令 db.getProfilingLevel() 返回level等级，值为0|1|2，分别代表意思：0代表关闭，1代表记录慢命令，2代表全部开始profile功能为

2013-11-27 22:41
浏览 750
评论(0)
分类:互联网

git远程分支更新

博客分类：

java

git remote prune origin清理掉远程不存在但本地存在的分支。或者说是清理掉远程已经删除的分支。

2013-10-09 16:44
浏览 864
评论(0)
分类:互联网

SVM-支持向量机算法概述

博客分类：

机器学习

SVM-支持向量机算法概述引自http://blog.csdn.net/passball/article/details/7661887 （一）SVM的背景简介支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的，它在解决小样本、非线性及高维模式识别中表现出许多特有的优势，� ...

2013-09-24 17:03
浏览 1037
评论(0)
分类:互联网

python安装

博客分类：

python

http://www.lfd.uci.edu/~gohlke/pythonlibs/#pyqt

2013-09-09 22:22
浏览 632
评论(0)
分类:互联网

lucene 使用教程<转>

博客分类：

lucene

引自http://cloudera.iteye.com/blog/656459 1 lucene简介 1.1 什么是lucene Lucene是一个全文搜索框架，而不是应用产品。因此它并不像http://www.baidu.com/ 或者google Desktop那么拿来就能用，它只是提供了一种工具让你能实现这些产品。 1.2 lucene� ...

2013-08-22 12:30
浏览 752
评论(0)
分类:互联网

mongodb---foursquare

博客分类：

mongod

http://blog.nosqlfan.com/tags/foursquare

2013-08-07 17:08
浏览 608
评论(0)
分类:互联网

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Hive调优实战

map和reduce 个数的设定（Hive优化）经典

HIVE RCFile高效存储结构

Hive 数据倾斜总结

hive merge file

Hive MapJoin 优化

深入学习《Programing Hive》：数据压缩

Hive 中内部表与外部表的区别与创建方法

MongoDB优化的方法

mongodb的监控与性能优化

git远程分支更新

SVM-支持向量机算法概述

python安装

lucene 使用教程<转>

mongodb---foursquare

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>