hive任务结束了，但是hive终端或者命令行没退出

问题描述：从一个100多亿条记录的hive表里查数据，查出数据后，写入一张新hive表里。mapreduce执行完load data环节后，一直不结束，哪位大神知道怎么更进一步地定位问题？

原因分析：文件比较多，最后一个movetask在移动文件和搜集文件统计信息。hive是迭代式计算，最后会有一个movetask把最终数据文件移动到hive的location下，这个过程有两个地方比较耗时，一个是rename，另外一个是list文件读文件元数据，更新元数据库的统计信息，如果数据在对象存储，rename是copy+delete，这个过程会比较慢，movetask是finaltask，不会起mr，任务没完成前，新表里的数据，不是全量的，只是部分。只有任务退出，才算完全完成

解决方案：

set hive.stats.autogather=false;开启收集线程，可以减少最后收集的时间

mapred.dfsclient.parallelism.max 20 增加并行rename的能力

发布日期
2020年11月19日
发布于 Hadoop

发表评论取消回复