首先,公司的小组长给了我一个任务,把一个txt的文件中的部分内容,存进一个在hive中已有的表的相同结构的表中。所以我的流程主要有三个,首先,把数据处理成和hive中表相同结构的数据,然后仿照已有的hive中表的结构再创建一张新的数据表,最后把本地的txt文件上传到hive中新建的数据表中。

1:已有的数据表的结构和在hive表中的结构完全对不上,下面的图是原来hive中表的结构和小组长给我的txt中表的结构:

大家可以看出,我们原来的hive中表的字段一共有17个,而组长给我的表中的字段一共有9个,其中最后一个为json结构,而且顺序还不对,所以我们要进行筛选,把对应上的字段放到相应位置,对应不上的字段写成空。


大家要注意几个地方,原来的数据是按照tab来划分的,所以我们要数好对应的tab的数目,好来计算出来数据的实际的位置信息,然后我们按照原来hive表中的数据顺序,重新排列我们新建表的数据的顺序,下面给大家看看结果:

其中line[0]=null,line[1]=102,大家以此类推。

3:我们把本地的txt文件导入到hive表中。首先我们要新建一个和原来hive表中相同结构的数据表,然后把我们的数据导入到表中,

hive> creat table new_sft(x1 string,x2 string ,...,xn string) partitioned by (d string);

建好表之后,把数据导入到新表之中:

hive> load data local inpath‘/home/opendev/1.txt’ into table new_sft;

最后给大家看看我的最终的结果:




更多相关文章

  1. Python------类的结构细分,异常处理,方法,属性
  2. Python基本数据结构
  3. Python进阶----类的结构(公有成员 , 私有成员(私有属性,私有方法
  4. django npm和节点包体系结构
  5. python尝试自定义数据结构不知道怎么下手
  6. 《数据结构与算法Python语言描述》裘宗燕 笔记 第五章 栈和队列
  7. python opencv入门 轮廓的层次结构(21)
  8. Linux学习笔记(九)--RedHat 7.0之用户身份与文件权限、存储结构与
  9. Linux中断处理体系结构分析(二)

随机推荐

  1. 案例分享c++ map的使用和 查找性能测试
  2. C++引用的意义与引用的本质
  3. 从事C/C++开发多年,给零基础想学习C/C++的
  4. C++ 布尔类型和引用的用法详解
  5. C语言不简单,连程序员都这么说,为什么呢?
  6. C#引用类型: 按值传递,按引用传递的对比
  7. C++中的四种强制类型转换_基本用法及使用
  8. 探索C++虚函数在g++中的实现(动多态)_虚函
  9. C++11新特性 - 多态和虚函数,override说明
  10. 最新使用C#生成二维码方案,详解及实例 ( Q