这是用户在 2025-1-5 21:46 为 https://mooc1.chaoxing.com/exam-ans/exam/test/reVersionPaperMarkContentNew?courseId=233628237&classI... 保存的双语快照页面,由 沉浸式翻译 提供双语支持。了解如何保存?

期末练习题

题量: 82 满分: 100.0

考试时间:2024-12-16 14:302025-01-05 22:30

待批阅

一. 单选题(共 40 题,40.0 分)

1. (单选题, 1.0 分) 非关系型数据库不包括(  )。

  • A. Mapreduce
  • B. HBase
  • C. MongoDB
  • D. Neo4j
我的答案:A 正确答案: A
知识点:

2. (单选题, 1.0 分) 下面关于Hive数据装载描述正确的是 ( )

  • A. 什么场景,装载数据使用LOAD DATA效率最低
  • B. 最好使用INSERT插入数据
  • C. 可以使用LOAD DATA加载
  • D. 最好使用INSERT OVERWRITE插入数据
我的答案:A 正确答案: C
答案解析:
知识点:

3. (单选题, 1.0 分) 禁用 ipv6 需要修改的是哪个配置文件(  )

  • A. /etc/networks
  • B. ~/.bashrc
  • C. /etc/sysctl.conf
  • D. /etc/profile
我的答案:C 正确答案: C
知识点:

4. (单选题, 1.0 分) Hadoop 集群的关闭命令是?(  )

  • A. stop-dfs.sh
  • B. stop-all.sh
  • C. stop-hadoop.sh
  • D. stop-yarn.sh
我的答案:B 正确答案: B
知识点:

5. (单选题, 1.0 分) 下列( )不是非关系型数据库。

  • A. Redis
  • B. Hive
  • C. HBase
  • D. MongoDB
我的答案:B 正确答案: B
知识点:

6. (单选题, 1.0 分) 已知数组 trans_cnt[1,2,3,4],trans_cnt[2] 获取的结果为 ( )

  • A. 2
  • B. 1
  • C. 4
  • D. 3
我的答案:D 正确答案: D
答案解析:
知识点:

7. (单选题, 1.0 分) 以下业务应用中,不属于 Hive 适用的场景的是( )

  • A. 非实时分析
  • B. 数据汇总(每天或每周用户点击量的点击排行)
  • C. 数据挖掘(用户行为分析、兴趣分区、区域展示)
  • D. 实时的在线数据分析
我的答案:D 正确答案: D
答案解析:
知识点:

8. (单选题, 1.0 分) 大数据存储是指用存储器,以( )的形式,存储采集到数据的过程。

  • A. 数据库/数据仓库
  • B. 信息系统
  • C. 文件系统
  • D. 集群
我的答案:A 正确答案: A
知识点:

9. (单选题, 1.0 分) Hive 默认分桶的数量是( )

  • A. 1
  • B. -1
  • C. 0
  • D. 2
我的答案:D 正确答案: B
答案解析:
知识点:

10. (单选题, 1.0 分) 下面关于Hive数据倾斜问题描述正确的是 ( )

  • A. 小文件合并不会解决数据倾斜的问题
  • B. 可以适当的通过控制mapper和reducer来控制数据倾斜的问题
  • C. 不需要了解业务,对业务进行数据探查无法解决数据倾斜
  • D. 每一个数据倾斜的作业都需要优化
我的答案:A 正确答案: B
答案解析:

对业务数据了如指掌,能够明显的找出问题点,帮助解决数据倾斜问题

对作业或者数据计算没有强时间要求的作业,没有优化的必要

小文件合并会一定程度的缓解数据倾斜的问题

可以用Hive自身的mapper和reducer参数来优化Hive作业的执行效率,缓解数据倾斜的问题


知识点:

11. (单选题, 1.0 分) 在Hadoop 官方示例源码 WordCount中( )模块负责进行Hadoop 集群的初始化设置,提交任务并等待程序运行完成。

  • A. Main
  • B. Driver
  • C. Mapper
  • D. Reducer
我的答案:B 正确答案: B
答案解析:
知识点:

12. (单选题, 1.0 分) HQL中,“select ceil(2.34);”的输出结果为( )

  • A. 3
  • B. 2.3
  • C. 2
  • D. 4
我的答案:A 正确答案: A
知识点:

13. (单选题, 1.0 分) Hive是建立在( )之上的一个数据仓库。

  • A. HDFS
  • B. HBase
  • C. MapReduce
  • D. Hadoop
我的答案:D 正确答案: D
答案解析:
知识点:

14. (单选题, 1.0 分) 下列哪一个是 HADOOP HA 启动的第一个进程(  )

  • A. 启动 zookeeper
  • B. 在 master2 上执行命令,启动 yarn
  • C. 启动 journalnode
  • D. 在 master1 上执行命令,启动 hdfs 和 yarn
我的答案:A 正确答案: A
知识点:

15. (单选题, 1.0 分) 关于MapReduce 的输出格式,下列说法错误的是( )

  • A. TextOutputFormat:以键值对的方式输出行
  • B. SequeneeFileOutputFormat:输出文本文件,适合作为子MapReduce 作业输入
  • C. NulOuputFommat:忽略收到的数据,即没有输出
  • D. D.DBOutputFomat:可以将数据写人MySQL数据库中
我的答案:B 正确答案: B
知识点:

16. (单选题, 1.0 分) 增大可打开文件描述符数目需要修改哪个配置文件(  )

  • A. /etc/security/limits.conf
  • B. /etc/conf/limits.conf
  • C. /etc/conf/limit.conf
  • D. /etc/security/limt.conf
我的答案:A 正确答案: A
知识点:

17. (单选题, 1.0 分) Hive执行外部的脚本参数是( )

  • A. hive –sql
  • B. hive –f
  • C. hive –s
  • D. hive –e
我的答案:B 正确答案: B
答案解析:
知识点:

18. (单选题, 1.0 分) 在数据仓库的数据架构中,( )具有按业务场景组织数据的能力。

  • A. 结构化数据
  • B. 文档数据
  • C. 列式数据
  • D. 非结构化数据
我的答案:C 正确答案: C
知识点:

19. (单选题, 1.0 分) 下列不属于大数据项目实施工作流程的是(   )。

  • A. 项目设计阶段
  • B. 数据治理阶段
  • C. 系统运维阶段
  • D. 项目规划阶段
我的答案:C 正确答案: C
知识点:

20. (单选题, 1.0 分) 在HBase shell 操作中,以下命令用于删除整行的是( )

  • A. delete from 'users', 'xiaoming'
  • B. deleteall 'xiaoming'
  • C. deleteall 'users', 'xiaoming'
  • D. delete table from 'xiaoming'
我的答案:C 正确答案: C
答案解析:
知识点:

21. (单选题, 1.0 分) 在驱动类中,需要使用( )方法设置输出数据的格式

  • A. setOutputFormatClass()
  • B. setInputFormatClass()
  • C. setJarByClass()
  • D. setOutputKeyValueClass()
我的答案:A 正确答案: A
答案解析:
知识点:

22. (单选题, 1.0 分) 下列哪一个是 zookeeper 的进程(  )

  • A. NodeManage
  • B. DFSZKFailoverController
  • C. JournalNode
  • D. QuorumPeerMain
我的答案:D 正确答案: D
知识点:

23. (单选题, 1.0 分) 下列哪项通常是集群的最主要瓶颈( )

  • A. 内存
  • B. 磁盘 IO
  • C. 网络
  • D. CPU
我的答案: 正确答案: B
知识点:

24. (单选题, 1.0 分) 查看testable 表中的所有数据的命令是( )

  • A. Scan
  • B. desc
  • C. 以上都不对
  • D. list
我的答案: 正确答案: A
答案解析:
知识点:

25. (单选题, 1.0 分) Linux 操作系统 vm.swappiness 参数值被设置为 10,它的含义是(  )

  • A. 内存使用量达到系统内存的 90%时,操作系统不会地使用磁盘上的交换文件
  • B. 内存使用量达到系统内存的 90%时,操作系统会相当频繁地使用磁盘上的交换文件
  • C. 内存使用量达到系统内存的 10%时,操作系统不会地使用磁盘上的交换文件
  • D. 内存使用量达到系统内存的 10%时,操作系统会相当频繁地使用磁盘上的交换文件
我的答案: 正确答案: B
知识点:

26. (单选题, 1.0 分) 端口 50070 默认是 HDFS 哪个服务的端口?(  )

  • A. SecondaryNameNode
  • B. GFS
  • C. NameNode
  • D. DataNode
我的答案: 正确答案: C
知识点:

27. (单选题, 1.0 分) 当MapReduce处理数据时,下列执行流程正确的是( )

  • A. Map-Sort-Shuffle-Reduce
  • B. Map-Shuffle-Sort-Reduce
  • C. Map-Reduce-Shuffle-Sort
  • D. Shuffle-MapSort-Reduce
我的答案: 正确答案: B
答案解析:
知识点:

28. (单选题, 1.0 分) 对于Hadoop官方示例源码 WordCount,从结构上可以分为3个部分,下列不属于程序核心模块的是( )

  • A. Driver 模块
  • B. Reducer模块
  • C. Mapper模块
  • D. Main 模块
我的答案: 正确答案: D
答案解析:
知识点:

29. (单选题, 1.0 分) (   )是检查系统对非法侵入的防范能力。

  • A. 性能测试
  • B. 安全测试
  • C. 功能测试
  • D. 验收测试
我的答案: 正确答案: B
答案解析:
知识点:

30. (单选题, 1.0 分) 查看当前 HBase 中的表数据的命令是( )

  • A. list
  • B. describe
  • C. scan
  • D. show database
我的答案: 正确答案: A
答案解析:
知识点:

31. (单选题, 1.0 分) 如今舆情分析大数据平台系统多采用(  )架构。

  • A. Unifield
  • B. Kappa
  • C. Lambda
  • D. 流式
我的答案: 正确答案: C
知识点:

32. (单选题, 1.0 分) 下列关于Hadoop 序列化说法错误的是( )

  • A. 能够高效使用存储空间、具有紧凑性
  • B. 具有扩展性,可透明地读取旧格式的数据
  • C. 读取速度快,读取数据额外的开销小
  • D. 具有独文性,只能使用Java 读写数据
我的答案: 正确答案: D
答案解析:
知识点:

33. (单选题, 1.0 分) HIVE与传统SQL数据库对比,下面描述不正确的是( )

  • A. 执行延迟: HIVE属于高,传统SQL数据库属于低
  • B. 对于数据存储: HIVE使用HDFS存储,传统SQL数据库使用本地磁盘
  • C. 对于查询语言: HIVE使用HQL,传统SQL数据库使用SQL
  • D. 最终执行者: HIVE使用MapReduce和Excutor执行,传统SQL数据库使用Excutor执行器
我的答案: 正确答案: D
答案解析:
知识点:

34. (单选题, 1.0 分) 使配置的环境变量生效的命令是

  • A. cat ~/.bashrc
  • B. vi ~/.bashrc
  • C. source ~/bashrc
  • D. source ~/.bashrc
我的答案: 正确答案: D
知识点:

35. (单选题, 1.0 分) 创建 Hive 数据表时,指定字段之间的分隔符,需要使用( )语句。

  • A. map keys terminated
  • B. row format delimited
  • C. collection items terminated by
  • D. fields terminated by
我的答案: 正确答案: D
答案解析:
知识点:

36. (单选题, 1.0 分) 下面与ZooKeeper类似的框架是( )。

  • A. Java
  • B. Kafka
  • C. Chubby
  • D. Protobuf
我的答案: 正确答案: C
答案解析:
知识点:

37. (单选题, 1.0 分) 为了使Hive 命令在任何目录下生效,需要在( )文件中配置 Hive 的全局变量

  • A. /optapache-hive-3.1.2-bin/conf/hive-eny.sh
  • B. /etc/profile
  • C. /optapache-hive-3.1.2-bin/conf/hive-site.xml
  • D. /etc/hosts
我的答案: 正确答案: B
答案解析:
知识点:

38. (单选题, 1.0 分) 下列( )情况不适合添加 Combiner。

  • A. MapReduce程序求和
  • B. MapRcduce 程序求平均值
  • C. MapReduce程序求最大值
  • D. MapReduce程序实现单词计数
我的答案: 正确答案: B
答案解析:
知识点:

39. (单选题, 1.0 分) 当提交某个 MapReduce 任务后,在任务列表中显示该任务的状态为“RUNNING”这表示该任务当前的运行状态是( )

  • A. 正在执行中
  • B. 等待执行中
  • C. 正在接受中
  • D. 任务恢复中
我的答案: 正确答案: A
答案解析:
知识点:

40. (单选题, 1.0 分) 以下哪种情况容易引发 HDFS 负载不均问题?( )

  • A. HDFS中Block 的大小设置不合理
  • B. HDFS中存储的文件大小不一,小文件太多
  • C. Data各数据节点磁盘规格和空间大小有差异
  • D. NameNode与DataNode节点在同一物理服务器上
我的答案: 正确答案: C
知识点:

二. 多选题(共 10 题,20.0 分)

41. (多选题, 2.0 分) Hive 的访问方式有哪些?(    )

  • A. shell
  • B. Web UI
  • C. ssh
  • D. JDBC
我的答案: 正确答案: ABD
知识点:

42. (多选题, 2.0 分) 可以用几台机器配置高可用(    )

  • A. 1
  • B. 3
  • C. 5
  • D. 4
我的答案: 正确答案: BC
知识点:

43. (多选题, 2.0 分) Hadoop 集群的三大核心组件是()

  • A. MapReduce
  • B. YARN
  • C. Zookeeper
  • D. HDFS
我的答案: 正确答案: ABD
知识点:

44. (多选题, 2.0 分) 下列属于数据可视化软件及工具的有哪些(  )。

  • A. R 语言中ggplot2、highcharter 等库包
  • B. Echarts
  • C. Python 中 Matplotlipyecharts 等库包
  • D. D3.js
我的答案: 正确答案: ABCD
知识点:

45. (多选题, 2.0 分) 目前主流 Linux 发行版本使用 I/O 调度器有哪些(  )

  • A. Scheduler
  • B. NOOP
  • C. CFQ
  • D. DeadLine
我的答案: 正确答案: BCD
知识点:

46. (多选题, 2.0 分) 大数据处理流程一般分为(    )。

  • A. 数据分析与挖掘
  • B. 数据存储
  • C. 数据可视化
  • D. 数据采集与预处理
我的答案: 正确答案: ABCD
知识点:

47. (多选题, 2.0 分) Yarn 主要涉及到以下哪几个角色(    )

  • A. PM: ProgramManager(程序管理者)
  • B. RM: ResourceManager(资源管理者)
  • C. AM: ApplicationMaster(应用程序管理者)
  • D. NM: NodeMananger(节点管理者)
我的答案: 正确答案: BCD
知识点:

48. (多选题, 2.0 分) 在 Linux 中,查看服务器负载和资源占用情况的常用命令有()

  • A. free
  • B. iostats
  • C. top
  • D. Vmstats
我的答案: 正确答案: AC
知识点:

49. (多选题, 2.0 分) 启动 yarn 命令后会出现哪些进程( )

  • A. DataNode
  • B. ResourceManager
  • C. NameNode
  • D. NodeManager
我的答案: 正确答案: BD
知识点:

50. (多选题, 2.0 分) 以下哪种是 Hive 支持的数据类型 ( )

  • A. Struct
  • B. Long
  • C. Int
  • D. Map
我的答案: 正确答案: ACD
答案解析:
知识点:

三. 填空题(共 15 题,15.0 分)

51. (填空题, 1.0 分) 加载环境变量配置文件需要使用____命令。

我的答案:
正确答案:
(1) source /etc/profile
答案解析:
知识点:

52. (填空题, 1.0 分) Hadoop fs中的-get和-put命令操作对象是____和____。

我的答案:
正确答案:
(1) 文件
(2) 目录
答案解析:
知识点:

53. (填空题, 1.0 分) 对静态数据和流数据的处理,对应着两种截然不同的计算模式: ____和____

我的答案:
正确答案:
(1) 批量计算
(2) 实时计算
答案解析:
知识点:

54. (填空题, 1.0 分) 脚本一键启动Hadoop集群服务命令是____。

我的答案:
正确答案:
(1) start-all.sh
答案解析:
知识点:

55. (填空题, 1.0 分) 格式化HDFS集群命令是____。

我的答案:
正确答案:
(1) hadoop namenode -format
答案解析:
知识点:

56. (填空题, 1.0 分) HBase采用____、____、____和____进行索引。

我的答案:
正确答案:
(1) 行键
(2) 列族
(3) 列限定符
(4) 时间戳
知识点:

57. (填空题, 1.0 分) ____用于维护文件系统名称并管理客户端对文件的访问,____存储真实的数据块。

我的答案:
正确答案:
(1) NameNode
(2) DataNode
答案解析:
知识点:

58. (填空题, 1.0 分) 列举hive中5个聚合函数?____、____、____、____、____

我的答案:
正确答案:
(1) sum()
(2) max()
(3) min()
(4) count()
(5) avg()
答案解析:
知识点:

59. (填空题, 1.0 分) 数据中常见的类型有____、____、____、____。

我的答案:
正确答案:
(1) 视频
(2) 图片
(3) 音频
(4) 日志
答案解析:
知识点:

60. (填空题, 1.0 分) Hive查询语句select ceil(2.34)输出内容是____。

我的答案:
正确答案:
(1) 3
答案解析:
知识点:

61. (填空题, 1.0 分) NameNode与DataNode通过 ____机制互相通信。

我的答案:
正确答案:
(1) 心跳监测
答案解析:
知识点:

62. (填空题, 1.0 分) 数据总体上可以分为____和____。

我的答案:
正确答案:
(1) 静态数据
(2) 流数据
答案解析:
知识点:

63. (填空题, 1.0 分) 控制台日志打印级别分别有           、           、           、           

我的答案:
正确答案:
(1) INFO
(2) DEBUG
(3) ERROR
(4) WARN
知识点:

64. (填空题, 1.0 分) HBase的系统架构: ____、____、____、____等

我的答案:
正确答案:
(1) 客户端
(2) Zookeeper服务器
(3) Master主服务器
(4) Region服务器
知识点:

65. (填空题, 1.0 分) hive中包含以下四类数据模型: ____、____、____、____。

我的答案:
正确答案:
(1) 数据库
(2) 表
(3) 分区
(4) 桶
答案解析:
知识点:

四. 判断题(共 15 题,15.0 分)

66. (判断题, 1.0 分) 大数据的数据类型丰富,包括结构化数据、半结构化数据和非结构化数据。

  • A. 对
  • B. 错
我的答案: 正确答案:
知识点:

67. (判断题, 1.0 分) NameNode 负责管理 metadata,client 端每次读写请求,它都会从磁盘中读取或则会写入 metadata 信息并反馈 client 端。

  • A. 对
  • B. 错
我的答案: 正确答案:
知识点:

68. (判断题, 1.0 分) 大数据处理速度快,但时效性要求却很低。

  • A. 对
  • B. 错
我的答案: 正确答案:
知识点:

69. (判断题, 1.0 分) Hadoop 是 Java 开发的,所以 MapReduce 只支持 Java 语言编写。

  • A. 对
  • B. 错
我的答案: 正确答案:
知识点:

70. (判断题, 1.0 分) Hive是数据仓库工具 ( )

  • A. 对
  • B. 错
我的答案: 正确答案:
答案解析:
知识点:

71. (判断题, 1.0 分) 防火墙策略也称为防火墙的安全规则,它是防火墙实施网络保护的重要依据。

  • A. 对
  • B. 错
我的答案: 正确答案:
知识点:

72. (判断题, 1.0 分) Elasticsearch 是一个分布式的开源搜索和分析引擎,适用于所有类型的数据,包括文本、数字、地理空间、结构化和非结构化数据。

  • A. 对
  • B. 错
我的答案: 正确答案:
知识点:

73. (判断题, 1.0 分) Hive能够用来进行海量数据的存储、查询和离线分析 ( )

  • A. 对
  • B. 错
我的答案: 正确答案:
答案解析:
知识点:

74. (判断题, 1.0 分) 分组语句中,where只用于group by分组统计语句 ( )

  • A. 对
  • B. 错
我的答案: 正确答案:
答案解析:
知识点:

75. (判断题, 1.0 分) 因为 HDFS 有多个副本,所以 NameNode 是不存在单点问题的。

  • A. 对
  • B. 错
我的答案: 正确答案:
知识点:

76. (判断题, 1.0 分) Hive的最大优点是,可以将SQL翻译成 MapReduce 去Hadoop上执行,这样就使得数据开发和分析人员很方便的使用Hive来完成海量数据的统计和分析,而不必使用编程语言开发( )

  • A. 对
  • B. 错
我的答案: 正确答案:
答案解析:
知识点:

77. (判断题, 1.0 分) hive驱动器包括解析器,编译器,反编译器,执行器 ( )

  • A. 对
  • B. 错
我的答案: 正确答案:
答案解析:
知识点:

78. (判断题, 1.0 分) 故障报告应该写清故障时间、故障表现、理论表现、故障有关的操作以及如何重现。

  • A. 对
  • B. 错
我的答案: 正确答案:
知识点:

79. (判断题, 1.0 分) 日志一般为结构化或非结构化的二进制文件,可以利用日志分析工具进行事后分析。

  • A. 对
  • B. 错
我的答案: 正确答案:
知识点:

80. (判断题, 1.0 分) 在删除内部表时:内部表的元数据被删除,数据本身不删除。 ( )

  • A. 对
  • B. 错
我的答案: 正确答案:
答案解析:
知识点:

五. 简答题(共 2 题,10.0 分)

81. (简答题, 5.0 分) 在hive中内部表和外部表有什么区别?

我的答案:
正确答案:

在创建外部表的时候要加关键字 external内部表: 在HIVE中使用命令删除hive表时,hive所对应的hdfs的目录也会被删除;元数据库中的数据也被删除.
外部表: 在hive中删除了外部表,而外部表所对应的hdfs目录不会被删除;元数据库被删除

答案解析:
知识点:

82. (简答题, 5.0 分) 请列举出Hadoop生态圈相关组件,并简要说明组件作用。

我的答案:
正确答案:
知识点:

教师评语:
一. 单选题(40.0 分)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
二. 多选题(20.0 分)
  • 41
  • 42
  • 43
  • 44
  • 45
  • 46
  • 47
  • 48
  • 49
  • 50
三. 填空题(15.0 分)
  • 51
  • 52
  • 53
  • 54
  • 55
  • 56
  • 57
  • 58
  • 59
  • 60
  • 61
  • 62
  • 63
  • 64
  • 65
四. 判断题(15.0 分)
  • 66
  • 67
  • 68
  • 69
  • 70
  • 71
  • 72
  • 73
  • 74
  • 75
  • 76
  • 77
  • 78
  • 79
  • 80
五. 简答题(10.0 分)
  • 81
  • 82