2025 睿抗CAIP大数据应用开发赛项省赛样题

单选题

题目 1

在基于国产操作系统环境下搭建大数据平台的容器环境时，以下哪个工具常用于容器化部署与管理？

A. Docker
B. Tomcat
C. Nginx
D. Maven

题目 2

关于 Hadoop 平台，以下说法正确的是

A. Hadoop 仅支持 Java 语言进行开发
B. HDFS 是 Hadoop 的分布式文件系统，不具备容错能力
C. MapReduce 是 Hadoop 的计算模型，适用于离线数据处理
D. Hadoop 无法处理大规模数据集

题目 3

在离线数据处理中，使用 Hive 数据仓库进行数据查询时，通常使用的查询语言是

A. SQL
B. Python
C. Scala
D. Java

题目 4

以下哪种机器学习算法不属于监督学习？

A. 决策树
B. 支持向量机
C. 聚类算法
D. 线性回归

题目 5

在基于国产操作系统环境下，利用 Flume 组件进行实时数据采集时，Flume 的核心组成部分不包括

A. Source
B. Channel
C. Sink
D. Master

题目 6

在实时计算中，Flink 平台的流式处理模型具有的特点是

A. 只能处理有界数据流
B. 仅支持批处理
C. 能够处理无界数据流，具有低延迟、高吞吐等特性
D. 不支持事件时间处理

题目 7

在数据采集与实时计算中，Kafka 组件的主要功能是

A. 数据存储
B. 数据实时计算
C. 分布式消息队列，实现数据的高吞吐量、可持久化传输
D. 数据可视化

题目 8

在数据可视化中，基于 Vue.js 前端框架和 REST 风格的数据接口，使用 JavaScript 语言绘制图表时，以下哪个库常用于数据可视化展示？

A. React
B. jQuery
C. ECharts
D. Bootstrap

题目 9

以下关于 Redis 的描述，错误的是

A. Redis 是一个基于内存的高性能键值对数据库
B. Redis 不支持数据持久化
C. Redis 可以用作缓存数据库
D. Redis 支持多种数据结构

题目 10

在大数据技术的综合分析中，撰写技术分析报告时，不应该包含的内容是

A. 数据处理流程与算法介绍
B. 实验结果与性能评估
C. 个人生活经历
D. 技术难点与解决方案

题目 11

在国产操作系统容器环境中搭建 Hadoop 大数据平台时，Hadoop 配置文件中用于指定 HDFS 副本数的参数是

A. dfs.replication
B. mapreduce.job.reduces
C. yarn.nodemanager.resource.memory-mb
D. fs.defaultFS

题目 12

以下关于 Spark 的 RDD（弹性分布式数据集）特性，说法错误的是

A. RDD 具有容错性，通过血统关系恢复数据
B. RDD 是不可变的，任何操作都会生成新的 RDD
C. RDD 仅支持基于内存的计算，不支持磁盘存储
D. RDD 支持多种转换和行动操作

题目 13

在 Hive 数据仓库中，以下哪种分区方式是根据数据的某一列值进行分区存储？

A. 静态分区
B. 动态分区
C. 桶分区
D. 复合分区

题目 14

对于数据挖掘中的决策树算法，以下关于剪枝操作的描述，正确的是

A. 剪枝只能在决策树构建完成后进行（后剪枝）
B. 剪枝是为了增加决策树的复杂度，提高分类准确率
C. 预剪枝可能导致决策树欠拟合
D. 剪枝操作对决策树的性能没有影响

题目 15

在使用 Flink 进行实时数据流分析时，若要对乱序到达的数据按照事件实际发生时间进行处理，应使用

A. Processing Time
B. Event Time
C. Ingestion Time
D. Wall Clock Time

题目 16

Kafka 中，以下哪个概念用于标识消息的主题，生产者将消息发送到指定主题，消费者从主题中读取消息？

A. Topic
B. Partition
C. Offset
D. Consumer Group

题目 17

以下关于 Flume 的 Channel 组件，说法正确的是

A. Memory Channel 数据存储在内存中，不会丢失数据
B. File Channel 数据存储在磁盘上，可靠性较低
C. JDBC Channel 可直接将数据存储到关系型数据库中
D. Kafka Channel 可以将数据直接发送到 Kafka 主题中

题目 18

在数据可视化中，使用 ECharts 绘制饼图时，若要设置饼图各部分的颜色，应修改以下哪个属性？

A. series.data
B. series.itemStyle.color
C. title.text
D. legend.data

题目 19

在 Redis 中，以下哪种数据结构适用于实现消息队列，并且支持阻塞式读取操作？

A. String
B. Hash
C. List
D. Set

题目 20

在大数据平台搭建中，若要实现容器的资源隔离与限制，以下哪种技术常用于 Docker 容器？

A. cgroups（控制组）
B. SELinux（安全增强型 Linux）
C. iptables（防火墙）
D. NFS（网络文件系统）

题目 21

关于 Spark Streaming，以下说法正确的是

A. Spark Streaming 只能处理实时数据流，不能处理离线数据
B. Spark Streaming 采用微批次处理模型，将实时数据流分割为小的批次进行处理
C. Spark Streaming 不支持与其他 Spark 组件（如 Spark SQL）集成
D. Spark Streaming 处理实时数据的延迟比 Flink 更高

题目 22

在 Hive 中创建外部表时，以下说法正确的是

A. 外部表的数据存储在 Hive 自己的目录结构下
B. 删除外部表时，数据也会被一并删除
C. 外部表适用于数据由其他系统管理，Hive 仅进行查询分析的场景
D. 外部表不支持分区操作

题目 23

在数据挖掘中，K-Means 聚类算法的核心步骤不包括

A. 初始化聚类中心
B. 计算数据点到聚类中心的距离
C. 根据距离重新分配数据点到聚类中心
D. 计算数据点之间的相关系数

题目 24

在使用 Flink 进行实时计算时，若要实现窗口聚合操作，以下哪种窗口类型适用于按照固定时间间隔对数据进行聚合？

A. 滚动窗口（Tumbling Windows）
B. 滑动窗口（Sliding Windows）
C. 会话窗口（Session Windows）
D. 全局窗口（Global Windows）

题目 25

Kafka 的 ISR（In-Sync Replicas）副本集合的作用是

A. 存储所有副本数据
B. 标识与领导者副本保持同步的副本集合
C. 负责处理消费者的读请求
D. 控制分区的数量

题目 26

在数据可视化中，使用 Vue.js 开发数据可视化页面时，若要实现页面组件的动态加载，应使用以下哪种技术？

A. Vue Router
B. Vuex
C. 动态 import
D. 过滤器（Filter）

题目 27

以下关于 MySQL 在大数据场景中的应用，说法错误的是

A. MySQL 适合存储结构化数据
B. 当数据量过大时，MySQL 可通过分库分表提高性能
C. MySQL 完全不适合大数据实时计算场景
D. MySQL 可以作为大数据分析结果的存储数据库

题目 28

在大数据平台中，Zookeeper 常被用于

A. 数据存储
B. 分布式协调服务，如 Hadoop、Kafka 的集群管理
C. 数据实时计算
D. 数据可视化

题目 29

在使用 Scala 语言进行 Spark 编程时，若要对 RDD 中的数据进行分组聚合操作，应使用以下哪个函数？

A. map
B. filter
C. groupByKey
D. flatMap

题目 30

在大数据综合分析报告中，关于业务需求分析部分，应包含的内容不包括

A. 业务目标与背景介绍
B. 业务流程梳理
C. 系统架构设计
D. 业务痛点与需求描述

题目 31

某企业在国产操作系统容器环境中搭建 Hadoop 大数据平台后，发现数据写入速度极慢。经排查，HDFS 的网络 I/O 占用率持续处于高位。结合 Hadoop 数据存储机制，以下最有可能的原因是

A. dfs.replication 设置过高，导致数据副本同步占用大量网络资源
B. mapreduce.job.reduces 设置不合理，影响数据处理速度
C. yarn.nodemanager.resource.memory-mb 内存分配不足
D. fs.defaultFS 配置错误

题目 32

开发团队使用 Spark 对某电商平台的用户行为数据进行离线分析，在执行一个复杂的聚合计算任务时，程序出现内存溢出错误。已知该任务涉及大量数据的 join 操作，以下优化措施最有效的是

A. 增加 map 操作的并行度
B. 对数据进行分区，根据 join 键重新分区后再执行 join 操作
C. 减少 reduce 任务的数量
D. 提高 driver 节点的内存分配

题目 33

在 Hive 数据仓库中，某分析师创建了一个分区表用于存储不同地区的销售数据。随着数据量增长，查询特定地区数据时速度变得极慢。已知表的分区字段为“地区”，以下优化方案合理的是

A. 将静态分区改为动态分区
B. 对表进行桶分区，桶字段设置为“销售金额”
C. 增加分区字段，采用复合分区，新增“销售时间”作为分区字段
D. 删除分区，将数据存储为非分区表

题目 34

某数据挖掘团队使用决策树算法对客户信用风险进行分类预测，在训练模型时发现，模型在训练集上准确率高达 98%，但在测试集上准确率仅为 60%。以下最可能导致该问题的原因是

A. 训练数据量过少
B. 决策树未进行剪枝操作，导致过拟合
C. 测试数据与训练数据分布不一致
D. 特征选择不合理，遗漏重要特征

题目 35

某互联网公司使用 Flink 处理实时用户点击流数据，要求计算用户在 10 分钟内的连续点击次数。若检测到用户 5 分钟内无点击，则重新计数。针对该需求，最合适的窗口类型是

A. 滚动窗口（Tumbling Windows），窗口大小 10 分钟
B. 滑动窗口（Sliding Windows），窗口大小 10 分钟，滑动步长 1 分钟
C. 会话窗口（Session Windows），会话超时时间 5 分钟
D. 全局窗口（Global Windows），结合自定义触发器

题目 36

在 Kafka 消息队列中，某生产者向一个有 3 个分区的 Topic 发送消息，配置了 acks=all。当其中一个分区的 leader 副本故障时，生产者发送消息会

A. 立即抛出异常，消息发送失败
B. 等待该分区新的 leader 选举完成，消息发送成功
C. 消息会被发送到其他正常分区，仅丢失故障分区消息
D. 消息暂存本地，待故障修复后自动重发

题目 37

某公司利用 Flume 采集服务器日志数据并传输到 Kafka 中。在运行过程中，发现 Kafka 中部分消息丢失。经检查，Flume 的 Source 和 Sink 配置正常，以下最可能的原因是

A. Memory Channel 内存不足，导致数据丢失
B. File Channel 文件损坏，数据无法正常传输
C. Kafka Channel 与 Kafka 集群连接不稳定
D. Flume 采集数据速度大于 Kafka 消费数据速度，导致消息积压后被丢弃

题目 38

某数据可视化团队使用 Vue.js 和 ECharts 开发销售数据可视化页面。在展示年度销售趋势折线图时，发现图表数据更新不及时，存在延迟。已知数据接口返回数据正常，以下优化措施正确的是

A. 增加 ECharts 图表的渲染层级
B. 使用 Vue 的 watch 监听数据变化，数据更新时重新渲染 ECharts 图表
C. 更换更高效的 ECharts 图表类型
D. 增加页面的 CSS 样式复杂度，提升页面美观度

题目 39

在 Redis 缓存应用中，某电商网站将热门商品信息存储在 Redis 中。当商品库存发生变化时，需要及时更新 Redis 中的数据。以下更新策略最合适的是

A. 定时批量更新 Redis 中的商品库存数据
B. 在商品库存数据写入数据库后，立即同步更新 Redis 中的数据
C. 在用户查询商品时，检查数据库和 Redis 数据一致性，不一致则更新 Redis
D. 不主动更新 Redis 数据，当 Redis 数据过期后，从数据库重新加载

题目 40

某大数据平台采用 Docker 容器部署服务，在高并发请求场景下，部分容器出现资源争抢导致服务响应缓慢。为优化资源分配，应如何调整 Docker 容器的 cgroups 设置？

A. 增加所有容器的 CPU 份额，提高整体处理能力
B. 根据服务重要性和资源需求，为不同容器设置合理的 CPU、内存等资源限制和份额
C. 减少容器的内存限制，让容器可以占用更多内存
D. 关闭 cgroups 资源限制，让容器自由竞争资源

题目 41

某团队使用 Spark Streaming 处理实时订单数据，需求是统计每 5 分钟内的订单总金额。在实际运行中发现，统计结果与实际金额存在偏差。已知数据输入正常，以下可能的原因是

A. Spark Streaming 的微批次时间间隔设置过长
B. 订单数据在传输过程中发生丢失
C. 对订单金额的累加操作在分布式环境下存在并发问题
D. 没有使用状态管理来保存中间计算结果

题目 42

在 Hive 中对一张包含海量用户数据的表进行查询，查询条件涉及多个字段的过滤和聚合操作。为提高查询性能，以下操作不合理的是

A. 对查询涉及的字段建立索引
B. 启用 Hive 的并行查询功能
C. 将大表进行分区和分桶
D. 增加 Hive 客户端的内存分配

题目 43

某数据挖掘项目使用 K-Means 算法对用户进行聚类，以实现精准营销。在确定聚类数 K 时，通过计算不同 K 值下的轮廓系数发现，当 K=3 时轮廓系数最大。但在实际应用中，将用户分为 3 类无法满足业务需求，聚类结果区分度不高。此时应

A. 坚持使用 K=3，调整其他营销策略
B. 继续增大 K 值，直到找到满足业务需求的聚类数
C. 尝试使用其他聚类算法或结合领域知识重新确定 K 值
D. 减少数据维度，重新进行聚类

题目 44

某公司使用 Flink 进行实时流量监控，需要对异常流量进行实时告警。已知正常流量波动范围在一定阈值内，当流量超过该阈值时触发告警。以下实现方式正确的是

A. 使用滚动窗口统计固定时间内的流量，与阈值比较，超过则告警
B. 使用滑动窗口实时计算流量，当窗口内流量超过阈值时告警
C. 使用会话窗口，根据流量会话情况判断是否告警
D. 使用全局窗口，结合定时器定期检查流量是否超过阈值

题目 45

在 Kafka 集群中，某消费者组中有多个消费者实例。当一个新的消费者实例加入该消费者组时，会发生

A. 该消费者实例会重新消费所有已存在的消息
B. Kafka 会重新进行分区分配，部分消费者实例的消费分区会发生变化
C. 新消费者实例不会影响其他消费者实例的消费，独立消费新消息
D. 所有消费者实例会暂停消费，等待新消费者实例初始化完成

题目 46

某数据可视化项目使用 ECharts 展示城市空气质量数据，需要在地图上标注不同城市的空气质量指数（AQI），并根据 AQI 大小显示不同颜色。以下实现步骤正确的是

A. 直接使用 ECharts 的地图组件，无需额外配置即可显示 AQI 和颜色
B. 先准备包含城市名称和 AQI 数据的数组，然后通过 ECharts 的 series.data 设置数据，并利用 itemStyle.normal.color 配置根据 AQI 映射颜色
C. 仅需在 ECharts 的 option 中设置地图类型，系统会自动根据 AQI 显示颜色
D. 使用 ECharts 的热力图组件替代地图组件，实现 AQI 显示和颜色映射

题目 47

案例分析题：某制造企业搭建大数据平台用于分析生产设备运行数据，在容器环境中部署了 Hadoop、Spark 等组件。运行一段时间后，技术人员发现 Hadoop 的 MapReduce 任务执行效率越来越低，经检查发现 YARN 资源调度存在瓶颈。以下优化措施中，最合理的组合是（）① 调整 yarn.scheduler.minimum-allocation-mb 和 yarn.scheduler.maximum-allocation-mb 参数，优化内存分配 ② 增加 Hadoop 集群的节点数量，扩充硬件资源 ③ 启用 YARN 的公平调度器，根据任务优先级分配资源 ④ 减少 Spark 应用程序的并行度，降低资源竞争

A. ①②③
B. ①②④
C. ①③④
D. ②③④

题目 48

场景匹配题：将下列大数据应用场景与对应的最佳技术方案进行匹配，正确的是（）

场景	描述	可选项
场景一	对电商平台用户的历史购买数据进行深度分析，挖掘用户购买偏好，用于精准推荐	① 使用 Flink + Kafka 实现实时数据处理与传输
场景二	实时采集物联网设备产生的海量数据，并进行实时分析，及时发现设备异常	② 使用 Hadoop + Hive 构建数据仓库进行离线分析
场景三	构建一个支持高并发读写的用户行为日志存储系统，用于后续的数据分析	③ 使用 Redis 作为缓存数据库，MySQL 存储全量数据

A. 场景一 - ①，场景二 - ②，场景三 - ③
B. 场景一 - ②，场景二 - ①，场景三 - ③
C. 场景一 - ③，场景二 - ①，场景三 - ②
D. 场景一 - ②，场景二 - ③，场景三 - ①

题目 49

排序题：在使用 Flume 进行日志数据采集并传输到 Kafka 的流程中，以下操作步骤的正确顺序是（）① 配置 Flume 的 Source 组件，指定日志数据的来源 ② 启动 Flume 代理，开始数据采集和传输 ③ 配置 Flume 的 Sink 组件，将数据发送到 Kafka 主题 ④ 配置 Flume 的 Channel 组件，用于暂存数据

A. ①④③②
B. ①③④②
C. ④①③②
D. ③①④②

题目 50

原因推理题：某数据可视化项目中，使用 Vue.js 和 ECharts 展示的柱状图在浏览器中显示时，图表的 X 轴标签出现重叠，影响美观和可读性。以下不可能导致该问题的原因是

A. 未根据数据量动态调整图表容器的宽度
B. X 轴标签字体大小设置过大
C. ECharts 图表的渲染引擎出现故障
D. 数据集中 X 轴数据过多，未进行分页或截断处理

多选题

题目 1

关于 Hadoop 集群中 HDFS 存储文件的相关计算，以下说法正确的是

A. 当文件大小小于 HDFS 块大小时，仍会占用一个完整的数据块
B. 若已知 HDFS 块大小为 128MB，一个 200MB 的文件会被划分为 2 个数据块
C. 计算文件划分的数据块数量时，需先统一文件大小与块大小的单位
D. 考虑副本因素时，实际存储的数据量会是文件大小的副本倍数

题目 2

关于线性回归模型 $y=ax+b$ 的计算与应用，正确的是

A. 已知 a、b 和 x 的值，可通过代入公式计算预测值 y
B. 最小二乘法用于确定模型中的参数 a 和 b
C. 新数据点的预测基于已确定的模型参数
D. 该模型可用于预测具有线性关系的数据

题目 3

在 Flink 滚动窗口计算中，以下说法正确的是

A. 滚动窗口大小决定了统计数据的时间范围
B. 若窗口内数据单位不同，计算前需统一单位
C. 每 1 分钟统计一次窗口内数据总和，统计间隔不影响窗口大小
D. 窗口内数据总和的计算与具体数据值相关

题目 4

在 Redis 中使用 INCR 命令进行递增计算，以下正确的是

A. INCR 命令是原子性操作
B. 多次递增操作的结果是累加的
C. 操作前需明确键的初始值
D. 递增操作可用于实现计数器功能

题目 5

在 K-Means 聚类算法计算中，以下与数据点划分相关的是

A. 聚类数 K 的设定
B. 初始聚类中心的选择
C. 计算数据点与聚类中心的距离公式
D. 数据点的特征值

题目 6

关于 MySQL 数据库查询效率与索引的关系，以下说法正确的是

A. 对查询字段创建索引可能减少扫描记录数
B. 若查询语句执行时间与扫描记录数成正比，减少记录数可缩短时间
C. 索引创建后一定能提高查询效率（需考虑索引维护成本等）
D. 统计特定条件数据时，合适的索引可加快查询速度

题目 7

在 Docker 部署应用的内存计算中，需要考虑的因素有

A. 每个容器占用的内存大小
B. 宿主机总内存大小
C. 预留用于系统其他进程的内存
D. 容器运行时的动态内存变化（本题未涉及动态变化）

题目 8

以下关于 Hadoop MapReduce 计算模型的说法，正确的是

A. Map 阶段负责将输入数据分割成键值对，并对相同键的值进行初步聚合
B. Reduce 阶段接收 Map 阶段输出，对键值对进行汇总处理，得到最终结果
C. 数据分片策略直接影响 Map 任务的数量和执行效率
D. MapReduce 作业的性能只与数据量大小有关，和任务调度机制无关

题目 9

关于 Spark 的 RDD，下列理解正确的有

A. RDD 是弹性分布式数据集，具备分区特性以实现数据并行处理
B. RDD 的转换操作是惰性求值，只有遇到行动操作才会触发计算
C. 缓存 RDD 到内存时，无需考虑内存容量，不会出现内存溢出
D. RDD 的血统关系用于容错，能在数据丢失时重新计算恢复数据

题目 10

在 Hive 中进行数据查询优化，可采取的措施有

A. 对频繁查询的字段建立索引，加快查询速度
B. 根据数据特点合理使用分区表，减少数据扫描范围
C. 避免使用 JOIN 操作，防止降低查询性能
D. 优化 GROUP BY 操作，结合分桶技术提升聚合效率

题目 11

下列属于监督学习算法的是

A. 决策树算法，常用于分类和回归任务
B. 支持向量机算法，可处理线性和非线性分类问题
C. K-Means 算法，用于数据聚类
D. 朴素贝叶斯算法，在文本分类领域应用广泛

题目 12

Flink 实时计算中，窗口操作的类型包括

A. 滚动窗口，窗口大小固定且不重叠
B. 滑动窗口，可设置窗口大小和滑动步长，存在重叠部分
C. 会话窗口，根据数据的活跃时间划分窗口
D. 随机窗口，窗口起始和结束时间随机确定

题目 13

Kafka 消息队列中，生产者发送消息的方式有

A. 同步发送，发送消息后阻塞等待服务器响应
B. 异步发送，通过回调函数处理发送结果
C. 批量发送，将多条消息合并发送以提高效率
D. 无序发送，消息不按顺序发送到 Topic

题目 14

Redis 中，以下数据结构适合用于缓存热门商品信息的是

A. String，可存储商品基本信息的字符串
B. Hash，适合存储商品详细属性的键值对集合
C. List，用于按热度顺序存储商品 ID 列表
D. Set，可实现商品去重及快速查找

题目 15

Vue.js 与 ECharts 结合实现数据可视化时，涉及的关键技术点有

A. 在 Vue 组件中引入 ECharts 库，初始化图表实例
B. 通过 Vue 的数据绑定，动态更新 ECharts 图表数据
C. 利用 ECharts 事件机制，实现图表交互功能
D. 使用 Vue Router 管理 ECharts 图表的路由跳转

题目 16

Docker 容器技术的优势包括

A. 资源隔离，实现容器间资源限制和独立运行
B. 环境一致性，保证应用在不同环境的运行一致性
C. 快速部署，可快速创建、启动和删除容器
D. 性能远超物理机，提供更强大的计算能力

题目 17

YARN 资源调度器中，常用的类型有

A. 容量调度器，可设置队列容量，按队列分配资源
B. 公平调度器，为每个应用分配公平的资源份额
C. 随机调度器，随机分配资源给任务
D. 优先级调度器，根据任务优先级分配资源

题目 18

Scala 语言在大数据开发中的特性有

A. 支持函数式编程，方便处理大数据集合
B. 具备面向对象特性，利于封装业务逻辑
C. 与 Java 完全不兼容，无法复用 Java 代码
D. 集合类型丰富，满足不同数据处理需求

题目 19

数据挖掘的数据预处理环节包括

A. 数据清洗，处理缺失值、异常值和重复值
B. 数据集成，合并不同数据源的数据
C. 数据转换，进行归一化、标准化等操作
D. 数据加密，保护数据安全

题目 20

保障大数据平台数据安全的措施有

A. 采用数据加密技术，防止数据泄露
B. 实施访问控制，按用户角色分配权限
C. 定期进行数据备份，防止数据丢失
D. 关闭所有审计功能，提高系统性能

题目 21

Hadoop HA 架构中，实现高可用的关键组件有

A. Zookeeper，用于 NameNode 主备选举
B. Quorum Journal Manager，保证主备 NameNode 数据一致
C. DataNode，存储数据块并参与主备切换
D. YARN，负责资源调度和任务分配

题目 22

Flume 数据采集组件中，Source 类型有

A. Avro Source，用于接收 Avro 格式数据
B. Spooling Directory Source，监控目录获取新文件数据
C. Kafka Source，从 Kafka Topic 读取数据
D. File Source，直接读取文件全部内容

题目 23

数据可视化的设计原则包含

A. 简洁性，避免图表信息繁杂
B. 准确性，真实反映数据特征
C. 美观性，过度追求视觉效果
D. 交互性，增加用户数据探索功能

题目 24

Flink 与 Spark Streaming 的区别在于

A. Flink 是流式处理，Spark Streaming 是微批次处理
B. Flink 窗口操作支持事件时间语义，更灵活
C. Spark Streaming 状态管理能力优于 Flink
D. Flink 容错基于检查点，Spark Streaming 则不同

题目 25

数据仓库与数据库的差异体现在

A. 数据仓库用于数据分析，数据库用于事务处理
B. 数据仓库数据更新频繁，数据库相对稳定
C. 数据仓库采用维度建模，数据库遵循范式设计
D. 数据仓库存储历史集成数据，数据库存储当前实时数据

判断题

题目 1

Hadoop 的 MapReduce 计算模型中，Map 阶段只能将输入数据分割成键值对，不能进行初步聚合操作。

A. 正确
B. 错误

题目 2

Spark SQL 只能处理结构化数据，无法处理半结构化和非结构化数据。

A. 正确
B. 错误

题目 3

机器学习中，特征工程的好坏对模型性能没有直接影响。

A. 正确
B. 错误

题目 4

Kafka 中，一个 Partition 可以被多个消费者组中的多个消费者同时消费。

A. 正确
B. 错误

题目 5

HBase 是关系型数据库，遵循传统的行式存储模式。

A. 正确
B. 错误

题目 6

Flink 在处理有界数据流时，不需要使用状态计算。

A. 正确
B. 错误

题目 7

Hive 的分区表和分桶表不能同时使用，只能选择其一。

A. 正确
B. 错误

题目 8

数据仓库主要用于存储当前的实时数据，以支持事务处理。

A. 正确
B. 错误

题目 9

Docker 容器运行时对文件系统的修改会直接影响到镜像。

A. 正确
B. 错误

题目 10

Scala 语言中，函数式编程和面向对象编程不能同时使用。

A. 正确
B. 错误

题目 11

数据挖掘中的分类算法评估只需要看准确率，其他指标不重要。

A. 正确
B. 错误

题目 12

Zookeeper 可以替代数据库来存储大量的业务数据。

A. 正确
B. 错误

题目 13

ECharts 配置图表时，数据提示（Tooltip）功能只能显示固定的文本信息，不能动态展示数据。

A. 正确
B. 错误

题目 14

大数据的“4V”特征中，Variety 仅指数据类型分为结构化和非结构化两种。

A. 正确
B. 错误

题目 15

YARN 中，ApplicationMaster 直接与 NodeManager 协商分配具体的计算资源。

A. 正确
B. 错误

题目 16

Hive 能够实现实时数据处理，性能与 Flink 相当。

A. 正确
B. 错误

题目 17

对称加密算法的加密和解密密钥不同，安全性更高。

A. 正确
B. 错误

题目 18

Vue.js 组件间通信只能通过 props 和 $emit 实现父子组件通信。

A. 正确
B. 错误

题目 19

分布式文件系统中，所有节点的读写性能完全一致，不存在性能差异。

A. 正确
B. 错误

题目 20

个人电脑上处理几百兆的文件也属于大数据技术的应用范畴。

A. 正确
B. 错误

题目 21

由于 Hadoop 的 MapReduce 计算模型中 Map 阶段能对数据进行初步聚合，所以可以完全替代 Reduce 阶段的工作。

A. 正确
B. 错误

题目 22

Spark SQL 在处理 JSON 格式的半结构化数据时，必须提前定义 Schema 才能进行高效查询。

A. 正确
B. 错误

题目 23

鉴于无监督学习算法不需要标注数据，在数据标注成本极高的图像聚类场景中，使用 DBSCAN 算法必然能得到理想的聚类效果。

A. 正确
B. 错误

题目 24

在 Kafka 的消费者组机制下，为了提高消费速度，一个 Partition 可以同时分配给组内的多个消费者并行处理。

A. 正确
B. 错误

题目 25

Hive 的 HQL 语言与标准 SQL 高度相似，因此 Hive 中编写的查询语句可以直接在 MySQL 数据库中运行。

A. 正确
B. 错误