面试别人 - 🎯转了码的刘公子

# Summary # Cues 基于这份简历，我整理了以下潜在的面试问题和回答关键点： |问题|回答关键词| |---|---| |**技术深度类**|| |能详细解释一下Decodable Sentence-BERT模型的架构设计思路吗？|Sequence-to-Sequence架构、自研模型、Decoder stacks、翻译模型改造、准确率提升| |为什么选择将翻译模型改造成错误类型识别模型？这种改造的核心挑战是什么？|任务相似性、序列标注、模型复用、准确率从56%到87%、迁移学习| |Sentence-BERT和传统BERT在句子embedding生成上的主要区别是什么？|孪生网络、对比学习、pooling策略、句子级别表征、计算效率| |你提到用了Sentence-BERT文本信息和log vector并存储计算，具体是如何融合这两种特征的？|特征拼接、向量维度、embedding空间、多模态融合| |**项目实践类**|| |在vmware日志集群项目中，如何解决错误日志的不均衡分类问题？|类别不平衡、采样策略、loss函数调整、评估指标选择| |测试日志向量化项目中，为什么选择DBSCAN聚类？与其他聚类算法相比有什么优势？|密度聚类、噪声处理、无需预设类别数、异常检测能力| |存储效率提高了3倍是如何实现的？具体采用了哪些压缩技术？|向量量化、维度压缩、稀疏表示、索引优化| |cosine similarity召回相似度最高的top5错误日志，如何处理大规模数据的检索效率问题？|向量索引、近似最近邻搜索、Faiss/Annoy、分布式检索| |**业务理解类**|| |日志错误分类和搜索系统在实际生产环境中的应用场景是什么？|故障诊断、运维自动化、问题定位、知识库构建| |如何评估模型在真实环境中的表现？有哪些业务指标？|准确率、召回率、响应时间、误报率、业务价值量化| |**技术选型类**|| |为什么在第二个项目中没有继续使用Decodable Sentence-BERT？|场景差异、任务需求、计算资源、模型复杂度权衡| |91%的重复类型错误日志召回，这个指标是如何定义和计算的？|评估数据集、ground truth、召回率计算方法、业务含义| |**个人发展类**|| |从船舶与海洋工程转到NLP领域，这个转型过程中最大的挑战是什么？|跨领域学习、知识体系构建、自学能力、动机驱动| |你的教育背景是工程类，如何补充机器学习和NLP的理论知识？|自学路径、在线课程、项目实践、持续学习| |在这两个NLP项目之后，有继续深入哪些技术方向吗？|大模型、Transformer、技术趋势、个人规划| |**团队协作类**|| |这些项目中你主要负责哪些部分？团队规模如何？|角色定位、技术负责、团队协作、项目管理| |如何与产品团队沟通，将技术指标转化为业务价值？|沟通能力、业务理解、指标对齐、价值呈现| 这些问题涵盖了技术深度、项目经验、问题解决能力和个人发展等多个维度，可以帮助全面评估候选人的能力。 # Notes 1. 三电智能诊断 • 电池健康度（SOH）智能预测与预警系统。日均处理500万+充电记录，构建 70+维度特征池，通过[[SHAP分析]] 筛选TOP20有效特征；基于 XGBoost 模型实现当前 SOH 预测，开发 Transformer 时序预测模型实现未来60 天SOH预测（60天误差<2.3%），引入因果注意力掩码解决预测中的未来信息泄露问题；基于预测SOH 下降斜率建立三级预警机制，部署20万＋车，降低30%电池非计划更换成本 2. 电池热失控预警系统：使用pyspark 读取实时数据kafka，开发LSTM 模型，融合多传感器数据实现提前5分钟预警（准确率98.2%），降低事故率 72%，部署至10万＋车 • 高压绝缘预测系统：基于自编码器 [[Autoencoder]]，实现绝缘故障提前 24h 预测（准确率 95.4%），年节省维修成本200万 • 基础数据分析：构建用户画像，开发50+可视化看板（sugar）；实现停留点聚类算法，识别高频停留区域；设计轨迹相似度框架，优化车队调度，降低空驶率 12%；聚集热点检测系统（[[K-means]]+热力图）， 3. 实时监控车辆基于混合检索与 Agent 的增强型 RAG 问答辅助系统 • 多模态数据治理：开发自动化解析流水线，构建 [[Milvus]] 向量数据库集群（100万＋向量），设计动态分片策略优化检索效率 • 增强型 RAG 架构：实现混合检索系统（[[BM25]]+微调 BGE 模型），结合 BGE-Reranker 重排；基于 LangChain 集成 LLM 构建检索问答链，并通过[[VLLM]] 加速推理；开发融合 MCP 协议的 [[ReAct]]+COT 框架智能 Agent，支持动态任务类型判断；通过标注数据微调、反馈数据 [[DPO]] 后训练优化模型。• 服务化部署：基于 Flask 构建后端 API，docker 部署模型，准确回答率从 68%提升至89%（4000+真实问题验证）甲醇车辆加注分析系统 • 停留点智能检测：采用改进的ST-DBSCAN 算法，综合车辆停留时间、位移半径等特征，准确识别有效停留点（召回率94%），消除GPS 漂移干扰，提升定位精度至士8米，节省运营核查成本80万/年 • 加注站区域匹配：通过层级地理匹配，设置动态阈值实现加注站行为识别（准确率91.6%） 4. 主导红旗车载数据产品开发，构建用户画像与智能推荐系统，通过数据挖掘与模型迭代优化业务决策伏羲大数据系统：运用 [[Apriori算法]]挖掘用户偏好，通过 Hive 分析 10w+用户数据输出36项核心指标，基于 [[LightGBM]]+XGBoost 融合模型提升二手车价格预测精度（误差降低40%），结合K-means 竞品分析及朴素贝叶斯情感分类（准确率 92.4％） 5. 车云融合 AI决策推荐系统：构建用户画像标签体系，设计[多路召回融合](多路召回融合.md)策略（[[协同过滤]]+Faiss [[向量检索]]），采用[[GBDT]] 优化加油推荐，[[XGBoost]] 预测加电需求，并基于 [长短期记忆网络LSTM](长短期记忆网络LSTM.md)+注意力机制实现目的地预测，结合 [DBSCAN](DBSCAN.md) 聚类用户停车点红旗车辆知识云平台：基于 Neo4j构建汽车知识图谱（10.5万实体+50.7万关系），结合 [[AC-Tree 过滤]]与 [[Cypher]] 查询优化，使用率提升 23.3% ## 华为大模型项目：1. 对DeepSeek-R1-32B大模型进行微调与训练，包括sft和[[dpo]]，结合差异化 prompt，使模型能够根据新闻内容生成吸引读者的标题。该模型已在华为手机浏览器的一些新闻标题中得到应用。2.通过调整差异化prompt和few-shot，利用qwen2-7B对文章进行地域标注，精确到县区级。该模型已在华为手机浏览器的地域推荐中使用。3.根据华为浏览器用户搜索词，召回多个topic，并利用qwen2.5，从召回的多个 topic中选择0-5个最佳的topic匹配用户的搜索词，以丰富用户画像。 > 为啥用 7b， > 怎么部署的，vllm 和 Transformers 的推理框架的区别 > 多路召回有哪几路，给 qwen2.5 的策略是啥 NLP项目：1.基于[BERT](BERT.md)算法，提取搜索词中的实体关键词，并识别搜索词中的新关键词。2. 通过[[BGE]]得到topic的embedding，结合长效topic与热点topic在同一篇文章中的共现关系，实现长效topic召回热点topic的推荐系统，并以qwen2.5-14B大模型作为辅助，让大模型从20-50个符合条件的热点topic中挑选最匹配的1-5个。 > qwen2.5-14B 实时推理吗，时延如何？利用[[ConvNeXt]]神经网络对停车场卫星地图进行分类识别。通过超分辨率重建和带权重的损失函数，提升模型在地下停车场识别中的性能。此外，利用大模型通过停车场名称判断难以通过卫星图像识别的停车场是否为地下停车场，显著提高了模型的识别准确率（查全查准率均超过80%，业界首次实现）。2. 进行点云分割，基于RandLA-Net对千米级点云地图进行建筑物、植被、道路和水域识别，总体f1-sCore达到80%。 > ConvNeXt 和 resNet /reznet/ 的区别数据分析项目：1.基于[[seq2seq]]模型，对历史5G流量数据进行分析，预测未来3-12个月内的5G流量。2. 利用[[xgboost]]对拉美、中东局点的4、5G网络覆盖情况进行预测，设计建模算法并应用深度学习技术。 > 具体咋预测的 ## **技术深度类问题** | 面试问题 | 预期回答关键词 | | ------------------------------------------------------------ | ------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------ | | 为什么选择[[Transformer]]而不是[长短期记忆网络LSTM](长短期记忆网络LSTM.md)进行SOH预测？| 并行计算、长程依赖、注意力机制、位置编码、训练效率、梯度消失、自注意力矩阵、计算复杂度O(n²) | | XGBoost模型<2.3%误差是如何定义的？| MAE/RMSE、交叉验证、测试集划分、过拟合控制、正则化参数、early stopping、特征重要性、SHAP值解释 | | [[Autoencoder]]如何处理故障预测的类别不平衡？| SMOTE、focal loss、阈值调整、重采样、class weight、异常分数、重构误差、F1-score、precision-recall曲线 | | RAG系统中Milvus的检索优化？| [[HNSW]]/IVF索引、向量维度、召回率、embedding质量、分片策略、缓存预热、批量查询、GPU加速 | | vllm 有没有遇到复读机问题 | | | BGE 是啥模型，咋微调的 | | | DPO 的数据从哪儿来 | 核心思想就是选 A 不选 B ## **输入数据** ```python prompt = "The quick brown fox jumps over" good_response = "the lazy dog." # 偏好回答 bad_response = "their crazy frog." # 拒绝回答 ``` | | DPO 和 GRPO 的区别 | | | ReAct 的场景是啥？| | | 为什么选 Flask | | | | | | Flask API的性能优化策略？| gunicorn/uwsgi、负载均衡、连接池、缓存策略、异步处理、消息队列、限流、熔断、nginx反向代理 | | Doker 部署这些有用到 AI 帮助吗 | | | Docker镜像优化策略？| 多阶段构建、alpine基础镜像、层缓存、.dockerignore、镜像瘦身、依赖优化、构建缓存 | | 加注站区域匹配：通过层级地理匹配，设置动态阈值实现加注站行为识别（准确率91.6%）了解 GeoHash 吗 | | | 贝叶斯公式 | ## 贝叶斯公式（贝叶斯定理） 贝叶斯公式是概率论的基础定理： **P(A\|B) = P(B\|A) × P(A) / P(B)** 其中： - P(A\|B)：后验概率 - 在 B 发生的条件下 A 发生的概率 - P(B\|A)：似然 - 在 A 发生的条件下 B 发生的概率 - P(A)：先验概率 - A 发生的概率 - P(B)：边际概率 - B 发生的概率 | ## **系统设计类问题** |面试问题|预期回答关键词| |---|---| |三电智能诊断系统的整体架构设计？|微服务、消息队列、数据流pipeline、实时流处理、离线批处理、监控告警、故障隔离、服务降级| |边缘计算和云端计算的职责划分？|延迟敏感、带宽成本、数据隐私、模型压缩、联邦学习、增量学习、模型同步、边缘推理| |ST-DBSCAN参数动态调整策略？|时空密度、eps自适应、minPts选择、轮廓系数、密度可达、噪声点处理、滑动窗口| |20万+年数据的模型版本管理？|MLflow、模型注册表、A/B测试、金丝雀发布、特征版本、回滚机制、模型监控、drift检测| ## **项目实践类问题** | 面试问题 | 预期回答关键词 | | -------------------- | ------------------------------------------------------------------- | | 如何处理500万+充电记录的数据预处理？| Spark、pandas分块、并行处理、数据清洗、异常值检测、特征工程、时序对齐、数据归一化 | | 降低事故率72%如何统计验证？| A/B测试、对照组、统计显著性、p值、置信区间、混淆变量、因果推断、DID双重差分 | | K-means实时处理GPS数据流？| Kafka、Flink/Storm、滑动窗口、增量聚类、mini-batch、状态管理、checkpoint、exactly-once | ## **算法基础类问题** | 面试问题 | 预期回答关键词 | | ----------------------- | --------------------------------------------------------- | | XGBoost vs LightGBM的区别？| 树生长策略、leaf-wise/level-wise、直方图算法、GOSS、EFB、内存占用、训练速度、类别特征 | | Transformer在时序预测的优势？| 全局依赖、并行训练、位置编码、多头注意力、计算效率、长序列建模、可解释性 | | 聚类效果评估指标？| 轮廓系数、Davies-Bouldin、Calinski-Harabasz、SSE、纯度、兰德指数、互信息、模块度 | | Python GIL的影响和解决方案？| 全局解释器锁、多进程、协程、异步IO、Cython、Numba、矢量化运算、C扩展 | ## **业务理解类问题** |面试问题|预期回答关键词| |---|---| |电池健康度SOH预测的业务价值？|维护成本、安全预警、残值评估、质保决策、用户体验、充电策略、电池梯次利用| |车云融合的核心挑战？|数据安全、实时性要求、网络稳定性、成本控制、隐私保护、OTA更新、算力分配| |AI在汽车行业的应用前景？|自动驾驶、智能座舱、预测性维护、个性化推荐、供应链优化、质量检测、用户画像| ## **软技能类问题** |面试问题|预期回答关键词| |---|---| |如何推动AI项目在传统企业落地？|ROI量化、POC验证、渐进式推进、跨部门协作、变革管理、培训赋能、快速迭代| |遇到的最大技术挑战如何解决？|问题定义、方案对比、技术调研、原型验证、风险评估、复盘总结、知识沉淀| |为什么离职及职业规划？|技术深度、业务场景、团队氛围、成长空间、技术栈匹配、长期发展、价值认同| 这个表格可以帮助面试官评估候选人的回答是否涵盖了关键技术点，也可以帮助候选人准备面试时把握回答的技术深度。