# Summary
# Cues
# Notes
熟练使用 Python及 [[PyTorch]]、[[Transformers]],熟悉C++11/14 与Linux开发工具链。掌握LoRA微调、RAG架构及 Prompt工程,了解LangGraph、Megatron、DeepSeed框架,有基于[[lIamafactory微调]],[[VLLM]]加速推理的经验。掌握常用机器学习算法 [[GBDT]]、[支持向量机 SVM](支持向量机%20SVM.md)、[PCA](PCA)等;掌握 [[网格搜索 GridSearch]],CrossValidation,AUC/F1 等评估技巧。掌握SQL编写与优化,熟悉MySQL、Redis、Elasticsearch;掌握 Socket 编程与高并发模型开发经验;掌握TCP/IP,HTTP等网络协议。
字节跳动 - 服务端研发实习生(Go语言)。优化业务逻辑,增加状态机状态,成功避免“三方码延迟”引发的异常状态切换问题;•搭建 Redis + Hive + ES 商家 diff 数据看板,支持系统迁移后日数据状态监控;•独立开发抖音团购履约业务后端逻辑,完成方案设计与 Go 语言接口实现;Momenta - 系统研发实习生(C++语言)•参与自动驾驶项目模块研发,负责编写测试脚本与单元测试;使用 ROS 提取并处理 rosbag 数据,辅助系统验证;• 熟练掌握 Git 管理流程、Docker 命令使用及模块级通信开发;2022-01 ~ 2022-06 刘一首 5302 2021-07~ 2021-09
人体姿态与动作识别反馈系统-项目设计、技术开发 2024-12 ~ 2025-06 本项目面向个体训练中动作标准难理解、缺乏即时反馈的问题,构建了一套集姿态识别、动作匹配与语言反馈于一体的智能系统。技术方案:1)使用 YOLOv11+MediaPipe 进行人体关键点检测,结合 MotionBERT 恢复三维姿态序列,实现用户与标准动作的动态对比;2)结合真实Ratio 生成用户个性化动作特征,驱动输出姿态 Mesh;3)接入LLaMA-3 生成结构化自然语言反馈,输出包含总评与关键节点分析的反馈文本。应用效果:系统平均反馈生成时间低于 20秒,动作识别准确率达 92%,具备实际应用能力,可作为MVP提供服务支持。
构建arXiv中文智能摘要与检索系统—技术开发 2025-02 ~ 2025-06 为了帮助中文科研人员更高效理解和检索arXiv英文论文,构建了arxiv中文搜索引擎,首先将arxiv用中文进行详细的总结,包括论文概要、算法流程、实验对比、发布机构。提供时间+机构+中文内容的检索,提升科研效率。Arxiv文章中文总结:•构建高质量英文论文中文总结数据集,使用 universal self-consistency + cot + refine prompt 技术生成论文摘要;• 大模型蒸馏小模型,使用高质量数据集+LoRA 微调 7B 大模型,并在 SFT 基础上结合 DPO 强化生成质量;•构建大模型中差评估模块,用于评估模型输出摘要的优劣,提高迭代效率;Query改写:•设计两阶段 query 改写机制,v1版本,使用CoT+动态few-shot分析用户query,并改写query为检索关键词query + embedding语义query •V2版本,使用以上prompt方案构建高质量改写数据集,并微调0.5B模型,提升中文查询理解与语义检索能力;
> 0.5b模型,验证集从哪儿来?
RAG问答系统开发与优化 - 技术开发 基于RAG架构思路,旨在构建一个可扩展的汽车手册智能问答系统 •文档处理:使用[[grobid]]+三种策略提取文本,使用滑动窗口保证语义完整性;• 检索与排序:使用[[Faiss]](m3e)和[[BM25]]双路召回机制,精排使用bge-reranker;•自动拼接历史对话内容构建长上下文提示,结合动态Prompt模版,引导Qwen7B大模型输出四组对比答案;•使用VLLM的PagedAttention算法提高推理速递,平均相应时间从~6秒降至2.4秒。53 刘 -首 5302