"计"阅风华 | 刘赵伟：从应用统计到多模态大模型算法工程师：两年求学与实践的回望

发布者：严继臧发布时间：2025-09-05浏览次数：10

毕业季

时光不老

我们不散

编者按

扬帆沧海寻远道，风华正茂绘新篇。

骊歌声起，2025年毕业季如约而至，统计与数据科学学院官方微信继承传统，将持续推出“计”阅风华——优秀毕业生系列报道，展示学院优秀毕业生风采。一流专业培养一流人才，在共享人才培养累累硕果的同时，我们由衷地希望更多的在校生能从优秀毕业生的成长历程中汲取营养、凝聚力量、续写辉煌。

在此祝愿每一位毕业生前程似锦、不负韶华、砥砺前行。敬请长期关注！

刘赵伟
2023级应用统计专硕（人工智能与金融统计方向）

毕业去向

快手科技多模态大模型算法工程师

实习经历

快手科技多模态大模型算法实习生

百度科技大模型算法实习生

腾讯科技应用研究实习生

平安科技大模型算法实习生

相关科研成果

上海财经大学匡时财经教育大模型学生负责人

Fin-Agent第一作者

第一作者身份投稿多篇EMNLP under review

FinEval ：以核心作者身份被国际自然语言处理顶级会议 NAACL 录用

Fin-R1 ：首个 DeepSeek-R1 类金融推理模型，担任第一作者

Kaggle银牌：参与竞赛排名前5%

Graduation

前言

两年的硕士学习时光虽不算漫长，但对我而言意义非凡。在这里，我不仅系统掌握了专业知识，更逐渐学会了如何在数据中寻找答案，在不确定中保持定力。
感谢学院的培养、老师的指导，也感谢一路同行、彼此鼓励的同学们。很高兴能借此机会整理与回顾这两年的所思所感，也希望能为正在找算法相关工作中的学弟学妹们提供一些参考与启发。

Graduation

一、兴趣驱动，多维积累：

从“什么都想试试”到

“找到属于自己的赛道”

虽然我是“老统计人”出身，但真正让我走上大模型这条路的，并不是计划中的职业路线，而是最初的好奇与兴趣。

大二那年，我第一次接触计算机编程。那时候没想太多，只觉得写代码这件事特别酷。于是开始了“满地撒网”的阶段——Python、Java、C++、前端三件套……看到什么有意思就学什么，甚至还和同学搭过几个小项目。

现在回头看，那段“东一榔头西一棒槌”的探索期，不仅没有浪费时间，反而成了我后来的底气和积淀，本科做过一些大数据开发项目，如今处理大模型的数据集早已游刃有余；学过 C++ ，如今能更深入理解推理加速与底层CUDA算子，比如 FlashAttention等加速算法；会一点前后端，做项目时能自己从0到1搭出基于大模型的 Demo 应用，实现完整闭环。

这些能力，很多并不是课堂上学来的，而是在一次次试错中积累出来的——像是放在工具箱里的备用钥匙，关键时刻总能派上用场。所以我想说，不用太焦虑，也不必一开始就急着找到“最优解”。只要方向是你喜欢的，就值得花时间去钻研。探索是起点，热爱是燃料，而持续的积累，才是你能真正走远的关键。

当然也要承认，现在的环境确实卷得更厉害了。“广撒网”更适合本科阶段，到了研究生，我会更建议大家尽早锚定一个方向，深耕一处。真正的竞争力，不是你掌握了多少工具，而是你是否能用一项技能创造出属于你的独特价值。

Graduation

二、敲响大模型大门：

从一腔热血到扎根前沿

2022年冬，ChatGPT 横空出世。那时我正忙于考研复试，虽然无法第一时间投入其中，但内心已经隐隐意识到：这或许就是未来的方向。

顺利进入财大后，我加入了张立文老师的课题组，正式开启了我的大模型探索之旅。第一次与张老师交流时，他就邀请我旁听组内正在进行的 LLM 读书会——也正是那一刻，我真正“入坑”了大模型。

我提前进组、主动阅读论文、尝试复现模型。从 GPT2、T5、OPT 到 LLaMA、BELLE，即使初看难懂，我也硬着头皮啃下来。当时，大模型相关的学习资料远不如今天丰富，信息分散、术语繁杂、技术更迭飞快，从继续预训练、各类微调方法，到 RAG 再到如今大火的 Agent 技术，每一个阶段都需要不断“追赶”。渐渐地，我养成了每天阅读 1～3 篇论文的习惯，并从“被动接收”转向“主动思考”。

非常感谢张老师的信任与支持，使我有机会参与 FinEval 项目并作为核心作者投稿至 NAACL。此后，我又主导推出了 Fin-R1 项目，首个开源的 DeepSeek-R1 类金融推理模型，完成从跟随者到引领者的角色转变。从最初读论文，到能带领团队推进落地项目；从“看别人怎么做”，到“知道该怎么做”，这一路虽辛苦，但也无比充实。

回头看，本科时期打下的技术基础和统计背景在这条路上发挥了至关重要的作用。深度学习与机器学习的底层能力，加上统计学的建模思维，以及项目锻炼的工程能力让我在大模型实践中能快速理解问题本质，稳定推动项目进展。

大模型的赛道从不是单靠算法的独角戏，而是算法理解 × 工程实现 × 算力调度的综合博弈。越往深处走，越意识到：写好代码、看懂底层、跑通实验，缺一不可。

Graduation

三、课外实习：

在科研与落地之间穿梭

1. 大模型实习岗位的分流

在大模型相关的实习中，技术方向大致可分为两类：科研导向：偏基座模型研发，代表有 ChatGPT、百度文心、DeepSeek 等，强调理论创新与学术贡献，常常与顶会论文挂钩，适合学术能力强、背景硬的同学。应用导向：偏模型落地，涉及业务基座、RAG、Agent 技术、工程集成，强调模型效果、稳定性与产品落地能力，适合工程能力扎实、熟悉数据和场景的同学。

对我们应用统计出身的同学来说，应用型 LLM 岗位是更友好的切入点：更注重动手能力、数据处理、模型上线能力。只要实习经历丰富且质量高，很多企业都愿意给机会。

当然，如果你背景强、本硕名校、有多篇高质量一作顶会，那不妨冲一冲研究岗。但要知道，高薪研究岗通常门槛非常高，竞争者往往是有数篇 AI 顶会论文的博士生。

2. 我的实习组合：科研 × 应用的交叉体

我的实习经历比较特殊，算是科研与应用交错进行：在快手，比如所在团队兼顾业务落地与论文产出，目标是“一年几篇顶会投稿+项目上线”；在腾讯和平安，参与了与实际业务高度结合的大模型研发工作。

我既需要承担模型落地的工程任务，也需要完成算法理论的验证与论文撰写，属于那种“写代码 + 写论文 + 理解业务”三栖能力要求的岗位。

Graduation

四、实习日常：

以为是调模型，大部分时间其实是在“搞数据”

1. 业务理解：真正落地的第一步

以我参与的大模型在视频生成与修复场景的落地项目为例，目标是提升平台上低质量或高风险视频的修复能力，保障投放效果与用户体验。乍看之下是模型优化任务，实则从一开始就必须深入业务。

项目初期，最关键的不是模型选型，而是业务拆解与问题建模：什么样的视频算“低质量”或“高风险”？崩坏案例集中在哪些场景？现有方案为何效果不稳定？模型效果与线上反馈为何出现“脱节”？

2. 工程 × 算法：大模型落地的组合拳

很多人以为大模型算法岗就是在改网络、调参数。但现实中，大模型结构通常不易随意更动，一旦动了结构，往往意味着需要重新预训练，这背后是成百上千张 GPU 的成本。

因此，在真实业务中，工程能力与算法能力缺一不可，比如这几个方面（如何在业务场景中保障模型输出的稳定性和一致性？如何构建解耦的服务体系，降低模型更新与迭代的成本？如何搭建可快速切换/回滚的推理链路，应对线上突发风险？）

大模型的落地，从不是简单调调参数，而是工程架构 + 算法理解 + 系统调度的综合挑战。跑通流程，才是真正的竞争力。

3. 数据才是王道：80% 的时间都花在“搞数据”

大家以为算法工程师的日常是写模型代码、改 loss 函数，但大部分大模型算法工程师80% 的时间，都在和数据打交道：检查标注数据的一致性与准确性；清洗训练数据，规避脏数据影响；分析 badcase，定位模型的盲区；动态调整样本分布，控制训练偏态；构造伪标签、设计增广策略，提升模型泛化能力

在大模型背景下，数据的量级、噪声、分布偏移都可能对最终效果产生“放大效应”。数据质量，是影响模型上线效果的决定性因素之一。

4. 写代码：不多，但都是决定成败的关键路径

在大模型实习中，真正落到代码层面的时间也许只有 20% 左右，但这 20%，往往就是决定模型能否顺利上线的“最后一公里”：包括但不限于对接推理框架，封装 API，适配上下游服务；编写调度逻辑，保障多模型联动或多阶段处理的稳定性；构建监控与回溯机制，支撑线上模型的鲁棒性。

经历过数轮数据清洗、模型测试和业务调研之后，能安静地写几行跑得通、跑得稳的工程代码，反而是一种久违的踏实感。

大模型算法岗的本质，从来不只是“调模型”，而是如何让复杂系统真正跑得通、落得下、用得稳。很多落地的场景，可能只需要写提示词就可以解决，复杂的模型训练与结构改动，可能不如一行提示词来的实在。

5. 科研转化：从业务中提炼学术价值

在百度、快手参与的大模型项目中，我也参与了多个顶会论文的撰写与投稿（包括EMNLP、AAAI等）。与传统“从 0 到 1”的研究不同，这类工程驱动下的科研更强调从业务问题中“抽象 → 建模 → 理论化”。

整个过程大致分为：阅读前沿文献，形成技术方案视角；梳理业务中的共性问题，构造学术问题定义；设计可验证的实验，沉淀方法与指标；写作、投稿、迭代修改，最后形成系统成果。

这是一种反向建构的科研路径，难度大，但价值也更高。能从真实系统中“提炼学术问题”的能力，也是大模型岗的竞争壁垒之一。

Graduation

五、成为大模型算法工程师：

我理解的能力画像

扎实的基础：算法+工程双轮驱动

大模型岗位从来都不是“纯算法”或“纯工程”。想要胜任，需要在这两方面都有所积累：算法基础：掌握深度学习核心知识（Transformer、注意力机制、优化器、正则化等），理解 LLM 架构、预训练与微调原理，能看懂主流论文并复现实验。工程能力：熟悉 PyTorch 、vLLM、Deepspeed等框架，了解模型训练调度、分布式训练、推理加速（如 FlashAttention、KV Cache）、高性能数据预处理等工程组件。

用一句话总结就是：不需要什么都精，但必须能把一个模型从“代码”跑到“效果”。

数据处理与分析能力：模型调不动，先看数据

我在多个实习岗位中都深刻体会到，大模型算法的核心其实不只是“调模型”，而是“看数据”。真实的工作中，往往有 80% 的时间在处理数据，只有 20% 的时间在调整模型参数。你要能构造高质量的数据集，识别噪声样本与分布偏移；要能分析 badcase，提炼出模型失败的共性；还要对数据标注和评估有基本敏感度，知道哪些指标能真实反映业务效果；在面对样本稀缺时，也能灵活运用数据增强或 few-shot 构造的技巧。很多时候，模型效果不佳的根源并不在于算法不够先进，而在于数据没搞明白。所以，当模型调不动时，先回头看看数据是不是出了问题。

系统能力与产品思维：从模型到落地是场“接力赛”

随着大模型的应用场景日益复杂，仅仅训练一个“能跑通”的模型已经远远不够。还需要明白模型最终要接入的是一个完整的系统，涉及服务搭建、接口设计、上下游依赖等一整套工程链路；要知道如何让模型运行得稳定、调优得高效、出现问题时能快速定位；更重要的是要理解业务需求，明确“什么样的效果才算合格”，而不是一味盯着 loss 的数值变化。尤其是在落地导向的应用方向，算法的终极目标从来不是在测试集上打榜，而是真正解决业务痛点、创造实际价值。这意味着你需要具备换位思考的能力，能够从用户和业务团队的视角出发，反过来审视模型是否真正“好用”“能用”“值得用”。

学术敏感度与主动学习能力：技术日新月异，卷不动只能淘汰

大模型领域的技术迭代实在太快，去年还在训练 Qwen2、DeepSeek-V2，今年 Qwen3、DeepSeek-V3 已经上线，性能更强、能力更稳。面对这样的节奏，保持对前沿技术的好奇与跟踪变得尤为重要。需要具备快速阅读和吸收顶会论文（如 ACL、ICLR、NeurIPS 等）的能力，养成定期整理技术路线图、撰写实验笔记的习惯，同时持续关注 HuggingFace、Arxiv、Papers with Code 等核心社区的更新动态。能力也许不可能一蹴而就，但成长性必须时刻在线。大模型算法工程师这个职业注定是一个不断自我升级的过程，只要保持输入、保持好奇，进步就一定是水到渠成的结果。

沟通协作与文档能力：模型不只是自己一个人用

这是一个常被忽视的关键能力：沟通与协作。很多算法岗候选人往往将重心放在“技术实力”上，却低估了在实际工作中跨团队配合的重要性。大模型项目往往涉及工程、产品、标注、后端等多个角色，仅凭一己之力很难推动完整链路的落地。

需要写得出结构清晰、逻辑严谨的技术文档，能够把模型设计思路讲明白、讲清楚；在与产品、后端、标注团队协作时，要能理解彼此的需求和限制，具备一定的“翻译能力”，把技术语言转化为业务语言，反之亦然；更要能在复盘会议中从容说明：模型为何失败、为何这样设计、未来要怎么优化。

技术力固然重要，但协作力才是真正决定你能否“把事情做成”的关键。毕竟，技术不是孤岛，大模型的落地本质上是一项多角色协同的系统工程。

面试经验：专业融合 + 场景能力才是突围关键

如果说实习和项目是“基本盘”，那么面试就是那临门一脚的“敲门砖”。这一部分，我想结合自己的经历，聊聊我对大模型算法工程师相关岗位面试的一些体会。

首先，大模型岗位面试通常都会覆盖几个核心方面：深度学习与机器学习基础、代码实现能力、项目理解与表达、实际落地场景的处理能力，以及最容易被忽视的——跨学科的综合思维能力。

总体而言，以下这些能力是必考的：首先是leetcode（必考），hot100建议刷到看一眼就出答案。

要掌握一定的深度学习基础，比如 Transformer 的结构原理、LLM 的训练流程、各种优化策略；你要能讲清楚做过的每个项目，从业务背景、任务目标、模型结构、数据处理到上线效果，都要逻辑清楚、语言清晰。最重要的是：不要背稿，要“讲思路”。

有时面试官还会给出一个开放场景，让你“就地做题”，比如：“公司想做一个智能客服，你会怎么设计底层架构？”——这就需要你不仅懂模型，还要理解场景，知道什么时候用微调，什么时候用 RAG，什么时候规则辅助更划算，怎么结合上下游的系统。

我印象特别深的一次是在字节跳动的算法实习面试。面试官突然问我一个所谓的智商题，其实这题本质上是一个标准的条件概率问题，完全属于我们统计学教材中的贝叶斯公式应用。我没有被题目吓到，直接写出推导过程，最后给出答案。

这件事让我意识到，专业背景真的可以成为加分项，关键是你要会用。应用统计背景的同学，其实在数据分析、模型解释、效果评估、实验设计上比一般“纯计算机出身”的人更有优势。比如你理解过 A/B Test 的检验流程、模型的理论基础等——这些能力在面试中都能让你脱颖而出。

另一个面试中经常被问到的是：你做的项目有什么技术挑战？你是怎么解决的？这里千万不要讲“我调了个学习率”，要讲具体的问题，例如：数据分布不平衡导致模型过拟合某一类 badcase，你做了什么样的数据清洗策略，重新标注了哪些异常点，最后结果提升了多少。一定要结合实际、讲清思路和判断过程。

面试不是刷题比赛，而是一种能力展示。如果你能在和面试官的交流中，把你解决问题的方式、思考路径、取舍决策都清楚地表达出来，不需要太“花哨”的技术栈，也能给人留下深刻印象。

所以总结一句话就是：需要的不是“全能”，而是“能解决问题的能力”。
你不一定是最强的工程师，也不一定论文最多，但你要是那个最懂业务、最能调出效果、最会清楚表达思路的人，那就是这个岗位的理想人选。

当然，最后还是那句老话——准备好项目细节、写好自我介绍、多做几轮模拟，面试这件事，准备越充分，结果越稳定。希望大家也能顺利叩响自己心仪公司的那扇门。

Graduation

写在最后：

找准方向，做就完了

如果你想成为一名算法工程师，此刻正处在迷茫之中，不妨停下来问问自己：你是否热爱调模型、写代码，享受模型落地、产品上线那一刻的成就感？还是更向往钻研问题、攻克难题，沉下心来打磨一篇又一篇有分量的论文？

其实，没有绝对“更好”的选择，关键是找准适合自己的方向，然后一鼓作气，持续积累。决定你能走多远的，从来不是起点，而是你是否能在选定目标之后，笃定前行、不断精进。

这一路走来，我愈发体会到：选择比努力更重要，但一旦选定，就别犹豫，做就完了。

我也由衷地感恩这段旅途中遇到的每一个人。感谢学院在实习、就业、科研等多个维度为我们搭建了广阔的平台，让我有机会在自己感兴趣的领域持续深耕、不断突破。感谢张立文老师在学术与实践上的悉心指导，感谢曹欣怡老师日常对我的支持与关心，感谢郭鑫师兄、刘志强师姐、杨智三位博士师兄师姐在科研过程中给予的点拨与支持。感谢祎菲师姐等硕士师兄师姐在入学前后给予我的关照与经验分享，帮助我更快适应研究生阶段的学习与求职节奏。也感谢我的舍友与同门们，还有那些在我旅途中给予过鼓励和帮助的人——是你们的支持与善意，构成了我向前的底气。

当然，也并非一路坦途。求职过程中曾有过困惑和瓶颈，但回头看，那些挑战正是最好的成长催化剂。只要心态稳住，方向明确，每一步都算数。

希望我的这点经历，能在你彷徨时提供一丝参考。愿我们都能在各自选择的路上，走得踏实，走得远。

愿君学海泛舟，风雨兼程不问西东；他日乘风起，终将扶摇直上九万里。

END

统计与数据科学学院深入创新人才培养模式，积极改革实践，夯实专业基础，深化校企合作，重视协同育人，着力促进学生将理论与实践相结合，致力于培养思想信仰坚定、政治立场过硬、专业基础深厚、研究能力扎实的一流复合型统计人才，为建设鲜明财经特色的世界一流大学贡献统计智慧。