# 💡 Summary
1. 各家都在喊[[HSTU]],想象力是拉满了的,而落地过程却是异常艰难的。自HSTU开始,我们也在follow行业内各式各样的解决方案:沿着HSTU,我们看到了美团HSTU GR和小红书HSTU落地的技术报告;在用户建模上,我们看到了阿里LUM的系列工作;语义ID建模路线上,我们看到从Google的Tiger到快手的 One 系列;其它类型的探索上,我们也调研了字节的HLLM、Longer、Rank Mixer等等。直到今年上半年,我们有了一定富余的人员和资源支持后,也开始紧锣密鼓地投入到路线验证的工作中去。在我们初期的尝试中,有对前文提到的优秀工作进行借鉴,
2. 但在实际落地过程中都没有取得显著的效果。我们总结了失败的经验,发现问题主要出在以下几个方面:
1. 各家的Baseline优化程度、用户习惯、场景特性、建模目标、数据规模各不相同,落地方案的经验难以迁移,例如我们尝试HSTU 原文的平铺式特征注入得到了比较差的效果,后来测试有效的 side info 融合效果和美团GR的方案比较接近。
2. 各家的特征服务、样本服务、模型推理服务、业务架构各不相同,一些方案“过拟合“到了对应的具体系统的研发经验中,就很强的路径依赖。这种情况下,不是不想试,而是不敢试,缺少低成本的MVP方案来快速试错。
3. 一些方案缺少关键的技术细节,尝试的ROI太低。例如我们尝试HLLM的时候,按照原文揣摩复现的时候,取得的效果远低于baseline 双塔。我们猜测文本样本的构造可能是关键,但苦于东南亚小语种的样本试错难度过大,只能浅尝辄止。
4. 注意力机制在DLRM(传统深度神经网络推荐范式)已经深度集成,从I日范式到新范式,一些长期积累下来的特征工程和网络结构优化需要被“取舍”,结构优化带来的增益不一定能磨平范式切换带来的损失。
# 🧩 Cues
# 🪞Notes