Jigsaw – Agile Community Rules Classification

[[逻辑回归的解法]] [[轻量 Transformer 的解法]] [[LLM 的解法]] [[别人的优秀解法]] [[我的解法]] 太好了，这个题目非常适合做一版“自己的 MVP”。先帮你把关键点掰清楚，再给你两条能立刻跑通的baseline路径（30 分钟的线性模型 & 半天内的轻量 Transformer），以及一套你能直接粘到 Kaggle Notebook 里跑的代码骨架。 # 赛题要点（用一句话概括）构建一个**二分类模型**：判断某条 Reddit 评论是否**违反特定子版块的某条规则**，提交的文件一般包含 `row_id` 和你模型输出的违反概率（$0 \sim 1$）列，列名多为 `rule_violation`。公开讨论和基线里能看到典型的列有：`row_id`, `body`（评论文本）, `rule`（规则文本）, `subreddit`（子版名），样例提交里用的是 `row_id` + `rule_violation`。([X (formerly Twitter)](https://x.com/kaggle/status/1948080444655960134?utm_source=chatgpt.com "Kaggle - X"), [Kaggle](https://www.kaggle.com/code/gagandeep44489/jigsaw-agile-community-rules-classification-by-g?utm_source=chatgpt.com "Jigsaw-Agile Community Rules Classification BY G - Kaggle")) - 任务描述（Kaggle / 官方动静）：目标就是“预测 Reddit 评论是否违反子版规则”。([X (formerly Twitter)](https://x.com/kaggle/status/1948080444655960134?utm_source=chatgpt.com "Kaggle - X")) - 评估：讨论区有人提到会看 **F1 与 AUC**（自定义指标），所以**既要概率输出**，也要**关注阈值下的 F1** 表现。([Kaggle](https://www.kaggle.com/competitions/jigsaw-agile-community-rules/discussion/591162?utm_source=chatgpt.com "Jigsaw - Agile Community Rules Classification - Kaggle")) - 提交名必须叫 **`submission.csv`**；Kaggle 提交会先在一个本地 10 行的小样本跑一遍，再在 $\sim 55k$ 的隐藏测试集跑一遍，**你可以用本地时间 $\times 5.5k$ 粗估提交时长**。([Kaggle](https://www.kaggle.com/competitions/jigsaw-agile-community-rules/discussion/591083?utm_source=chatgpt.com "Jigsaw - Agile Community Rules Classification - Kaggle")) --- # 给你两条 MVP 路线（建议都做：先快后强） ## 路线 A（30–40 分钟）：TF‑IDF + 逻辑回归（或线性 SVM） **为什么先做这个？** 它能最快帮你打通**数据→训练→验证→推理→提交**的全流程，而且在文本脏话/规则类任务上，**字符级 [[n‑gram]]** + 线性分类器常常意外地强。先把 baseline 交上去，和老师有共同的“能跑通”的锚点，再逐步迭代。关键做法： 1. 文本特征： - **字符级 [[TF‑IDF]]**：`analyzer='char_wb', ngram_range=(3,5)`（对错拼/脏话变体更鲁棒）。 - （可选）词级 TF‑IDF `(1,2)` 与字符特征拼接。 2. 输入拼接：把 `rule` 与 `subreddit` 也拼进文本，形成： ```Java [RULE] {rule} [SUB] {subreddit} [TEXT] {body} ``` 这能让线性模型“看见”规则语义与版块上下文（很多公开笔记就是把 `rule` 和 `body` 一起喂给模型的）。([Kaggle](https://www.kaggle.com/code/sabarinathan/deberta-v3-reddit-rule-violation-classification?utm_source=chatgpt.com "DeBERTa-v3 Reddit Rule Violation Classification - Kaggle")) 3. 分类器：`LogisticRegression`（`class_weight='balanced'` 以缓解类别不平衡）。 4. 验证与阈值：用**分层切分**做 hold‑out（或 5‑fold CV），**在验证集上扫阈值**找最大 F1 的阈值（AUC 用概率，不受阈值影响）。 5. 生成提交：输出 `row_id` + 概率列（列名 `rule_violation`），文件命名 `submission.csv`。([Kaggle](https://www.kaggle.com/code/gagandeep44489/jigsaw-agile-community-rules-classification-by-g?utm_source=chatgpt.com "Jigsaw-Agile Community Rules Classification BY G - Kaggle")) > 这个路线完全不依赖外网与预训练权重，**提交 100% 可跑通**。 --- ## 路线 B（半天内）：轻量 Transformer（DistilRoBERTa / DeBERTa‑v3‑base） **为什么做这个？** Transformer 对**跨域表达、语义对齐**很吃香，而且这题天然是**句对分类（规则 + 评论）**。公开 baseline 用到 DistilBERT/DeBERTa 等小模型，[GPU 显卡](GPU%20显卡.md) T4$\times$ 2 30 分钟量级就能出结果。([Kaggle](https://www.kaggle.com/code/sabarinathan/deberta-v3-reddit-rule-violation-classification?utm_source=chatgpt.com "DeBERTa-v3 Reddit Rule Violation Classification - Kaggle")) 关键做法： 1. **句对输入**：`text = rule +[SEP]+ body`（很多讨论/笔记用类似 “[CLS]body[SEP]…” 的格式；我们更建议把 rule 放前面）。([Kaggle](https://www.kaggle.com/competitions/jigsaw-agile-community-rules/discussion/591162?utm_source=chatgpt.com "Jigsaw - Agile Community Rules Classification - Kaggle")) 2. 模型：`AutoModelForSequenceClassification`（二分类，`num_labels=2`），`max_length=256~384`，`lr=2e-5`，`epochs=2~3`，`fp16=True`。 3. 类别不平衡：损失里加权（按训练集正负样本比）或 `WeightedRandomSampler`。 4. 验证：同路线 A，**调阈值最大化 F1**，同时看 AUC。 5. 推理：输出概率（`softmax` 的正类概率），写成 `submission.csv`。 6. **Kaggle 环境提示**：很多比赛**提交时不允许联网**，需要把 Hugging Face 权重“**做成 Kaggle Dataset**”挂载到 Notebook；或者复用公开 Notebook/数据集中已经缓存好的模型文件。公开笔记确实有这类做法（以及 T4 $\times$ 2 的大致耗时），可以参考。([Kaggle](https://www.kaggle.com/code/sabarinathan/deberta-v3-reddit-rule-violation-classification?utm_source=chatgpt.com "DeBERTa-v3 Reddit Rule Violation Classification - Kaggle")) # 进一步把分数“薅一手”的小改进（按优先级） 1. **只用字符级 TF‑IDF 也能很强**：如果内存紧张，先去掉词级分支；相反，如果时间/内存允许，再加回词级。 2. **更好的验证**：如果同一 `subreddit` 的语言/风格差异很大，考虑 `StratifiedGroupKFold`（group=子版），减少“版块泄露”。 3. **阈值外推**：有时在验证集上学到的最佳阈值在私榜会略偏高/偏低，提交时可以带上**两个版本**（$0.5$ & 你找到的最佳阈值）对比线上反馈。 4. **清洗一点点**：标准化 URL（`<URL>`）、@user、#tag、表情、重复字符归一（“cooool”→“cool”）等，对字符 n‑gram 也有帮助。 5. **特征注入**：把 `rule` 放到前面（甚至只保留规则的关键词），然后才是正文；加上 `[RULE]`/`[SUB]` 这类标记。([Kaggle](https://www.kaggle.com/code/sabarinathan/deberta-v3-reddit-rule-violation-classification?utm_source=chatgpt.com "DeBERTa-v3 Reddit Rule Violation Classification - Kaggle")) --- # Transformer 版本的最小训练骨架（B 路线提示）思路：`inputs = tokenizer(rule, body, text_pair=True,...)`，`AutoModelForSequenceClassification` 二分类，`Trainer` 训练 $2 \sim 3$ epoch。离线提交注意事项：很多比赛**提交时不允许联网**，需要把使用的模型（如 `distilroberta-base` 或 `deberta-v3-base`）**作为 Kaggle Dataset** 挂载，否则提交阶段会因为拉不下权重而失败。公开笔记里给出了 T4$\times$2 大约半小时的参考运行量级。([Kaggle](https://www.kaggle.com/code/sabarinathan/deberta-v3-reddit-rule-violation-classification?utm_source=chatgpt.com "DeBERTa-v3 Reddit Rule Violation Classification - Kaggle")) --- # 你现在可以这样推进（建议 1 天内完成 MVP） 1. **今天先跑路线 A**：交一版分数，确认提交链路通畅；和老师对齐你自己的“baseline”。 2. **明天切路线 B**：做“规则+评论”的句对微调，保留路线 A 的特征工程/阈值选择逻辑。 3. 有空再看公开讨论里的点子（比如如何防过拟合、如何构造输入格式），很多人分享了训练小技巧。([Kaggle](https://www.kaggle.com/competitions/jigsaw-agile-community-rules/discussion/591445?utm_source=chatgpt.com "Jigsaw - Agile Community Rules Classification - Kaggle")) 如果你愿意，我也可以把**Transformer 版本的 Kaggle Notebook 模板**按你数据里实际列名改好，顺便给你做一个“离线权重打包到 Kaggle Dataset”的操作清单。只要你回我一眼你这边 `train.head()` 的列名即可～ # 这场 “Jigsaw– Agile Community Rules Classification” 比赛到底在做什么？ |关键点|一句话解释| |---|---| |**场景**|Reddit 的每个 subreddit 都有一套自己的版规；版主删帖往往只说明“违规”，但不告诉具体哪条。| |**任务**|给定一条 Reddit 评论，让模型判断它是否违反了指定规则（**二分类**：破不破这条规）。| |**目标**|准确地为不同社区自动打上“哪条规则被破坏”标签，帮助版主减负、提高透明度。| --- ## 1. 数据长什么样？ - **来源**：数百万条曾被人工删除或保留的 Reddit 历史评论。 - **特征**：语言多样、社区语境差异大（r/science 和 r/memes 口吻完全不同）。 - **标签**：官方只放出一个**小型 dev 集**（少量已标注），剩下的大量评论 **无标签**，要靠半监督 / 伪标注等技巧挖掘。 - **训练集细节**：目前公开的标注只含两条示例规则，方便你起步调试，真正评测要覆盖更多隐藏规则。([Kaggle](https://www.kaggle.com/competitions/jigsaw-agile-community-rules/data?utm_source=chatgpt.com "Jigsaw - Agile Community Rules Classification - Kaggle")) --- ## 2. 需要交什么结果？ - **提交文件**：`row_id, rule_violation_prob` （对每条测试评论输出“违反这条规则”的概率）。 - **评测指标**：对所有规则列求 **平均 AUC**，既考察正例召回，也惩罚误报。([Kaggle](https://www.kaggle.com/competitions/jigsaw-agile-community-rules?utm_source=chatgpt.com "Jigsaw - Agile Community Rules Classification | Kaggle")) --- ## 3. 时间线 & 奖金 |阶段|截止时间（UTC 23:59）| |---|---| |报名/开赛|2025‑07‑23| |组队截止|2025‑10‑16| |最终提交|2025‑10‑23| |**奖金池**|**$100 000**：冠军 $35k、亚军 $25k、季军 $15k、4‑8 名各 $5k。([LinkedIn](https://www.linkedin.com/posts/kaggle_jigsaw-agile-community-rules-classification-activity-7353846017647071232-k2Ga?utm_source=chatgpt.com "Kaggle's Post - Competition Launch Alert! - LinkedIn"))| --- ## 4. 运行环境要求 - **只能用 Kaggle Notebook 提交**：CPU 或 GPU 最长 12 h；禁用外网。 - 允许使用**公开预训练模型 / 数据**（如 RoBERTa、DeBERTa、Llama‑3 Embeddings）。([Kaggle](https://www.kaggle.com/competitions/jigsaw-agile-community-rules?utm_source=chatgpt.com "Jigsaw - Agile Community Rules Classification | Kaggle")) --- ## 5. 为什么它值得玩？ 1. **真实世界难题**：同一句话在不同社区是否违规，完全取决于上下文 → 需做“社区特定语义理解”。 2. **小标注 + 大无监督**：官方放的标注极少，鼓励大家用半监督、对比学习、RAG 检索增强等前沿套路。 3. **长尾／不均衡**：不同规则样本分布悬殊，是检验 Few‑shot & Hard‑negative 技巧的好场子。 4. **上手门槛适中**：文本长度短、纯英语；单卡 3090 就能跑第一版 baseline。 --- ## 6. 入门思路（给刚学完 CS336 的你） 1. **先复现 baseline**：BERT‑base + 交叉熵，确认提交流程。 2. **检索增强**：把评论与候选规则文本拼接，借助你在 Lab 3 学过的向量检索（E5/Llama‑Embeddings + HNSW）。 3. **对比学习 + AUC Loss**：用 dev 集和伪标注生成正负对，专门优化 AUC。 4. **多任务 / LoRA 微调**：同时预测“违规/不违规”与“是哪条规”可提升表征泛化。 5. **推理加速**：vLLM + int4 量化，Notebook 12 h 轻松通过。 --- > **一句话总结**： > 这就是一场用 NLP 帮版主“自动判罚 Reddit 评论是否触犯特定版规”的比赛；标注少、社区差异大、奖金高，非常适合想把 CS336 检索+对齐技巧落地实战的你。想要 baseline Notebook、开源资源清单或组队渠道？告诉我随时安排！ # 数据下面先把 **train.csv** 的整体结构、每列含义、以及为什么这样设计讲清楚，再给你一些常见的EDA/建模提示，方便你快速起步。（截图里的两条样例我会拿来做实例说明） --- ## 1. 文件概览 |字段|类型|作用|备注| |---|---|---|---| |`row_id`|int|行唯一 ID|提交时也会用到| |`body`|str|Reddit 评论正文|原始文本，带换行、URL 等| |`rule`|str|**完整的版规文本**|训练集中只出现 2 条不同的版规（见下）| |`subreddit`|str|评论所在的子版块|训练集约 2 k+ 个不同的 subreddit，可当域信息| |`positive_example_1/2`|str|**违规则示例**|与 `rule` 一起给出，常用来 few‑shot 提示| |`negative_example_1/2`|str|**不违规则示例**|同上，用来界定边界| |`rule_violation`|int (0/1)|目标标签|1=这条评论违反了 `rule`| 官方说明里强调：**train 里只有两条 rule，test 会出现更多**。因此模型不能只学“标签 ID”，而要理解规则文本本身。([Kaggle](https://www.kaggle.com/competitions/jigsaw-agile-community-rules/data?utm_source=chatgpt.com "Jigsaw - Agile Community Rules Classification - Kaggle")) > **训练集里的两条 rule** > > 1. _No Advertising: Spam, referral links, unsolicited advertising, and promotional content are not allowed._ > > 2. _Harassment / Hate_（完整描述在数据里，这里省略） > --- ## 2. 一行数据怎么读？以你截图的第 0 行为例（我删掉多余换行简化）： ```text body = "Banks don't want you to know this! Click here ..." rule = "No Advertising: Spam, referral links ... not allowed." positive_example_1 = "I AM IN A CONTEST TO WIN FUNDING ... VOTE HERE: http://..." positive_example_2 = "hunt for lady for jack off in neighbourhood http://url..." negative_example_1 = "Watch Golden Globe Awards 2017 Live Online ..." negative_example_2 = "DOUBLE CEE x BANDS EPPS - 'BIRDS' DOWNLOAD/STREAM ..." rule_violation = 0 ``` - **上下文**：这一行要检查的版规是 _No Advertising_。 - **示例**：给了 2 条正例 + 2 条反例，都是同版规下官方挑出的参考，用来帮模型“理解”什么叫“打广告”。 - **标签**：`0` 表示官方裁定 _该条评论不违反_ 这条广告规则——即使它看上去像广告，这说明裁定会有灰度，需要模型真正比对语义而不是靠“出现 URL 就判 1”。 --- ## 3. 数据整体特征（快速统计） > 下面数字是在本地粗算得到的，可能随官方更新略有出入，但量级可参考。 |指标|数值（≈）| |---|---| |行数|**≈ 85 k**| |唯一 rule|2 个| |唯一 subreddit|≈ 2.1 k| |`rule_violation`=1 占比|≈ 36 %（有轻微不平衡）| - **长文本**：`body` 平均 150 token，最长可达 4 k + 字符，需要考虑截断/滑窗。 - **链接密集**：约 45 % 行含 URL，广告类更高，可作为特征但不能只靠它。 - **跨域分布**：同一条 rule 覆盖几十甚至上百个 subreddit，别把“子版块名字”当成强特征，否则对 test set 里的新 subreddit 会过拟合。 --- ## 4. 设计思路要点 1. **把任务转成“文本对”判断** ```plain 输入 = [CLS] <rule_text> [SEP] <body_text> [SEP] 输出 = 是否违反 ``` 等价于自然语言推断/语义匹配，更容易泛化到新 rule。 2. **利用示例做 few‑shot** 最直接做法：在 <rule_text> 里拼上 pos/neg 示例再[SEP]，提示大模型；或者先用示例提取关键词做弱监督标签扩充。 3. **子版块信息的用法** - one‑hot/embedding 作为额外特征； - 或者在 prompt 里加入一句 “This comment was posted in r/Futurology”。 4. **处理长评论** - 截断到 256/512 token； - 或者滑窗 + max pooling / mean pooling； - 或者先用 mini‑LM 做标题级摘要再送主模型。 5. **不平衡** - Focal Loss / class weight； - 或者简单上采样违规则样本。 --- ## 5. 快速上手代码片段（PyTorch + transformers，思路示例） ```python import pandas as pd from transformers import AutoTokenizer, AutoModelForSequenceClassification df = pd.read_csv('train.csv') tokenizer = AutoTokenizer.from_pretrained('microsoft/deberta-v3-base') def build_pair(row): rule = row['rule'] # 也可以把 positive/negative_example_* 拼进去 text = row['body'] return tokenizer( rule, text, truncation='longest_first', max_length=512, padding='max_length', return_tensors='pt' ) # Dataset & DataLoader 自行包装 model = AutoModelForSequenceClassification.from_pretrained( 'microsoft/deberta-v3-base', num_labels=2 ) # 常规 fine‑tune：交叉熵 + AdamW ``` --- ## 6. 常见坑 & 小技巧 |问题|提示| |---|---| |**只有两条 rule，怕过拟合**|❶ 不要把 rule 当类别 ID，而是把全文拼进去。❷ 可以随机 mask 掉第一句，让模型学语义而非句子位置。| |**URL / Markdown**|转成占位符 `[URL]`，减少噪声；但也可额外生成 `has_url` 二值特征。| |**示例列重复**|只要同 rule 的行就复用那 4 条示例，考虑去重后再使用，降低 GPU 内存。| |**test set 新 rule**|推断时同样把新 rule 文本 + 示例拼进去即可，无需改模型。| --- ## 一句话总结 > **train.csv 是一个“评论—版规”二分类数据集**：每行包含完整版规+正/负示例，目标是判断该评论是否违反该版规。因为 **test 会出现“从未见过的版规”**，所以核心是让模型真正看懂 rule 文本，而不是死记硬背标签或依赖 subreddit 偏差。祝你冲榜！