别瞎折腾了！ChatGPT分类任务其实就这三板斧，亲测有效

发布时间：2026/5/3 9:48:04

这行干十年了，见多了那种拿着几G数据就觉得自己能训练出神器的新手。今天不整那些虚头巴脑的理论，就聊聊大家最头疼的ChatGPT分类任务。说实话，很多公司花大价钱找外包做标注，最后效果一塌糊涂，为啥？因为根本没搞懂大模型到底吃哪一套。

我上周刚帮一个做电商客服的客户搞定这个事儿。他们手头有十万条用户咨询，要分成“售前咨询”、“售后投诉”和“普通闲聊”三类。起初他们想用Zero-shot（零样本）直接扔给模型，结果那准确率简直惨不忍睹，把“这衣服起球了”这种典型的售后投诉，硬生生分到了“普通闲聊”里。我当时看着那个报表就想骂人，这哪是智能，这是智障。

后来我们换了路子。第一步，数据清洗。这一步太关键了，很多小白根本不在乎。你得把那些乱码、重复的、没意义的垃圾数据全剔除。比如用户发个“哈哈”或者纯表情，这种对分类没啥价值，反而干扰模型。我让客户把数据整理成JSONL格式，每条数据包含“input”和“output”两个字段。注意，这里的output不是随便写的，得是标准的标签，比如“售后投诉”。

第二步，Prompt工程。别以为写个“请分类”就完事了。你得给模型立规矩。我让他在提示词里加上角色设定：“你是一个资深的电商客服主管，擅长从用户语气中捕捉真实意图。”然后给出几个Few-shot（少样本）的例子。比如：

输入：衣服收到有破损

输出：售后投诉

输入：这件衣服有货吗

输出：售前咨询

输入：你好

输出：普通闲聊

这三个例子看似简单，但对模型来说，这就是“锚点”。它通过这几个例子，迅速理解了分类的逻辑和边界。很多同行在这里偷懒，例子给得太少或者太模糊，导致模型泛化能力极差。

第三步，人工复核与迭代。大模型不是万能的，尤其是遇到那些模棱两可的情况。比如用户说“怎么还没发货”，这既可能是售前催单，也可能是售后投诉。这时候就需要人工介入，把这类边界案例挑出来，重新标注，再喂给模型微调。我们用了LoRA技术对基座模型进行微调，成本比全量微调低得多，效果却提升明显。

这里有个坑，很多人喜欢用通用的开源模型直接做分类，其实对于垂直领域，稍微微调一下效果天差地别。我那个客户的案例，经过这三步，准确率从60%飙到了95%以上。关键不在于模型有多牛，而在于你对待数据的态度。

别总想着用ChatGPT分类任务来偷懒，这玩意儿看似简单，实则考验的是你对业务逻辑的理解。你不懂业务，模型就只会瞎猜。我见过太多人，数据质量烂得一塌糊涂，还指望模型能变魔术，那是不可能的。

还有啊，别忽视提示词的细节。比如温度参数（temperature），做分类任务时，一定要设低一点，比如0.1或者0.2。设高了，模型就开始“放飞自我”，产生幻觉，分类结果不稳定。这点很多教程里都不提，全是靠我自己踩坑踩出来的教训。