实际业务场景中的监督学习流程以及PM的工作

Abstract:只要是监督学习,必然需要做数据处理,流程为:数据标注——>模型训练—>模型测试—>PM评估。其中数据标注是第一步。数据的质量会直接影响到模型的质量。PM需要提供具体的产品需求(如指标设定,分类规则)给算法员做模型训练。测试员需用测试集对模型测试,并反馈各项指标达成情况给PM,PM再评估其是否满足上线需求。PM在整个流程中起流程控制、质量评估、设定模型边界等作用。

监督学习与数据分类

监督学习必走的流程:

01

数据分为两类:

  • 被标记过的数据
  • 未被标记过的数据

用有标记的数据去训练模型,即监督学习。监督学习需要不断用标注过的数据去训练模型,不断调整模型参数,得到指标值更高的模型。

数据标注

数据标注的重要性:数据的质量会直接影响到模型的质量.。

数据标注任务的角色:

1
2
3
4
graph TD
A[管理员人员管理+发放数据任务+统计工资]-->B[标注员-标记数据]
B-->C[审核员-审核被标记数据的质量]
C-->D[投入模型训练]

数据标记流程:

1
2
3
4
graph TD
A[任务分配-人工分批发放or抢单式]-->B[标记程序设计-需要考虑到如何提升效率如快捷键边标记边存等功能的设置]
B-->C[进度跟踪-跟踪工作进度可以ddl淘汰人]
C-->D[质量跟踪-可审核标注员的正确率和审核通过率以评质量]

模型训练

这部分基本由算法人员负责,PM可向其交代需注意的事项和给出具体的需求和指标,如希望算法精确度在95%以上。

举个栗子:一个识别水果的产品对黄瓜的识别效果不理想。经分析发现是因为黄瓜和丝瓜长得很相似。则为达到提高识别精度(+5%)的目标,解决办法有:

  • 补充黄瓜的数据:包括正例(xx应被识别为黄瓜)和负例(xx不应被识别为黄瓜)
  • 优化已标注的数据:修改以往的错误标注

模型测试

测试员将未被训练的数据(预留的测试集)在新的模型下做测试

PS:最好有后台设计,以实现自动化测试。

衡量模型优劣的指标:

1.通用指标:

  • 精确率Precision = 真阳性的数量/预测值为阳性的数量 = 真阳性的数量/(真阳性的数量+假阳性的数量)
  • 召回率Recall = 真阳性的数量/实际阳性的数量 = 真阳性的数量/(真阳性的数量+假阴性的数量)

还是以黄瓜和丝瓜为例:假设训练样本总数为100个,真阳性数量(正确识别为黄瓜)为90个,假阳性数量(错误识别为黄瓜)的样本数为95个,则: precision = 90/95; recall = 90/98.

3.2节详细阐述了precision和recall

模型的效果,需要在这两个指标之间达到一个平衡。一高一低或一低一高都不好。

2.因地制宜:测试还需关注不同领域不同类别相应的指标,如表情识别(喜怒哀乐恐惊中)各个情绪分类的指标不同。

测试反馈:

  • 反馈什么:指标达成结果
  • 意义:反馈给算法员做模型改进 + 反馈给PM以评估是否满足产品(上线)需求

产品评估

评估对象:模型是否满足上线需求。

方法:反复验证模型效果,每次记录好指标数据的对比。

假设本次模型主要是为了优化领域内其中一类的指标,在关注目的的同时,产品还需同时注意检测其他类别的效果,以免漏洞产生。

PM制定模型边界

PM工作:流程控制,质量评估,针对分类问题设定模型边界(直接影响模型是否能满足市场需求)

制定分类规则:需要非常细节地提出分类需求和设定分类规则。

例如,目的是希望模型能够识别红色,那产品需要详细描述“红色”包含的颜色,暗红色算红色吗?紫红色算红色吗?紫红色算是红色还是紫色?这些非常细节的规则都需要产品设定。

分类粗细对细分类下的数据量和数据归类有影响:如果分类细,那么针对某一类的数据就会少。如果分类大,那么一些有歧义的数据就会被放进该分类,也会影响模型效果。分类问题和策略问题道理是一样的,都需要产品对需求了解得非常深刻。

Q & A

1.数据标注、训练和测试过程中,经常遇到的问题?

  • 影响因素:数据标注的规范够清晰,对规则的界定从一而终
  • 注意数据标注的一致性
  • 分类性质的工作可从简到繁

1.标注规则可从二分法开始;规则设定由简到繁,带疑虑的数据打上记号先放着。 2.放弃低频问题的规则,有歧义或交叉的数据根据新规则标注。如“你说你会干什么?”可能是询问,可能是嫌弃,带有歧义,不能归到询问类去,需要将其剔除训练集。

  • 多类规则同时进行的标注工作需要把每类规则定的足够细致。

2.设定模型的主要衡量指标有哪些方法?

  • 在已有模型基础上,根据具体业务和产品需求来优化模型,调配模型(数据公式)参数

3.半监督学习?

  • 监督学习的人工和时间成本都最高,最好只在重要和求精的任务上使用。
  • 半监督学习:结合已标注的数据和大量未标注的数据,在节约时间和准确率上效果不错,一般用于训练较大型的基础模型,如分类和相似度。

Reference

零互联网工作经验想做AI产品经理怎么办?不如从数据标注工作入门

拿钱去买猫粮和狗粮嗷 ~