8.4. 数据准备

当定义好需求,明确了根据需求要给AI定义的“输入”和“输出”是什么之后,接下来就需要为AI准备“输入-输出”的训练集,并训练AI了。

我把数据准备分成了三个阶段,数据来源——数据定义——数据交付。

在这三个阶段中,需要的规划、收集、整理数据的能力,我觉得是AI产品经理与传统产品一个非常大的差别了。

8.4.1. 数据来源

就像传统产品一样,产品开始前必须先确定数据来源。

传统产品的数据来源是直接给提供给用户的使用数据,AI的数据来源是指训练AI的数据来源。

AI是数据养的,训练集的数据越多,AI得出的模型越准确,解决实际问题的能力就越强。

我把数据来源分成了两个方面,第一个是为AI准备的基础数据,第二个是结合产品设计,在和用户交互中收集的数据。

基础数据是用来制作AI产品的数据,交互中收集的数据,是产品上线后,用户对产品进行训练的数据。

8.4.1.1. 基础数据

产品经理首先要找到合适的数据源,它可能会是所做产品原来的数据积累,也可能是各方收集的数据甚至人力撰写而来的数据。这些数据需要被整理成教育AI的训练集和测试集。大量的深度学习对数据的质量也有很高的要求。

准备训练集和测试集是AI产品经理相对与传统产品经理新增的任务,也是一个非常艰难和繁杂的任务,而且任务量很大,需要团队一起配合完成,并且不断探索更加简便的方法。

8.4.1.2. 在交互中收集数据

AI产品并不像传统产品一样,每一版是一个固定的形态。

它有一个很大的特质是“动”,AI是成长的,是不断进步和变化的,和用户交互的过程,就是它的迭代过程。

如果说,通过基础数据训练AI是“言传”,给AI准备好了题目和答案,监督它根据题目和答案学会怎么做,那么让AI在和用户交互的过程中学习,就是“身教”了,在用户使用的过程中让用户直接教育AI产品。

那么什么是在交互中学习呢?就是通过用户的行为,让机器知道什么是对的什么是错的,用户想要的是什么。如下图的chatbot,赞同和不赞同的icon、推荐的选项,都是通过用户的交互为机器积累“身教”的数据,让机器在和用户交互的过程中,越来越了解用户的意图和偏好。这一点在之后的产品设计中也会谈到。

交互中的数据是数据来源的一个重要方面。

8.4.2. 数据定义

当有了数据来源,接下需要为AI整理训练集和测试集。这期间涉及到很多繁杂的工作,大量的数据清洗、整理数据,并且有非常多需要考虑的问题:

  • 用什么样的方法清洗和整理数据?

  • 设置什么样的“输入”和“输出”能够保证测试集训练出的机器能更好的运用在实际场景中?

  • 不同的输入之间有什么层级关系?用什么形式展现这些层级关系?

  • 如何更迅速高效地标注数据?

  • 在交互中,要收集什么数据?用什么样的形式收集数据?如何把收集数据的交互更好地融合在用户的使用中?

  • 这些都是AI产品经理面对数据时需要考虑的,每一个问题下都有非常非常多的内容需要探索。在真正的实践过程中,还有各种各样的疑难杂症,需要根据机器学习效果对训练集进行不断的不断的调整和修改。

对数据的把握,可以说是AI产品经理工作里非常繁杂困难的部分了,而人工智能产品的工作方法和经验也都还在发展和积累中,很多事情都还没有找到最好的方式,辅助工具也少,因此也需要AI产品经理多交流经验一起探讨。1