人人都该懂点产品思维
上QQ阅读APP看书,第一时间看更新

产品经理为什么要标注数据

“怎么样,数据标注得如何了?”按照惯例,我一早询问阿聪的情况。

“终于完成了。”阿聪道。

“你自己抽一部分数据标注过吗?”我问道。

“我为什么要标注,这不是数据标注团队的工作吗?”阿聪显然被我问蒙了。

“产品团队的人当然也需要标注数据的,这样你才能在标注的过程中发现新问题、找到灵感。得得得,看你一脸蒙圈的样子。你回去再看看,我们再讨论。”

为什么要做数据标注

很多人会认为数据标注是一项枯燥而无聊的工作,甚至很多产品经理刻意避免做数据标注,将工作推给运营或者专门的数据标注团队。在我看来,数据标注这项工作或许枯燥,但绝非无用,而是相当有意义。

在我入行之初,大家都在讲“用户思维,站在用户的角度看产品,要有代入感”。在信息分发领域浸染这些年,我开始重新思考这个命题:“我们真的能够始终站在用户的角度看产品吗?”

我个人持否定态度。

一些相对基础的角度,如交互方式、操作逻辑等方面,产品经理大概率是能够以己度人的。但是在基础功能层以上,对于用户的使用场景、用户的行为轨迹特点,我们就未必能够快速代入了。

比如说,在某次用户访谈中,用户谈到了他需要短视频应用提供视频连播功能。

“什么?长视频如电视剧、综艺的连播功能我能理解,为什么会对短视频也有连播需求?”

经过沟通才发现,这个用户是一家小卖铺店主,使用场景就在开店的过程里,用iPad打开视频连续播放。有客人了就去招呼客人,没客人了就自己看个热闹,由于总是会被打断,所以更愿意连播短视频,而非需要剧情连贯的长视频。

这么特殊的情况,若非亲历沟通,我很难相信有产品经理能够快速领悟。

客观上,我觉得产品经理的代入感不能总是成立是有原因的。

在PC互联网年代,服务方所能够提供的功能相对较弱,用户面对的候选服务范围也小,所以二者都还停留在“痛点”的层面进行对接。当互联网化不断加深、服务能力和服务商以指数级增长的时候,多元化的诉求、不同用户聚类的特点就逐渐表现了出来。

以电商为例,从最开始的线上商机撮合,到之后的线上信用担保交易,再到电商开始分化出垂直类目、尾货特卖、C2B严选模式,直到目前的线上线下融合,等等。每一次服务能力的升级,都带来了后续业务形态更大的分化,让同一大范畴里面的各种子类需求能够得到更贴切的满足。

在这么多纷繁复杂的用户群中,你或许属于其中某一个聚类用户,也许一个都不属于。你真的能保证自己始终像一个演员一样,快速代入每一个用户聚类之中,从他们的角度来看待和考虑问题吗?也许会有老天爷赏饭吃的产品经理,总是能够快速地代入不同角色,但是对于大多数人来说,吃着祖师爷赏的饭,就需要不断地进行基础练习才能更了解用户。

数据标注就是其中一项基础练习。这是因为,数据是客观世界的投射和反馈,我们只有通过数据的标注和分析,才能从无我的角度去观察、拟合真实的用户消费和用户场景。这个法子,就是了解自身产品、了解竞品情况、了解用户路径最不容讨巧,但也是最有效的途径。

在百度搜索团队,产品经理按照P序列晋升,无论你是初出茅庐的P2、P3,还是已经独当一面、带领团队的P7、P8,数据标注(如搜索词标注、搜索结果评估)都是需要不断磨炼与精进的基本功。只有与数据做朋友,才能保证对于一线业务数据的敏感度做出更为准确的判断。

所以,不要托大,觉得数据标注是只有初阶产品经理才应该做的事情,数据标注与数据分析对于每个产品经理来说,始终是必须使用的工具。

数据标注的步骤拆解

接下来,整理一下数据标注的常见步骤:围绕目标明确标注维度、确定数据抽样范围、在标注中迭代调整。

围绕目标明确标注维度:

“为何做”比“如何做”更重要,我们的方向决定了投入的程度和最后的产出。每一次数据标注都是带着目的,要回答特定问题的,解决不了问题的数据标注只有苦劳没有功劳。

以上述的视频资源覆盖案例为例,问题就是:自有业务对于全网的视频内容是否覆盖完善?为了回答这个问题,我们需要的标注维度就应该包括视频的分类情况、内容出品方、播放情况和互动情况。

确定数据抽样范围:

在数据规模比较大的情况下,往往无法通过人力完成全局数据标注。所以,通过抽样的方式来产生一个人力可覆盖的数据子集就成了必然的选择。

首先,选择数据样本的来源就是在进行抽样的选择。比如按照分类导航+最近更新日期的遍历、按照榜单的遍历等。我们潜在的假设是,这些榜单数据或者是分类中排行较前的数据,可以代表竞品平台的资源数据。

以各平台的榜单为例,我们依据榜单标注视频网站的内容方是否足够置信呢?直观判断,依据竞品公布的榜单数据来看,热度覆盖是足够的,但是广度覆盖肯定是存在问题的;进一步,如果你深谙互联网PR规则,就会明白榜单一定是经过筛选的,而非绝对的热度排序。

其次,确定数据样本后,我们也可以在这个范围里进一步进行抽样。有效的抽样,可以确保子集特征和全局特征相近,有足够的代表性,从而使我们基于被抽取子集的标注和分析得到的结论足够置信。常见的抽样方式有:

·随机抽样法

在总体样本数量较小的情况下,我们可以采用随机抽样法,从总样本中逐个儿抽取。比如,要做创作者对于平台的使用情况评估和分析,那么几万周活规模的创作者集合是可以直接用随机抽样来抽取的。

·整群抽样法

在总体样本数量较大的情况下,我们可以采用整群抽样法,直接将整个数据集合拆分为N份,选择其中一份进行样本抽取。比如,在做用户视频消费情况的评估中,我们会将一整天的消费按照半小时的长度切分为48份,再分别选择早、中、晚三个时段,提取1.5小时的内容进行细化标注分析。对于创作者群体,可以基于等级、注册时间早晚等不同维度进行分组,对每个分组分别抽取创作者数据进行观察。

在标注中迭代调整:

实操过程中,数据标注并不是一蹴而就的事情。在一些非标准化的数据标注工作中,产品经理并无操作手册可循,需要在标注过程中根据实际情况反推草拟的标准是否合适、数据维度是否妥当,从问题中形成解法,从而形成更稳定、具有可操作性的方法。

还是以短视频覆盖的数据标注为例,我们初步整理出的数据维度有内容名称、内容提供方名称、页面链接、内容上架时间、累计播放量、内容分类。乍一看,这样的数据维度是相对合理的。但是在实际标注中,我们就会发现新的问题。

在内容分类维度,各家网站类目级别和名字不对齐。

一方面,我们可以收集各家网站在前台展示出的类目信息;另一方面,可以注册各家网站的创作者账号,上传内容后查看各个网站提供给创作者的分类体系。

在内容提供方维度,同一个内容制作公司会包含多个品牌,它在不同平台上发布内容会使用父品牌或是子品牌,从而导致数据不容易对齐;在内容分类维度,不同平台上的内容分类不尽相同,也需要做对齐和映射。

以“二更”为例,旗下包括“二更”“更北京”“更上海”等多个子品牌,在不同视频网站上,这些子品牌的体现方式是不一样的:爱奇艺上拆分为多个账号,优酷上则混合为一个账号。

为了更好地横向比较,筛选出具有合作价值的内容提供方,我们就需要在原有的数据维度中增加一个“出品方”的维度,或者是在已有的数据列表中补充备注,来实现数据的对齐。

只有持续地触碰标注数据,和第一手数据打交道,产品经理才能形成主观感觉,更好地基于数据标注团队产出进行二次处理和分析,持续保持对业务的敏感认知。

阿聪基于自己的数据标注,很快补充了新的处理规则,对于分类、内容提供方都进行了二次对齐和映射。基于这份更规整的数据,开始了自己对于资源覆盖数据的分析。