爬虫模型:在竞争红海中的创新关键


近日,谷歌DeepMind团队最新的研究成果阿法元(AlphaGo Zero)100比0击败了2016年打败人类冠军的阿法狗(AlphaGo),据Deepmind团队所称,阿法元从未参考任何人类历史棋局或棋谱,完全靠机器自主的强化学习发展新知及策略,胜过阿法狗的关键正是在于他不再被人类经验所局限。

 

图片:DeepMind官网

 

这告诉我们人工智能以及大数据运用一个重要的思考面向,人类经验所发展出来的认知其实是有限度的,长久以来多数企业所从事的传统研究方法,依从研究人员对既有市场的认知及假设进行,获得的洞察同样有其局限性,在数字化高度发展的今天,运用网络平台上全量的数据进行分析,可以更精准而且真实地掌握市场脉动及用户潜在需求,有利于企业挖掘商机打造差异化策略。

运用大数据的优势可概括以下几点:

  1. 样本量大

定性调研因受限于时间及成本,通常仅能设定几种目标客群进行了解,且样本量也有其限制,随着信息技术渐臻成熟,数据积累和处理的速度越来越快,运用大数据可触及全人群,且没有样本限制,有利企业在互联网时代触及长尾市场广大人群,拓展新客源。

  1. 数据真实度高

大数据来自于用户平时在网络平台上的行为及发言,获取的洞察比起任何方法更符合用户真实的想法及需求,且相对客观中立,参考价值高。

  1. 用户画像的涵盖面向完整

结合样本量大且真实度高的特性,运用大数据可经由用户的网络足迹,获取用户生活中全面向的需求及偏好,从食衣住行育乐,到家庭、工作、恋爱,帮助企业在用户画像的刻画上有更全方位且丰富的输入,有利于精准营销及用户分群。

  1. 实时掌握市场脉动

随着互联网技术不断发展,社交网络的蓬勃兴起,爆红性的趋势及话题经常引发用户的热烈响应,面对愈加瞬息万变的市场,大数据量化分析可实时处理数据并进行长期追踪的特性,帮助企业预测趋势,满足用户需求。

应用大数据创新的思路与方法架构

大数据应用在商业上的核心价值在于通过拼凑网络上的蛛丝马迹,对目标客群的行为心理做出合理的论述及推理,帮助企业品牌或产品定位找到适合的切入点,因此应用的关键在于将目光延伸至用户平时生活中感兴趣的人事物,而不仅是关注既有产品在网络上的热门程度或是评价,以挖掘商业契机。

以下将以倍比拓咨询的爬虫[1]方法论为核心,提供通过大数量化分析据挖掘商业契机的方法架构:

WHERE:目标客群在哪里?

为了确保挖取的数据具备参考价值,首先应确立执行分析的平台符合目标客群重点造访的条件,接下来一般会综合考虑管道内容的丰富度以及采集数据的可行性,筛选出最具指针性及参考价值的平台执行分析。

WHAT:目标客群在意什么?

锁定平台的下一步,必须确立欲利用大数据探索的内容,也就是目标客群日常生活中在乎的议题,建议自目标客群的视角出发,归结出适合探索的面向或主题,如食衣住行育乐或是就业、两性等。

HOW:如何与商业产生连结?

在所有生活主题中,最具商业契机者并不等同于目标客群关注程度最高者,尚须考虑市场规模、与产品之间的关联度、可行性等等,因此执行各面向分析时,应在目标客群关注程度之外,加入一种以上适当的商业性指标进行筛选及优先级排序,最后依据分析维度结果由优先最高者产生商业洞察。

应用案例

某消费品全球领先业者以寻求创新契机为目标,希望通过用户调研探索20-35岁年轻人在生活中的需求与关注议题,进而找到未来事业发展方向及商品的切入点。

有鉴于项目目标以挖掘市场商机为要求,我们采取爬虫进行大数据量化分析,并锁定年轻人接触相当频繁的综合型论坛作为探索管道。

考虑该业者的商品具备消费频次高的属性,在归纳生活需求面向与主题时,我们自年轻人的需求出发,将欲探索的内容区分为以下两大面向:

  1. 昙花一现式:指某一个时刻内,瞬间涌现的热门事件,如中国有嘻哈、精灵宝可梦等等,属于爆红式话题。
  2. 常青树式:指生活中的基本需求,年轻人几乎每天都会关注,如衣食住行、旅游、购物等等。

为寻求商业的借鉴意义,将以上两大面向对应到论坛中相应的主题场景,进一步思考分析方法及商业洞察。

昙花一现式场景找出爆红话题的共性

针对昙花一现式场景,因遍及生活各面向,锁定论坛中讨论广度最高的主题,如娱乐、女性、财经等进行爬虫,并依各主题的讨论声量排序年度十大爆红关键词,寻求关键词之间的共性,发现抓住年轻人目光的话题普遍具有争议性且与自身经验高度相关,可做为未来开发及营销举措的依据。

常青树式场景提炼出最具商业契机的生活主题

因最终目的是为业者找到商品未来营销或创新方向的契机,具备借鉴意义的生活主题必须拥有一定的市场潜力及未来与该产业结合的可能性,意味着必须符合两大关键要素:年轻人的高关注度以及与该业者商品的关联度。

有鉴于此,针对常青树式场景归结出的八大面向〈医疗美妆、食、住、行、玩、购物、互联网、其他〉,我们选择使用“造访人数”与“目标群体指数(TGI)”两个指标进行爬虫,TGI是为了解与该业者商品属性连结程度所使用的指标,执行方法是首先锁定曾使用该商品的用户ID,并藉由统计分析,盘点出此目标群体比年轻人全人群更常造访的主题。

图片:beBit倍比拓咨询

    最后依二维分析结果排定优先级,定义出目标群体最关注的三大关键主题场景,分别是韩剧、美妆、旅游,依此发想潜力营销渠道及商品未来可开发方向。

以旅游为例,发想过程中,为提炼出目标群体最关注的内容,我们再次运用爬虫挖掘此场景下的热门字词,其中在东北亚类别中,目标人群对于日本的喜爱程度最高,又以东京及大阪为旅游的第一首选,在东南亚类别中,则是以香港位居榜首,其次有曼谷、澳门、新加坡等,依此排序结果,建议客户在下一季商品中可以推出以东京、大阪或香港、曼谷为主打的城市精选限定款,藉以创造销售。

结语

随着信息技术成熟,大数据的应用在各行各业中渐趋普遍,然而,应用大数据重要的不在于数据或技术本身,而是清楚该使用什么维度或模型进行分析处理,才能够提炼出商业价值的逻辑思路,毕竟为决策提供支撑才是大数据真正存在的意义。

[1]被广泛用于网络搜索引擎,可自动读取并解析网页的程序

 
 

了解更多