这个是去年夏天开始参与的一个任务,断断续续到年前差不多维护的比较完善了。
比如,我们想比较一下“倾向买10万左右整车进口的潜客”和“倾向买10万左右国产合资品牌车”的潜客,他们的选车考量因素和购车习惯有什么不同吗?
假设我们可以有这些人群的上网行为信息,我们可以知道哪些cookie在什么时候,访问的完整的URL,这些网站也包括垂直汽车媒体和门户的汽车频道。
那么通过正则表达式,我们可以识别URL所代表的行为类型,可以是,比如:a0 =品牌\工厂\车系\车型信息列表页,a1 = 查看品牌/工厂信息,a2 = 查看车系信息,a3 = 查看车型信息,a4 = 查看车型价格,a5 = 查看车型口碑,b0 = 车型图片列表页,c2 = 查看测评文章,e2 = 查看试驾活动,e3 = 团购,f0 = 对比车型,g0 = 二手车,m2 = 申请车贷,等等。
也可以从URL行为中解析出,车型信息、车系信息、经销商ID等信息。
比如主流的汽车媒体,汽车之家,爱卡,易车,腾讯汽车频道,还有很多的汽车团购、汽车资讯网站。
所以,我们做的事情就是:
1)爬取这些媒体站的高频URL,全站的全部URL都爬下来也不可取,可以把主要频道的URL爬下来。
2)用正则表达式解析出URL中的业务参数,比如,车系,品牌,车厂,车型,等等。
有了车系和车型后,元数据的记录就会有,国别,价格,配置,口碑,等信息。
3)设计自己的元数据体系,比如,第一级,厂商和品牌有交叉关系,比如,长安马自达、一汽马自达,等等。
下面是车系,再下面是经销商。经销商和车系车型又是网状关系。
4)把爬取到的各站参数,统一到自己设计的车系、车型参数上来。
5)维护潜客ID,和行为参数之间的对应关系。
6)做一些应用BI,比如,查看和某车系的潜客交叉最多的车系是哪个车系,竞争交叉最严重的品牌是谁,在同价位竞争的SUV是谁、B级轿车是谁,等等。
又比如,某个车系的潜客,在哪个门户网站的汽车频道或者垂直媒体上占比最多?这些信息,对于营销广告投放都很有意义。
这样,通过常规的维护,以后,当需要知道某个车系的潜客,某个价位的潜客行为,某车长某关键配置的国产/进口车的人群画像,的时候,就可以从库里得到一个初步的数据素材了。
关于多站的车型车系ID,怎么打通,也有不少的坑。刚开始,想车系的数量级大概在2000左右,而车型的数量级在3万左右,明显是车系更容易对应。
但是,经过一研究发现,其实除了车型是汽车厂定义好的之外,车系其实各个站点的划分方法是可以不同的,比如,朗逸,可以有经典朗逸,可以有新朗逸,或者朗逸二代,三代;有的站点,都算一个车系叫朗逸,有的却划分成好几个细分的车系。所以,看一个新朗逸的人,不一定就是关注整个朗逸。
所以,想了想,还是先匹配车型比较合理。因为一个车型只可能属于一个唯一的车系,车型匹配上之后,再根据车型的匹配,定义自己的车系库的车系代码,自己的车系代码和几个汽车资讯站的车系的代码的关系也就确定了。
车型的比对也不容易,各个站的车型的个数都是上万,而且车型的名称,配置信息常常有错误,有的站连厂商指导价、手动还是自动,这样的信息都会维护错,肉眼看都不知道哪个车型应该对哪个车型,有程序自动匹配,也只能尽量匹配了。
还要考虑每个月都有会有的新车系、新车型,怎么持续的加入到自己维护的信息库里,也是需要考虑的。
1)根据名称、价位、车长、轴距,等参数给他们的相似度打分,由此判断汽车之家的车型代码567和爱卡汽车的车型代码345是不是同一个车型。
2)后来发现python有个函数fuzzywuzzy,直接可以用来判断两个字符串的相似度。
3)最后还有一个方法可以检验,使用爬虫,批量的用车系名称,在汽车媒体和门户汽车频道里搜索,这样批量的得到一个车系名称在网站对应的参数ID。比如,用‘新朗逸’当搜索关键字,在汽车媒体和门户汽车频道里搜索,出来的ID,就是新朗逸的车系代码。不过这个方法还要注意:有的网站搜索引擎不是精准匹配,即使没找到这个车系,也会返回一个推荐车系。
最后,再发动大家人工看一遍车系,大概2000多车系,一个小时也就扫描完了。总比人工查找要靠谱点。
这也是刚开始没有经验,在积累元数据库的时候遇到的一些问题。其实,现在想想,完全可以去‘乘联会’或者什么汽车行业协会里找到更多的借鉴的行业元数据库。
电话咨询
在线咨询
微信咨询