爬虫技术的商业应用案例

字号+ 编辑: 国内TP粉 修订: 冷眼观米国 来源: 猿人学 2018-04-14 20:31 我要说两句(1)

大体阐述爬虫在互联网时代的应用案例。希望不会快速过时。

从98年google以搜索技术起家开始,互联网至今,以提供内容为主的互联网企业每一家都离不开小爬虫的帮助,大到互联网巨头,小到刚成立没几天的创业公司, 在早期没有足够内容来撑住自家网站和app时,都会采取抓取手段来补充内容,让自家产品显得内容满满。

timg.jpeg

还有好些公司的商业模式就建立在爬虫技术之上的,比如搜索引擎公司、大数据处理公司、网络舆情监控公司,无非就是把数据分分类,归纳一下,如果不搞些小来小去的所谓创新,这类公司就没法运转。另外现如今互联网公司的获客成本上升,出现了增长黑客这个概念,里面的大量运营技巧都是要依赖于爬虫技术的手段来驱动,这里不是指抓数据,而是模仿用户请求,模仿用户操作,自动发贴等手法来新增和激活用户。

浅谈几家在这方面做得成功的公司

1. 提到爬虫,必然会说起搜索引擎,它是直接利用爬虫抓取信息来构建底层服务的。简单粗暴,但是直接有效,而如今世界上最大的两家搜索引擎服务公司(Google和百度),已分别是5100亿和600亿美金市值。

2. 现在已是国民资讯APP的今日头条,早期通过抓取数百家机构的新闻源,然后以用户行为属性标签归纳和深度自然语言搜索优化手段来分发给用户,做到千人千面的阅读体验,现在已在中国互联网公司第一梯队。目前今日头条的搜索优化程度甚至做的比百度都要好。

这也是一个在早期直接利用爬虫手段而成功的例子,如果不抓取别人的新闻资讯,今日头条根本不可能成功。

3. 做职场社交,获得2亿美金投资的脉脉,早期直接抓取微博用户信息,用来弥补自身用户数量的不足,完成了脉脉早期几百万用户积累,不过脉脉抓取微博用户信息已被法院判决为非法,做社交媒体和舆情监控的估计没几家没抓过微博的数据吧。要小心噢。

当下随着国家知识产权法规越来越完善和严格,这种直接抓取别人信息然后直接商业化的行为够你进去蹲几年了。所以要慎重哦!

每个时代都有它所谓的企业原罪,8090年代是企业产权不明,要论互联网时代的原罪估计就是企业早期冷启动时抓取的内容是否应该直接商业化吧。

如果现在再做一个类似搜索引擎和今日头条的产品,不解决版权问题,会随时出现法律问题吧。那么现在爬虫抓取的内容就不能商业化了吗?

也不尽然,比如政府公开的数据是可以直接商用的。

4.在企业工商信息查询领域另辟蹊径的各种类似天眼查等企业。 这若干家企业把各个省,市的官方几千万家工商信息通过人工加三方c++工具自动破解网页验证码的方式把国家网站公示抓取出来,重新做了数据结构调整, 在前端页面用Echart之类的插件输出成灵活的PPT, 出售会员, 提供用户查询。

这个APP已成为创业者,投资人,老板们的标配APP,查询法人信息,企业股权结构等等一目了然。类似的数据还有商标,专利,法院判决文书等等

另外在电商领域抓取各家电商平台做比价网站一直是一个商业模式,比如即将在A股上市的什么值得买,把各家电商网站的商品和价格抓取过来,把他们的价格差异展示出来,方便用户查看哪家网站的便宜,但是后来各家电商网站都把价格信息图片化之后,解析准确价格的难度就加大了不少。

再比如在纳斯达克上市,后又被私有化的去哪儿网,在早期能够崛起成为一个机票和酒店预定的流量入口,就是他的搜索比价模式,实时抓取各家机票和酒店信息,把价格差异展示出来,而这正击中了用户想要买便宜的需求。

阅完此文,您的感想如何?
  • 鼓掌

    0

  • 鄙视

    0

  • 开心

    1

  • 愤怒

    0

  • 可怜

    0

1.如文章侵犯了您的版权,请发邮件通知本站,该文章将在24小时内删除;
2.本站标注原创的文章,转发时烦请注明来源;
3.交流群: PHP+JS聊天群

相关课文
  • Sublime如何取消自动补全括号

  • 在IT行业, 科技公司, 技术重要还是市场销售重要?

  • 怎么快速删除自己在今日头条上的评论

  • 业界现象: 特朗普发布7年禁售令 封锁中兴供应链

我要说说
网上宾友点评
1楼 IP42.198.*.*的嘉宾说道: 很久前
想起滴滴打车了
爬虫技术的商业应用案例