申永祥学习室

今日头条通过“网络爬虫+相似矩阵“技术运作计算用户喜欢的内容

SEO > 营销 > IT新闻 > 申永祥 发布于 2016年07月24日 | 阅读(73)

  今日头条这类资讯聚合平台是基于数据挖掘技术,筛选和推荐新闻:“它为户推荐有价值的、个性化的信息,提供连接人与信息的新型服务,是国内移动互联网领域成长最快的产品服务之一”。自从2012年3月创建以来,今日头条至今已经累计激活户3.1亿,日活跃用户超过3000万。

  1399028519.jpg

  本文尝试从技术层面分析今日头条的传播机制和相关原理。

  

  1网络爬虫:抓取新闻的基本技术

  

  今日头条是一个典型的数据新闻平台,其新闻来源除了合作媒体之外,很大一部分来自于搜索引擎的网络爬虫。

  

  网络爬虫是什么?

  

  STEP 1:从互联网各个角落收集信息;

  

  STEP 2:将其中的新闻类信息进行汇总;

  

  STEP 3:汇总的信息经过基于机器学习的分类和排序,划分出每一个时刻的热点新闻。

  

  今日头条作为数据新闻平台,与一般数据新闻的区别,在于提供一个媒介平台,展示汇总的信息,而不是一条信息。

  

  网络爬虫的工作机制是什么?

  

  网络爬虫的工作机制依赖于会联网互联网上的超链接网络。

  

  在互联网上多数网页,都有超链接存在。这些超链接将各个网页链接起来构成了一个庞大的网络,也就是超链接网络。爬虫作为一种网络程序从一些网页出发,保存网页的内容,寻找网页当中的超链接,然后访问这些超链接,并重复以上过程,这个过程可以不断进行下去。如图所示:

123.jpg

  STEP 1:爬虫从一个种子节点0开始爬取网页内容,

  

  STEP 2:抓取的同时发现两个超链接,并爬取第一级节点,

  

  STEP 3:从第一级节点开始又发现第二级节点,这个过程不断进行下去。

  

  这个过程当中有两种策略:

  

  1、只有穷尽一个层级的所有页面才爬取下一个层级,这种策略叫做“广度优先”;

  

  2、发现一个超链接后,立刻就开始爬取这个网页,并持续深入下去,这种过程叫做“深度优先”。

  

  补充说明:

  

作者:未知,来自:网络整理

转载请注明来源:申永祥博客,(QQ/微信:790799899)原文地址:原文地址:http://shenyongxiang.com/content-29596-1/

声明:博客内容除标记原创字样以外内容,均来自网络转载,版权归原作者所有,如涉及版权问题请及时联系处理。

上一篇:如何让网站自动识别手机端与PC端屏幕自适应 下一篇:深度好文:做好微信运营都需要哪些能力和技巧?