雅虎公布海量互联网用户行为数据

在科技公司争相延揽人工智能领域顶尖人才之际,雅虎公司(Yahoo! Inc. ,YHOO)做出了惊人之举:公布了有关其用户使用雅虎服务方面的海量数据。

周四,这家陷入困境的互联网公司称,将公布历来规模最大的一批互联网行为数据──约2,000万匿名用户在雅虎的运动、金融、新闻、房地产和其他页面的点击、浏览和翻页等行为的信息。这批数据只供大学使用,预计将给研究人员提供海量用户线上行为的罕见真实信息。

雅虎公司在多年来增长乏力后,正面临人才流失的窘境。该公司希望吸引人工智能这一高速增长而竞争激烈领域的研究人员。

当前,科技公司竞相加强与学术界的联系,特别是在机器学习和深度学习等人工智能领域。这些技术通过训练机器挖掘海量数据,从而让后者能够应答复杂问题或做出 预测。Facebook Inc.(FB)和谷歌(Google)都招聘了顶尖研究人员。比如,2013年加盟Facebook的Yann LeCun仍然是纽约大学(New York University)数据科学中心的主任。

卡内基梅隆大学(Carnegie Mellon University)计算机科学院院长摩尔(Andrew Moore)称,无论拥有多少人才,老板还想要更多;这些大型科技公司总是感觉没有足够人才去做其想做的事情。

机器学习需要大量的数据,计算机从中发现复杂的模式,并算出结果,以雅虎提供的数据为例,计算机可以发现下午7时30分住在南达科他州拉皮德城的十几岁女孩 会被那类新闻标题或设计特点所吸引。在大型互联网公司之外,此类数据十分稀少,而且严格保密,因其可能会暴露公司的业务情况。雅虎的这批数据共有 13.5TB,约相当于国会图书馆数据规模的三分之二。

曾担任谷歌(Google)高管的摩尔表示,与绝大多数学术性计算机 科学家能够获得的任何数据相比,这批数据的规模都要大得多,而且多到可能需要存储在大学系统之外,或许是亚马逊公司(Amazon.com, AMZN)或Alphabet Inc. (GOOG)旗下谷歌运营的云计算服务中心。卡内基梅隆大学去年与雅虎公司签署了1,000万美元的五年期合作协议,将根据用户数据开发个性化应用。