财经科技

雅虎公布海量互联网用户行为数据

2016-01-20

在科技公司争相延揽人工智能领域顶尖人才之际，雅虎公司(Yahoo! Inc. ,YHOO)做出了惊人之举：公布了有关其用户使用雅虎服务方面的海量数据。

周四，这家陷入困境的互联网公司称，将公布历来规模最大的一批互联网行为数据──约2,000万匿名用户在雅虎的运动、金融、新闻、房地产和其他页面的点击、浏览和翻页等行为的信息。这批数据只供大学使用，预计将给研究人员提供海量用户线上行为的罕见真实信息。

雅虎公司在多年来增长乏力后，正面临人才流失的窘境。该公司希望吸引人工智能这一高速增长而竞争激烈领域的研究人员。

当前，科技公司竞相加强与学术界的联系，特别是在机器学习和深度学习等人工智能领域。这些技术通过训练机器挖掘海量数据，从而让后者能够应答复杂问题或做出预测。Facebook Inc.(FB)和谷歌(Google)都招聘了顶尖研究人员。比如，2013年加盟Facebook的Yann LeCun仍然是纽约大学(New York University)数据科学中心的主任。

卡内基梅隆大学(Carnegie Mellon University)计算机科学院院长摩尔(Andrew Moore)称，无论拥有多少人才，老板还想要更多；这些大型科技公司总是感觉没有足够人才去做其想做的事情。

机器学习需要大量的数据，计算机从中发现复杂的模式，并算出结果，以雅虎提供的数据为例，计算机可以发现下午7时30分住在南达科他州拉皮德城的十几岁女孩会被那类新闻标题或设计特点所吸引。在大型互联网公司之外，此类数据十分稀少，而且严格保密，因其可能会暴露公司的业务情况。雅虎的这批数据共有 13.5TB，约相当于国会图书馆数据规模的三分之二。

曾担任谷歌(Google)高管的摩尔表示，与绝大多数学术性计算机科学家能够获得的任何数据相比，这批数据的规模都要大得多，而且多到可能需要存储在大学系统之外，或许是亚马逊公司(Amazon.com, AMZN)或Alphabet Inc. (GOOG)旗下谷歌运营的云计算服务中心。卡内基梅隆大学去年与雅虎公司签署了1,000万美元的五年期合作协议，将根据用户数据开发个性化应用。

相关文章更多作者文章

妮基‧黑利也正式宣布角逐总统大选

将卸任的李克强讲话中暗示中国经济乱与他无关

荷兰半导体制造商ASML调查前中国籍员