咨询干货

了解优化推广技术相关资讯

Diffbot的知识图谱已经超过1万亿个事实

2019-05-18来自网络作者: 福布斯

Diffbot与谷歌类似,使用网络爬虫持续对几十亿个网页搜索。不过,该公司并不适用索引来为人们提供信息的最佳链接,而是向企业提供数据,供其输入这些企业自己的分析工具。

一万亿次搜索,GOOGLE的华人对手到家门口了

Diffbot首席执行官Mike Tung表示,该公司的目标是“为一切人类知识建立第一份全面图谱”。Tim Pannell for Forbes

思科希望向其远程会议系统的用户提供参会人员的个人介绍,包括工作经历和媒体报道。为此,该公司请一家名叫Diffbot加州山景城的初创企业将这个想法变成现实。

Diffbot在网上搜索信息,将搜索结果定制化,然后提供给企业。思科案例中,Diffbot搜索的是提到参会人员的文章。该公司还曾为一家运动鞋公司和一家商业软件公司服务,为前者搜索消费者的评论和聊天帖子,为后者寻找潜在客户。此类数据收集工作往往需要时间,收集到的数据也可能不完整。Diffbot称,该公司搜索公共网络的几乎全部内容,能够在不到一秒钟内生成搜索结论。Diffbot创始人Mike Tung说:“(译自英文报道,下同)人类不可能万事万物全都了解。所以,我们需要设计一套能够了解万事万物的系统。”

各行各业的企业都在加强数据科学团队的实力,使用人工智能技术为产品需求建模,分析竞争威胁,寻找新顾客。不过,这种人工智能分析的质量取决于采用数据的质量。这方面正是Diffbot施展身手的地方。该公司承诺,能够以更快的速度,提高更好的数据。

36岁的Mike Tung表示,经历近10年的试错和技术突破后,Diffbot已经创建了一个索引(index),已经分析了公共网络90%以上的内容,追踪了1万亿条事实,数字还在增加。

即使与谷歌相比,这个数字也颇为巨大。用户搜索具体问题时,该搜索引擎的知识图谱提供了搜索结果顶部的所有答案。2016年底,该公司最近一次公布知识图谱的事实数量——仅为700亿个。

Diffbot与谷歌类似,使用网络爬虫持续对几十亿个网页搜索。不过,该公司并不适用索引来为人们提供信息的最佳链接,而是向企业提供数据,供其输入这些企业自己的分析工具。

Diffbot已经得到融资1,200万美元,并且拿下了Salesforce、eBay、Snapchat和英特尔等大牌客户。去年,该公司营收近500万美元,并实现盈利。Tung估计,随着更多公司寻求大规模数据组,销售额有望加倍。

他说:“对于很多公司来说,Diffbot是一件秘密武器。”

Google vs. Diffbot

一万亿次搜索,GOOGLE的华人对手到家门口了

Andy Bechtolsheim是谷歌和Diffbot的早期投资者之一。

一万亿次搜索,GOOGLE的华人对手到家门口了

谷歌和Diffbot都使用网络爬虫,持续扩大索引规模,已达几千亿个网页。

一万亿次搜索,GOOGLE的华人对手到家门口了

谷歌和Diffbot都有“知识图谱”,即人物、地点、事物及其相互关系的数据库。

一万亿次搜索,GOOGLE的华人对手到家门口了

据截至2016年晚些时候最近一次披露,谷歌的知识图谱有超过700亿个事实。Diffbot的知识图谱有超过1万亿个事实。

一万亿次搜索,GOOGLE的华人对手到家门口了

谷歌是针对消费者的搜索引擎。人们在谷歌上搜东西时,该公司的算法根据相关性对网页排序,把最好的结果置顶。有时,该算法要依靠知识图谱。在提供具体答案,或者使用语音搜索时,就是如此。

一万亿次搜索,GOOGLE的华人对手到家门口了

Diffbot是企业搜索引擎。人们向Diffbot查询时,该引擎返回的是结构化数据组。

一万亿次搜索,GOOGLE的华人对手到家门口了

谷歌通过基于搜索结果销售广告而获利。Diffbot销售获得数据的渠道来赚钱。

Tung很早就对信息着迷。他出生于中国台湾,因为父亲要到美国上大学,所以举家赴美。一家人在马萨诸塞州马尔堡生活时,母亲带他去图书馆,他则仔细浏览一个又一个书架的书籍。他并不根据自己的兴趣选书来读——他想要每本书都看。

他带着一丝狡黠说道:“我什么书都想读——至少在找到更大的图书馆以前是如此。”

年龄长大了些,Tung用微软QuickBASIC编译器修改电子游戏地程序,为的就是在游戏中多几条命。他编写了一个预测股价变动的计算机模型,在宾州和乔治亚州上高中时,一边上课,一边还试水证券交易。Tung曾经在微软实习,因为技术过硬,令公司印象深刻。高中毕业后,他便加入了WindowsVista团队。积累了一年的工作经验后,他回到校园,并在加州大学伯克利分校拿到计算机学位,后来去斯坦福拿到人工智能硕士学位,并开始攻读博士学位。在这段时间,Tung一直在思考如何组织人类的知识。

儿时的Tung不可能读完并且记住大图书馆里所有的书籍。同理,在公共网络上筛选信息的做法也有局限。重要的是,网络是人类开发的,其信息要能让人类看懂。Tung则希望想办法收集分散在公共网络上的海量数据,将其组织成计算机能够分析的结构。

Tung设想了一种只提供具体答案的搜索引擎。他不想把链接丢给人们,由他们自己找到信息。相反,他希望人们每一次搜索,都能自动得到一条精确的信息,或者一个大规模数据组供其分析。

Tung曾经在eBay和雅虎做过搜索相关的项目,也做过专利代理。这段时间,Tung开始将这个愿景付诸行动,组建自己的公司。经过几次失败的迭代后,Diffbot的一件能够检索和整理新闻文章的工具终于受到了欢迎。AOL成为了公司的顾客。2012年,几十万美元资金开始流入公司,Tung则放弃了其他的事情(和博士学位研究),全职在Diffbot工作。

那年晚些时候,公司实现了突破。当时,Tung见到了Sun Microsystems联合创始人、谷歌早期投资人之一、亿万富豪Andy Bechtolsheim。听了Tung的介绍,Bechtolsheim决定投资10万美元。1998年,他给谷歌创始人拉里·佩奇和谢尔盖·布林的投资也是10万美元。那天晚些时候,Bechtolsheim发邮件表示,希望加倍投资。

Bechtolsheim的投资拉开了投资的序幕,天使投资达200万美元,最终A轮投资1,000万美元,由FelicisVentures和腾讯领投。该公司表示,当前估值超过1亿美元。

Bechtolsheim说:“这个问题十分之难。Mike和他的人工智能科研团队的工作十分出色。”

一万亿次搜索,GOOGLE的华人对手到家门口了

出生于中国台湾后赴美的Mike Tung。

Diffbot凌乱的办公室目前位于山景城Caltrain车站,但是公司很快会搬到加州门罗公园一处较大的办公空间。公司共30名员工,其中超过20人是人工智能的研究人员和工程师。Tung希望在未来18个月内,将Diffbot的团队规模增加一倍。

顾客每月向Diffbot支付费用,费用按照使用量分不同等级,有一类是每月299美元,大企业则有专门定价。例如,思科利用Diffbot的服务从有关思科WebEx会议系统的新闻文章中提取信息。专注隐私的搜索引擎DuckDuckGo与Diffbot合作,增强其查询功能。Diffbot表示,该公司还帮助亚马逊为后者的云计算业务找到潜在顾客。最近,Diffbot签下了有史以来最大一笔生意——与一家政府合同上签下了7位数的协议。

生意不断增长,竞争也步步紧逼。信息经济已经催生了一系列收集、整理海量数据的初创企业。Import.io和 WebHose等公司各有从网络上收集数据的方式。该行业企业已经经历了几例创投投资者撤出:Palantir收购了Kimono Labs、IBM收购了AlchemyAPI。

高德纳研究数据管理和人工智能的分析师Svetlana Sicular表示,Diffbot数据库范围广泛,可能是该公司脱颖而出的动力。

她说:“我认为,Diffbot的重要性将会提高。这家公司找到了整理整个网络(信息)的方法。”

译 Joe

- END -

声明:本站发布的内容以原创、转载、分享网络内容为主,如有侵权,请联系电话:021-51697771-8029,邮箱:mj@cndns.com,我们将会在第一时间删除。文章观点不代表本站立场,如需处理请联系我们。