菜单 菜单
13395017579
己欲立而立人,己欲达而达人!

智慧行业   /   新闻详情

智慧城市-百度大数据专家梁博演讲

2022.04.21

梁博:大家早上好,非常高兴能够来到青岛跟大家介绍百度在大数据和百度公司这些年的情况。我叫梁博,跟中国好声音第一届的冠军名字是一样的,不是那个好声音冠军。

刚刚很高兴能够听到我们新加坡的专家们和我们青岛市领导们介绍新加坡、青岛在智慧城市建设的经验和进展,确实是受益匪浅。百度是一家技术驱动的科技公司,大家可能比较熟知的,平时会日常使用到百度的搜索引擎这个产品,同时百度公司也有很多其它的产品,包括和数据结合很紧密的产品。实际上百度本身是一个搜索引擎的公司,它每天要处理很多的数据,包括每天在百度搜索框里搜索也是很大的量,同时百度每天也要抓取很多的网页和各种各样网络上的信息,这也是非常巨大的数量。百度每天处理这样的数量已经处理了很多年,所以也积累了一些数据的分析加工、处理以及把这些数据对外提供服务,以及说可能产生一些商业模式的经验,所以我希望能够通过这个机会跟大家作一些交流。


智慧路灯

我其实之前也来过青岛很多次,包括之前青岛市南软件园在成立或建设的过程中也跟一些领导们、软件园的企业,在当地比较好的互联网,包括网站的一些公司有过一些交流。本身百度的产品其实可以应用在很多我们日常的工作和生活中,所以我想问两个内容简单给大家介绍一下,第一个就是百度的大数据产品和工具都有哪些,当然这个东西也是一个局部了,还有更多的也都涉及到大数据,尤其是一些跟搜索相关的数据。第二个话题就是说百度是如何做到的,能够提供出这样的工具,这个工具背后的原理是什么,我们简单的作一个介绍。

首先第一个,百度一些工具,我们日常会用到的百度跟数据有关系的工具,第一个就是百度的研究报告,比如说我们跟各种各样的行业协会和第三方的一些研究机构有合作,提供一些数据,分析全世界范围内或者全国范围内人一些基本的属性,比如上网时间的长短,阅读的一些情况。我们会有很多行业,包括汽车,包括网游、金融、家电等等的行业分析报告,我们有一个百度数据中心,大家可以搜索这个词看到网址,我们定期会发布一些报告的信息,供大家参考行业的进展。

还有像百度统计这个工具,可能很多企业也会用到。我们网站通过嵌入百度统计的代码,就可以了解到网站的访问情况,如果我们是网站的管理员或者站长,我们肯定很关心这个网站每天到底多少人在用,每天有多少的TV,多少的UV,多少人看我们网站的页面,他都看了哪些页面,他到底对页面的哪些内容感兴趣。来我们网站的人都是男的还是女的,老的还是少的,什么样的年龄结构,什么样的学历构成,以及这些人都是怎么知道我们的网站的,是看了广告来的还是百度搜来的,这些东西都有助于我们更精准的定位我们网站的定位以及我们网站优化的一些策略和方法,以及我们更好的去分析我们应该往哪里走向。百度统计就是一个可以嵌入到网站里面帮我们更好分析来源的这样一个产品,很多网站的站长都在使用。

百度思南就是通过百度统计和百度搜索的数据来去了解到我们一些品牌的认知度的情况、人群定义,包括人群的兴趣洞察,包括还有一些人们的属性或者分布的信息。百度思南其实是百度发布收费的数字研究产品,这个产品有些,包括像汽车行业,像一些广告行业,像各种行业都在购买使用这样的产品分析自己的目标受众,来去优化自己的产品和规划未来的一些产品。比如有些汽车公司想做一些营销,设计汽车上的一些新的功能,他们可能就会根据这个产品的一些数据来去有针对性的排期,设计哪些功能现在大家比较关心,热度很高,优先放到我的新车型上面。有些功能我们觉得很重要,但是群众目前的热度并不是很高,可能会放到后面上线和设计,所以这个产品可以指导我们企业更好的投放广告,针对性的营销并且设计规划自己的产品,规划企业方向。

还有就是百度推荐,我们经常上一些新闻的网站,看到一篇新闻,网站会在下面或者右侧展示一个,您可能同时也想去看别的,这样一些新闻,给个列表,比如看个美女或者娱乐的新闻,网站会提供给其它相关类似的新闻,这就有一个技术,结合搜索和新闻的理解,可以给每一个网站站长网站推荐的代码,分析你网站文章的内容,给你网站的用户提供一个推荐,这是推荐的功能,也是免费的服务。依托的就是我们对于内容分析的能力和对于网民行为和兴趣点的分析来去提供这样一些产品。

我们有相应的分析报告还有百度精算,对品牌认知度和一些整合,广告价值分析的产品。以及百度指数,可能有很多咱们的朋友在使用,我想去监测某一个事情、某一个事件,或者某一个品牌营销的活动等等,他最近或者历史上的一些变化趋势,比如我们有一些热点事件,结合很多的一些新闻报告,或者我们有一些产品想去分析它的淡旺季,都可以通过百度指数作一些分析。比如我们输入啤酒节,我们可以看到啤酒节在百度搜索或者百度监测到的历史趋势走向,哪些月份热度很高,哪些月份热度比较低,他们都有些什么样的属性,什么样的人对这样的信息比较关注。人们在关注啤酒节的同时还关注了什么样的东西,是不是还关注了青岛旅游、奥帆竞赛,我们有一些相关词的匹配,这样我们可以挖掘对事件感兴趣的人受众的分析。同时我们对百度指数作了一个风云榜的东西,可以看到每天中国人在百度上都搜了些什么,热度的情况。包括像小说、人物、旅游或者说事件在全国的一些排行榜单的情况。像山东,我们跟山东旅游局有个合作,我们会定期给山东旅游局提交内部的报告,会有这样一些合作。

所以百度其实会依托我们自己已经有的一些数据,包括百度一些搜索的数据,网页的数据和地图定位的数据,我们在内部做了很多分析的平台。同时我们有业务单位,我们百度的很多数据叫基础数据,搜索的数据或者网页数据叫基础数据,建立在统一的数据仓库里,这个数据仓库会被很多其它的百度部门使用,比如百度地图、百度音乐、百度电影,有一些自己独特的数据,比如观影人群的爱好,影视一些相关的信息,比如音乐的爱好榜、风云榜等等的,会进行一些关联的信息挖掘,更好的定位和分析受众需求情况。

所以首先第一,百度的数据量确实很大,有一个时效性的特点,每天都有这样的数据。实际上在百度,现在每天日搜索的请求数达到了70亿次,每天会有70亿的搜索请求。现在其实每天会有100亿次的定位需求在定位上发生,这些数据都是我们更好的定位分析数据的基础。当然我们也有广泛性,它是大量的搜索人群用户的属性,不是去抽取其中某一些类别或者个体去分析。同时有多维性,我们可以打通一些,包括行业、细分市场品牌,大的角度来进行细分。

今年百度刚刚成立了一个事业部,叫做百度大数据库,这个部门想在大数据领域,第一是整合公司的内部数据资源。第二能够结合行业的一些数据资源,和咱们国家和企业的数据资源,共同推出一些产品,比如说旅游预测和城市的热度预测,比如说我们想去石老人,或者想去一些青岛比较好的景点看,旅游或者玩,我们想知道明天这个地方到底挤不挤,人多不多,这样我们可以通过百度的预测产品看青岛景点未来几天的拥挤情况决定全家的出行计划。还有一些城市的旅游预测情况,全国城市的动态情况。当然这个之前我们也用在CCTV的合作上,有一个春运迁徙图和东莞八小时迁徙图。还有

这是疾病预测,提前防范,我们现在已经上线这个产品了,我们可以看到全国各地一些流感,包括比如说肝炎,其它疾病的分布。比如说青岛市某些区域哪些疾病流行的比较多,未来发生的预测是什么情况都可以在这上面看到。

高考预测今年也是比较火的话题,高考预测和百度考霸,通过这两个产品结合自己的经验,可以决定孩子报考哪些学校和专业,我们分析到酒店管理、学前教育、旅游管理、药学、护理学是热度比较高的,但在录取难度比较低的抢手专业,我们是不是可以有一些差异化的选择,这都是我们在高考预测产品上做的一些事情。后来我跟一些用户,包括有一次跟公安部跟科技司几个人在聊的时候,他说他们的孩子也正在高考,用到这个产品,还不错,精准度跟自己人工判断的吻合度很高。包括作文预测,我们今年预测命中了18套考题中的12套考题作文。

还有现在比较火的世界杯预测,百度章鱼。我们现在有一个内部的活动,你只要按照百度世界杯预测的预测结果去投注,如果赚了,如果命中了,那么算你的,如果说是预测错了,那公司会赔你钱,是这样一个内部的活动,在玩这个事情,挺有意思的活动。从现在来看对比其它几家公司,大的软件和互联网公司得到的预测结果来看,百度预测的准确率还是最高的,100%的预测率准确度。后面的这些预测准确度我们可以再去看。

当然现在时间可能不够,之前跟其它几个城市交流的时候有一些现场的互动,如何预测世界杯或者是赔率情况。比如说欧冠拜仁对曼联,我们其实每天或者每小时赔率博彩公司在变动,但是现在我买拜仁1赔0.78,曼联1赔1.12,如果说我们自己是博彩公司的话,我们会每天动态调整数据,根据全体彩民们投注的实际数额。具体有一个小的公式,如果有时间的话,下午可以给大家简单算一下,没时间随后可以再交流。但是无论如何,结论博彩公司一定会赚到钱,只是赚得多少的问题。

前面讲一些百度的大数据产品和工具,这些工具只是很小的一部分。实际上这些东西是如何能做到去实现第一呢?对于我们网民需求或者是每个人在百度上搜索需求的定位和推送,第二是我们对于人群精准的描绘,他是什么人,可能想要什么东西的描绘,这些是我们更好服务用户的行为。其实百度我们要通过一些技术手段去实现,比如刚才跟刘司长沟通新加坡的合作,其实百度在新加坡也是有一个研究院。

百度现在产品很多,除了搜索以外,大家可能在手机上、音乐上,地图、视频等等的产品,还有一些百度云、百度网盘,甚至一些智能手环的智能产品。百度跟海尔研发了一个空气果,它就是用百度的云技术和海尔的制造业技术合作的,我相信随着大数据和我们传统行业今后越来越多,海尔、海信还是各种各样行业的客户和政府都会更多的通过互联网设备和这些大数据产生合作。在未来各种房地产商也建了很多的房子,交通也变得越来越堵,慢慢的会涌现出很多大城市病和以前根本没遇到的问题和风险,也会加大政府管理的难度,同时也会带来我们市民出行或者是日常生活的一些不便,这些不便我们都需要通过一些手段去进行改变、优化和提升,我相信信息化会有所帮助。

百度实际上每天会响应来自138个国家和地区的数据需求,实际上已经超过了70亿次。百度有很多产品,包括这些智能设备的产品,因为从2000年成立到2014年,百度算是一个14岁的公司,这些过程中百度有很多的数据积累,包括搜索数据和网页的数据,不得不建立了很多数据中心,很多数据存储的硬件来去存储这些数据,并且把这些数据挖掘和分析。我们在北京、阳泉和内蒙建了三个数据中心,北京是在线,其它两个地方主要是离线运算。我们实际上有很多的问题,包括成本也很高,包括购买硬件、服务器存储的成本很高很贵,也有很多坏掉的,我们要有一个损耗,包括这么多的服务器,我们一般养多少人去管他们,我们第一需要用很多技术,怎么能够减少损坏率,自动化管理硬件设备,所以现在我们已经可以做到一个工程师可以管理4000台服务器,并保证随时进行一些替换。

所有这些技术和设备都使用的是自主产权的,全部都用的是百度自己研发的工具、技术,有些是利用开元进行改造的技术,最后也会发布出来供其他人使用。我们没有用到任何微软的数据库或者是其它的一些商用产品的服务器,因为现在可能大家也都知道,包括阿里巴巴这样一些公司在倡导去IOE,因为考虑多一些国家安全的问题,和考虑到一些过于受制于商业公司的策略问题的情况,我们希望尽可能的更可控。其实百度公司一开始就没有用过任何这样的设备,全都是自己研发的东西。所以这个就是在这方面的一些积累。

我们认为大家都在喊大数据这个概念,大数据可能大家都觉得它是一个词,包括我以前在科技部跟一些领导们或者是跟一些教授们在交流的时候,有些教授说我觉得大数据现在不太懂,我不知道它到底是一个概念还是想法,还是昙花一现的东西。在我看我们认为大数据的一些实时性和数据的复杂性是大数据的基本特征,有别于我们传统的一些基于小仓库和离线数据分析的方式,可能我们以前提交一份报告需要三个月、六个月甚至更长的周期来去提交,现在分析的需求越来越强烈,越来越多,实时性要求越来越高,包括比如我在去北京跟交管局交流的时候,他们说以前就没有那么多的需求,因为现在事情太多了,人口很多,车辆很多,路上拥堵和事故很多,包括涌现出的一些社会问题,有很大量的数据要求我们进行关联化,时代已经变了,他们会要求我们做这些事情。我们这几个设计师根本做不完,还有很多需求和要求会出来,同时我们又不能够增加人,因为政府也在减员增效,不可能抓太多的人来进行分析,必须通过大数据来帮我解决问题。

所以我们觉得大数据这个时候是通过机器的能源来帮助人们,解脱人们劳动力的方式,百度通过一些技术来更好的利用数据。比如说对于文本类的一些信息,网民或者是咱们的人在电脑里输入一些文字,这些文字什么意思?如果是人我们当然有理解力的,但是对机器来讲,它们是不知道我们输入这个词或者话是什么意思。可能输入这个小儿咳嗽,他可能想知道的是小儿咳嗽的病症,也可能想知道小儿咳嗽的病症是什么原因引起的,那我们都需要把这些信息关联出来,给他们提供出去。

第一要求机器能够读懂,这个不会有任何人工干预,全是电脑自己完成的,你搜上海博物馆,可能要看它的位置导航去,也可能想看上海博物馆的藏品,也可能去上海旅游,你可能除了去上海博物馆还会去外滩等等,这都是网民的需求,我们都需要把它关联出来。如果你搜了《北京遇上西雅图》,它是一个电影,是汤唯和吴秀波的电影,有人可能关注汤唯,可能有人关注吴秀波戴的眼镜,可能有人关注汤唯坐月子了,那边坐月子的费用是什么情况等等,我们都需要把它关联出来。

还有我们的移动语音搜索,这个语音的研究也是我们现在非常重要的研究方向,识别出大家说的话,把它转化成文字,或者说把它变成语音输入以后给你反馈结果。还有OCR,我们拍的图片就能把图片的文字识别出来,甚至把图片的文字翻译出来。还有魔图,图片的分析能力,让机器更好的理解图片是什么意思,得出两个人的长相相似度。还有场景,比如说蓝天、海水和别墅,红房子,蓝天,百度可以把这些场景都识别出来,像一些比较差的机器可能会识别出草地,或者一些并不相干的因素出来。

实物翻译,我们对一些实物不认识,比如说看到一个摩托车很酷,但是我不知道这个摩托车是什么牌子的,那我可以把它拍下来然后交给百度去识别,机器可以告诉你它是什么东西。

这些技术,剥削对语义理解的技术,对图片、视频的理解技术,我们人不用干了,在座的各位都可以去休息,我们前面摆一台机器人去处理。但是机器人要像人一样智能,所以它是一种深度学习的能力,这是我们百度努力的方向。这个机器人要具备足够像人一样智能的知识能力,现在其实我们机器人已经能达到,至少是三岁小孩的理解水平,看到东西能够说出来,能够表达,甚至有些逆反心理,能够做到这样的水平。随着我们进一步的科研进展,相信机器人的智能会越来越高,取代人们做更多的事情。深度学习技术,在百度研究院,包括在硅谷以及北京的研究院,我们会在自动驾驶技术,包括一些视频的技术上做一些科研的研究,更好的让机器更懂得人类,都会应用在我们各种各样的产品中。

所以我们认为百度在大家讲大数据概念的时候,我们对大数据有一个定义,它其实就是深度学习。首先你如果没有大量的数据是没有办法进行深度学习的。第二有了大量的数据之后要有足够的能力通过这些数据去判断,给出决策和给出判决。所以我们实际上投入了很多资源和钱,在深度学习的领域让机器人做了很多事情,我相信我们在这个过程中肯定是要去更好的识别我们的世界,去识别人们的诉求,并且提供相应的一些服务和相应的功能。在城市建设,包括在我们的学校,或者是包括我们各个企业,如果说你们想要更好的去加强管理,或者更好的去提供更加有利于大家的一些服务,或者是更好的去提供一些产品给用户,或者目标的市场化,我们肯定需要通过更多的分析来去提供这样一些内容。

今天的话题大概就讲到这里,随后如果大家有什么问题还可以进行线下的一些交流,谢谢大家。



人达科技智慧城市解决方案提供商


人达科技智慧灯杆解决方案提供商



   智慧路灯     |      路灯控制器     |      智慧路灯控制系统     |     智慧灯杆     |     智慧路灯网关     |     路灯集中控制器     |     路灯单灯控制器     |     智慧路灯管理系统


智慧行业   /   新闻详情

智慧城市-百度大数据专家梁博演讲

2022.04.21

梁博:大家早上好,非常高兴能够来到青岛跟大家介绍百度在大数据和百度公司这些年的情况。我叫梁博,跟中国好声音第一届的冠军名字是一样的,不是那个好声音冠军。

刚刚很高兴能够听到我们新加坡的专家们和我们青岛市领导们介绍新加坡、青岛在智慧城市建设的经验和进展,确实是受益匪浅。百度是一家技术驱动的科技公司,大家可能比较熟知的,平时会日常使用到百度的搜索引擎这个产品,同时百度公司也有很多其它的产品,包括和数据结合很紧密的产品。实际上百度本身是一个搜索引擎的公司,它每天要处理很多的数据,包括每天在百度搜索框里搜索也是很大的量,同时百度每天也要抓取很多的网页和各种各样网络上的信息,这也是非常巨大的数量。百度每天处理这样的数量已经处理了很多年,所以也积累了一些数据的分析加工、处理以及把这些数据对外提供服务,以及说可能产生一些商业模式的经验,所以我希望能够通过这个机会跟大家作一些交流。


智慧路灯

我其实之前也来过青岛很多次,包括之前青岛市南软件园在成立或建设的过程中也跟一些领导们、软件园的企业,在当地比较好的互联网,包括网站的一些公司有过一些交流。本身百度的产品其实可以应用在很多我们日常的工作和生活中,所以我想问两个内容简单给大家介绍一下,第一个就是百度的大数据产品和工具都有哪些,当然这个东西也是一个局部了,还有更多的也都涉及到大数据,尤其是一些跟搜索相关的数据。第二个话题就是说百度是如何做到的,能够提供出这样的工具,这个工具背后的原理是什么,我们简单的作一个介绍。

首先第一个,百度一些工具,我们日常会用到的百度跟数据有关系的工具,第一个就是百度的研究报告,比如说我们跟各种各样的行业协会和第三方的一些研究机构有合作,提供一些数据,分析全世界范围内或者全国范围内人一些基本的属性,比如上网时间的长短,阅读的一些情况。我们会有很多行业,包括汽车,包括网游、金融、家电等等的行业分析报告,我们有一个百度数据中心,大家可以搜索这个词看到网址,我们定期会发布一些报告的信息,供大家参考行业的进展。

还有像百度统计这个工具,可能很多企业也会用到。我们网站通过嵌入百度统计的代码,就可以了解到网站的访问情况,如果我们是网站的管理员或者站长,我们肯定很关心这个网站每天到底多少人在用,每天有多少的TV,多少的UV,多少人看我们网站的页面,他都看了哪些页面,他到底对页面的哪些内容感兴趣。来我们网站的人都是男的还是女的,老的还是少的,什么样的年龄结构,什么样的学历构成,以及这些人都是怎么知道我们的网站的,是看了广告来的还是百度搜来的,这些东西都有助于我们更精准的定位我们网站的定位以及我们网站优化的一些策略和方法,以及我们更好的去分析我们应该往哪里走向。百度统计就是一个可以嵌入到网站里面帮我们更好分析来源的这样一个产品,很多网站的站长都在使用。

百度思南就是通过百度统计和百度搜索的数据来去了解到我们一些品牌的认知度的情况、人群定义,包括人群的兴趣洞察,包括还有一些人们的属性或者分布的信息。百度思南其实是百度发布收费的数字研究产品,这个产品有些,包括像汽车行业,像一些广告行业,像各种行业都在购买使用这样的产品分析自己的目标受众,来去优化自己的产品和规划未来的一些产品。比如有些汽车公司想做一些营销,设计汽车上的一些新的功能,他们可能就会根据这个产品的一些数据来去有针对性的排期,设计哪些功能现在大家比较关心,热度很高,优先放到我的新车型上面。有些功能我们觉得很重要,但是群众目前的热度并不是很高,可能会放到后面上线和设计,所以这个产品可以指导我们企业更好的投放广告,针对性的营销并且设计规划自己的产品,规划企业方向。

还有就是百度推荐,我们经常上一些新闻的网站,看到一篇新闻,网站会在下面或者右侧展示一个,您可能同时也想去看别的,这样一些新闻,给个列表,比如看个美女或者娱乐的新闻,网站会提供给其它相关类似的新闻,这就有一个技术,结合搜索和新闻的理解,可以给每一个网站站长网站推荐的代码,分析你网站文章的内容,给你网站的用户提供一个推荐,这是推荐的功能,也是免费的服务。依托的就是我们对于内容分析的能力和对于网民行为和兴趣点的分析来去提供这样一些产品。

我们有相应的分析报告还有百度精算,对品牌认知度和一些整合,广告价值分析的产品。以及百度指数,可能有很多咱们的朋友在使用,我想去监测某一个事情、某一个事件,或者某一个品牌营销的活动等等,他最近或者历史上的一些变化趋势,比如我们有一些热点事件,结合很多的一些新闻报告,或者我们有一些产品想去分析它的淡旺季,都可以通过百度指数作一些分析。比如我们输入啤酒节,我们可以看到啤酒节在百度搜索或者百度监测到的历史趋势走向,哪些月份热度很高,哪些月份热度比较低,他们都有些什么样的属性,什么样的人对这样的信息比较关注。人们在关注啤酒节的同时还关注了什么样的东西,是不是还关注了青岛旅游、奥帆竞赛,我们有一些相关词的匹配,这样我们可以挖掘对事件感兴趣的人受众的分析。同时我们对百度指数作了一个风云榜的东西,可以看到每天中国人在百度上都搜了些什么,热度的情况。包括像小说、人物、旅游或者说事件在全国的一些排行榜单的情况。像山东,我们跟山东旅游局有个合作,我们会定期给山东旅游局提交内部的报告,会有这样一些合作。

所以百度其实会依托我们自己已经有的一些数据,包括百度一些搜索的数据,网页的数据和地图定位的数据,我们在内部做了很多分析的平台。同时我们有业务单位,我们百度的很多数据叫基础数据,搜索的数据或者网页数据叫基础数据,建立在统一的数据仓库里,这个数据仓库会被很多其它的百度部门使用,比如百度地图、百度音乐、百度电影,有一些自己独特的数据,比如观影人群的爱好,影视一些相关的信息,比如音乐的爱好榜、风云榜等等的,会进行一些关联的信息挖掘,更好的定位和分析受众需求情况。

所以首先第一,百度的数据量确实很大,有一个时效性的特点,每天都有这样的数据。实际上在百度,现在每天日搜索的请求数达到了70亿次,每天会有70亿的搜索请求。现在其实每天会有100亿次的定位需求在定位上发生,这些数据都是我们更好的定位分析数据的基础。当然我们也有广泛性,它是大量的搜索人群用户的属性,不是去抽取其中某一些类别或者个体去分析。同时有多维性,我们可以打通一些,包括行业、细分市场品牌,大的角度来进行细分。

今年百度刚刚成立了一个事业部,叫做百度大数据库,这个部门想在大数据领域,第一是整合公司的内部数据资源。第二能够结合行业的一些数据资源,和咱们国家和企业的数据资源,共同推出一些产品,比如说旅游预测和城市的热度预测,比如说我们想去石老人,或者想去一些青岛比较好的景点看,旅游或者玩,我们想知道明天这个地方到底挤不挤,人多不多,这样我们可以通过百度的预测产品看青岛景点未来几天的拥挤情况决定全家的出行计划。还有一些城市的旅游预测情况,全国城市的动态情况。当然这个之前我们也用在CCTV的合作上,有一个春运迁徙图和东莞八小时迁徙图。还有

这是疾病预测,提前防范,我们现在已经上线这个产品了,我们可以看到全国各地一些流感,包括比如说肝炎,其它疾病的分布。比如说青岛市某些区域哪些疾病流行的比较多,未来发生的预测是什么情况都可以在这上面看到。

高考预测今年也是比较火的话题,高考预测和百度考霸,通过这两个产品结合自己的经验,可以决定孩子报考哪些学校和专业,我们分析到酒店管理、学前教育、旅游管理、药学、护理学是热度比较高的,但在录取难度比较低的抢手专业,我们是不是可以有一些差异化的选择,这都是我们在高考预测产品上做的一些事情。后来我跟一些用户,包括有一次跟公安部跟科技司几个人在聊的时候,他说他们的孩子也正在高考,用到这个产品,还不错,精准度跟自己人工判断的吻合度很高。包括作文预测,我们今年预测命中了18套考题中的12套考题作文。

还有现在比较火的世界杯预测,百度章鱼。我们现在有一个内部的活动,你只要按照百度世界杯预测的预测结果去投注,如果赚了,如果命中了,那么算你的,如果说是预测错了,那公司会赔你钱,是这样一个内部的活动,在玩这个事情,挺有意思的活动。从现在来看对比其它几家公司,大的软件和互联网公司得到的预测结果来看,百度预测的准确率还是最高的,100%的预测率准确度。后面的这些预测准确度我们可以再去看。

当然现在时间可能不够,之前跟其它几个城市交流的时候有一些现场的互动,如何预测世界杯或者是赔率情况。比如说欧冠拜仁对曼联,我们其实每天或者每小时赔率博彩公司在变动,但是现在我买拜仁1赔0.78,曼联1赔1.12,如果说我们自己是博彩公司的话,我们会每天动态调整数据,根据全体彩民们投注的实际数额。具体有一个小的公式,如果有时间的话,下午可以给大家简单算一下,没时间随后可以再交流。但是无论如何,结论博彩公司一定会赚到钱,只是赚得多少的问题。

前面讲一些百度的大数据产品和工具,这些工具只是很小的一部分。实际上这些东西是如何能做到去实现第一呢?对于我们网民需求或者是每个人在百度上搜索需求的定位和推送,第二是我们对于人群精准的描绘,他是什么人,可能想要什么东西的描绘,这些是我们更好服务用户的行为。其实百度我们要通过一些技术手段去实现,比如刚才跟刘司长沟通新加坡的合作,其实百度在新加坡也是有一个研究院。

百度现在产品很多,除了搜索以外,大家可能在手机上、音乐上,地图、视频等等的产品,还有一些百度云、百度网盘,甚至一些智能手环的智能产品。百度跟海尔研发了一个空气果,它就是用百度的云技术和海尔的制造业技术合作的,我相信随着大数据和我们传统行业今后越来越多,海尔、海信还是各种各样行业的客户和政府都会更多的通过互联网设备和这些大数据产生合作。在未来各种房地产商也建了很多的房子,交通也变得越来越堵,慢慢的会涌现出很多大城市病和以前根本没遇到的问题和风险,也会加大政府管理的难度,同时也会带来我们市民出行或者是日常生活的一些不便,这些不便我们都需要通过一些手段去进行改变、优化和提升,我相信信息化会有所帮助。

百度实际上每天会响应来自138个国家和地区的数据需求,实际上已经超过了70亿次。百度有很多产品,包括这些智能设备的产品,因为从2000年成立到2014年,百度算是一个14岁的公司,这些过程中百度有很多的数据积累,包括搜索数据和网页的数据,不得不建立了很多数据中心,很多数据存储的硬件来去存储这些数据,并且把这些数据挖掘和分析。我们在北京、阳泉和内蒙建了三个数据中心,北京是在线,其它两个地方主要是离线运算。我们实际上有很多的问题,包括成本也很高,包括购买硬件、服务器存储的成本很高很贵,也有很多坏掉的,我们要有一个损耗,包括这么多的服务器,我们一般养多少人去管他们,我们第一需要用很多技术,怎么能够减少损坏率,自动化管理硬件设备,所以现在我们已经可以做到一个工程师可以管理4000台服务器,并保证随时进行一些替换。

所有这些技术和设备都使用的是自主产权的,全部都用的是百度自己研发的工具、技术,有些是利用开元进行改造的技术,最后也会发布出来供其他人使用。我们没有用到任何微软的数据库或者是其它的一些商用产品的服务器,因为现在可能大家也都知道,包括阿里巴巴这样一些公司在倡导去IOE,因为考虑多一些国家安全的问题,和考虑到一些过于受制于商业公司的策略问题的情况,我们希望尽可能的更可控。其实百度公司一开始就没有用过任何这样的设备,全都是自己研发的东西。所以这个就是在这方面的一些积累。

我们认为大家都在喊大数据这个概念,大数据可能大家都觉得它是一个词,包括我以前在科技部跟一些领导们或者是跟一些教授们在交流的时候,有些教授说我觉得大数据现在不太懂,我不知道它到底是一个概念还是想法,还是昙花一现的东西。在我看我们认为大数据的一些实时性和数据的复杂性是大数据的基本特征,有别于我们传统的一些基于小仓库和离线数据分析的方式,可能我们以前提交一份报告需要三个月、六个月甚至更长的周期来去提交,现在分析的需求越来越强烈,越来越多,实时性要求越来越高,包括比如我在去北京跟交管局交流的时候,他们说以前就没有那么多的需求,因为现在事情太多了,人口很多,车辆很多,路上拥堵和事故很多,包括涌现出的一些社会问题,有很大量的数据要求我们进行关联化,时代已经变了,他们会要求我们做这些事情。我们这几个设计师根本做不完,还有很多需求和要求会出来,同时我们又不能够增加人,因为政府也在减员增效,不可能抓太多的人来进行分析,必须通过大数据来帮我解决问题。

所以我们觉得大数据这个时候是通过机器的能源来帮助人们,解脱人们劳动力的方式,百度通过一些技术来更好的利用数据。比如说对于文本类的一些信息,网民或者是咱们的人在电脑里输入一些文字,这些文字什么意思?如果是人我们当然有理解力的,但是对机器来讲,它们是不知道我们输入这个词或者话是什么意思。可能输入这个小儿咳嗽,他可能想知道的是小儿咳嗽的病症,也可能想知道小儿咳嗽的病症是什么原因引起的,那我们都需要把这些信息关联出来,给他们提供出去。

第一要求机器能够读懂,这个不会有任何人工干预,全是电脑自己完成的,你搜上海博物馆,可能要看它的位置导航去,也可能想看上海博物馆的藏品,也可能去上海旅游,你可能除了去上海博物馆还会去外滩等等,这都是网民的需求,我们都需要把它关联出来。如果你搜了《北京遇上西雅图》,它是一个电影,是汤唯和吴秀波的电影,有人可能关注汤唯,可能有人关注吴秀波戴的眼镜,可能有人关注汤唯坐月子了,那边坐月子的费用是什么情况等等,我们都需要把它关联出来。

还有我们的移动语音搜索,这个语音的研究也是我们现在非常重要的研究方向,识别出大家说的话,把它转化成文字,或者说把它变成语音输入以后给你反馈结果。还有OCR,我们拍的图片就能把图片的文字识别出来,甚至把图片的文字翻译出来。还有魔图,图片的分析能力,让机器更好的理解图片是什么意思,得出两个人的长相相似度。还有场景,比如说蓝天、海水和别墅,红房子,蓝天,百度可以把这些场景都识别出来,像一些比较差的机器可能会识别出草地,或者一些并不相干的因素出来。

实物翻译,我们对一些实物不认识,比如说看到一个摩托车很酷,但是我不知道这个摩托车是什么牌子的,那我可以把它拍下来然后交给百度去识别,机器可以告诉你它是什么东西。

这些技术,剥削对语义理解的技术,对图片、视频的理解技术,我们人不用干了,在座的各位都可以去休息,我们前面摆一台机器人去处理。但是机器人要像人一样智能,所以它是一种深度学习的能力,这是我们百度努力的方向。这个机器人要具备足够像人一样智能的知识能力,现在其实我们机器人已经能达到,至少是三岁小孩的理解水平,看到东西能够说出来,能够表达,甚至有些逆反心理,能够做到这样的水平。随着我们进一步的科研进展,相信机器人的智能会越来越高,取代人们做更多的事情。深度学习技术,在百度研究院,包括在硅谷以及北京的研究院,我们会在自动驾驶技术,包括一些视频的技术上做一些科研的研究,更好的让机器更懂得人类,都会应用在我们各种各样的产品中。

所以我们认为百度在大家讲大数据概念的时候,我们对大数据有一个定义,它其实就是深度学习。首先你如果没有大量的数据是没有办法进行深度学习的。第二有了大量的数据之后要有足够的能力通过这些数据去判断,给出决策和给出判决。所以我们实际上投入了很多资源和钱,在深度学习的领域让机器人做了很多事情,我相信我们在这个过程中肯定是要去更好的识别我们的世界,去识别人们的诉求,并且提供相应的一些服务和相应的功能。在城市建设,包括在我们的学校,或者是包括我们各个企业,如果说你们想要更好的去加强管理,或者更好的去提供更加有利于大家的一些服务,或者是更好的去提供一些产品给用户,或者目标的市场化,我们肯定需要通过更多的分析来去提供这样一些内容。

今天的话题大概就讲到这里,随后如果大家有什么问题还可以进行线下的一些交流,谢谢大家。



人达科技智慧城市解决方案提供商


人达科技智慧灯杆解决方案提供商



   智慧路灯     |      路灯控制器     |      智慧路灯控制系统     |     智慧灯杆     |     智慧路灯网关     |     路灯集中控制器     |     路灯单灯控制器     |     智慧路灯管理系统