猪哥学习群直播第一期:人工智能在银行电信企业中的应用
一年前猪哥在建学习群的时候就说过要邀请企业大佬来群直播,中间因为很多事情给耽搁了,但是一直记在心里,昨天终于完成第一期直播,下面的内容是整理后的文章。
关于直播使用的微信机器人项目猪哥后面也会单独出一个教程写一下,并给出源码供大家学习和使用!
本次直播精华猪哥都整理在一份XMind文件中,文末会给出链接!
一、直播流程
这是咱们群的第一期直播,在直播完成后会有一个关于直播质量的问卷调查,希望大家直播完填写一下,一起努力渐渐提高我们的群直播质量!
下图是本次图文直播的流程,给大家40秒时间看一下。
二、主讲人介绍
主讲人:杨美红,工作十年,主要从事数据分析挖掘和人工智能方向,以下为详细工作履历:
- 2009年开始工作,做运营商营收软件研发。
- 2011年开始到国家质检总局做进出口数据收集平台化,对数据进行挖掘分析和情报自动化汇总处理。
- 2015年加入亚信和品友联合控股的运营商大数据团队,主要做数据挖掘和广告数据投放调优。
- 2018年加入建行金融科技公司北京事业群,做人工智能平台化。
猪哥为什么会邀请杨美红作为咱们群的第一期主讲人,几个月前在一个号主群看到他发的一篇文章:人工智能的方向思考,一般写这种文章都需要实际的人工智能工作经历并且有很宽的领域知识才行,所以猪哥就想邀请他来给大家做一期直播。
三、银行人工智能分类
目前银行认为的人工智能通常分为:数据智能、感知智能、认知智能。
1.认知智能
其中认知智能分为:自然语言处理、知识图谱。
- 自然语言处理:语义理解、实体识别、情感分类、语法分析、词法分析、规则模型
- 知识图谱:信息抽取、知识推理、知识表示、知识构建、图搜索、知识图谱
2.感知智能
感知智能分为 语音识别、图像识别、视频识别、生物特征识别、机器人学、VR。
- 语音识别:语音输入、声纹识别、人机交互、降噪
- 图像识别:二维码、ORC、图像切割、图像搜索
- 视频识别:物体识别、肢体识别、三维成像、场景识别
- 生物特征识别:人脸、指纹、虹膜、指静脉
- 机器人学:传感器、计算机硬件、强化学习、过程控制
- VR :虚拟现实、增强现实
3.数据智能
数据智能包含:大数据处理与分析、机器学习算法、深度学习算法。
- 大数据处理与分析:数据采集、数据存储、数据计算、数据分析、数据服务、数据管理
- 机器学习算法:回归、决策树、SVM、贝叶斯、时间序列、聚类算法
- 深度学习算法:CNN、RNN
四、应用在哪些方面
企业中用到的统计学习、数据挖掘、机器学习。
统计学习目前来说,仍然是主流的,简单易用,效果直接粗暴。
同时企业因为和个人应用的频度、广度都有差异,所以企业会平台化,这样对开发的难度、维护难度、设备资源利用率都有较好的提升。(比如开发模板、参考模型、参考算法 ,这些都整合后,比个人的开发要容易)
目前本人了解到的银行类和电信有:
- 银行类:获客营销、合规风控、产品服务、运维经营、住房租赁、普惠金融、智慧城市、政务服务 …智能反欺诈…智能客服
- 电信类:互联网广告推荐、电商类反作弊、反薅羊毛、人群流量监控、区域拥堵预测、交通调控。
数据挖掘:电信运营商、程序化广告, 目前主流技术仍然是spark+hadoop+yarn模式
机器学习:尤其是结构化数据的,基本上都是hadoop+spark
五、用到了哪些技术
可以把使用到的技术分成四大类:
- 主流的计算框架:SparkMLlib、TensorFlow、Caffe、pySpark、pyTorch等
- 软件:ApacheTomcat 、python、 docker、springCloud、kubernetes、mysql、redis
- 辅助软件:jenkins、git、gerrit
- 数据集成:Hadoop、Kylin
这些技术不是孤立的,好多都是多个互相协作完成产品功能。如政务服务:要求有市民提交图像的识别、提交文字的情感和反恐等识别,提交图像又可能是丢了东西,也可能是小孩走失,处理优先级是不一样的。 如A计算框架可能对动物识别比较好,B计算框架可能对静物识别好,C框架可能对人脸识别比较好,这时候就可能需要三个框架结合,采取合理的顺序进行衔接,才能让政务的处理看起来更合理,更智能。
六、具体的案例
因为本人主要从事电信和银行业相关,所以具体的案例就从这两个行业讲讲吧!
1.电信业人工智能
目前落地的经历过的有 广告推荐 、电商类反作弊、反薅羊毛、人群流量监控(地理位置)、犯罪追踪(通过地理位置时序变迁、上网记录、联系人知识图谱 等手段,能够快速的筛选出犯罪嫌疑人,重点监控)。
电信运营商数据和阿里、腾讯等数据的异同点:
- 同:均可以对一个人的长久的、持续的数据进行处理。
- 异:阿里的数据偏向于购物、目前多了钉钉,有职场社交;腾讯的偏社交、游戏、京东购物;电信运营商的2者兼有,但是颗粒度不够细,三者各有优缺点。
2.银行业人工智能
首先说,在大多数公司,所谓的算法,是通过程序体现的,这最基本的就要求团队有三类人:
- 有需要了解的业务,业务人员对需求的描述;
- 建模人员对算法和模型使用的规划;
- 开发人员进行开发、对反馈进行分析有调优。
国内银行业的性质,决定了它对人工智能的应用、实现主要还是体现在银行相关、少数是政府类项目相关。跨界的比较少。
- 政务服务:采用tensorflow、caffe、 keras 做 图片识别和处理方向的服务,语言情感的判断、涉黄涉恐的判断。
- 反欺诈: 对信用卡的开卡、各种银行卡的盗刷行为进行监控。
- 普惠金融:根据人群资料的划分,进行贷款额度管理与控制。
- 运维监控:银行业特殊的是监控方面,和安防比较像,视频监控(生产机房监控、数据中心监控)、进出记录监控(如明显异常出入机房)、操作记录监控(如 某个账号大量的、突发的不合理操作进行预警)。
七、建议掌握的技术
如果你对人工智能确实感兴趣,那个人给你些实际的建议,重点分为2个部分:大数据和人工智能。
1.大数据
大数据方面做好工作的要求:
- 对sql的理解。
- 能够对产品需求有一定的熟悉,通过多个途径、手段设计实现方式。
- 对算法有一定了解。(如统计类的贝叶斯之类,是做什么的,大概在什么场景,广告类的lookalike 大体是怎么做到的)对其他大厂要求的算法,leedcode可以刷到。
2.人工智能
精通一个 、基础扎实、适应快,都可以作为自己的出发点,团队里肯定是算法的最重要,最好知晓一些,其他方向也需要了解,毕竟只有算法的话,算是有了添加剂,做成什么样的食品还得靠全体努力。
银行和电信业都是对高新技术不算太敏感的行业,所以个人说的可能也是比较陈旧,希望大家理解,希望能够抛转引玉,对大家有帮助,谢谢。
八、问题解答
在主讲人开始之前,猪哥在朋友圈征集了一些问题,大佬都一一为大家耐心解答。
猪哥整理了一下,将问题归为三类:技术类、职业类、个人类
1.技术类
问:深度学习优化调参
答:目前来说,我们这边的同事也主要是凭感觉和常识:大概正确率要到多少,比较流行的是训练多少轮。比如60轮。
问:CNN
答:抱歉,这个我接触的也不多,建议网上搜索学习。
问:图像和模式识别
答:目前主流的框架有TensorFlow、Caffe、包装过的Keras,都可以根据官方教程学入门的。深入的话,涉及算法层面的有能力修改的人还是比较少,主要还是样本和调参要玩的好一些,容易工程实现。
问:图像多示例学习
答:可以对标注数据进行部分改变,或者标注后的分类进行修改,然后重新训练或者累积训练。或者采用不同的算法框架,添加多个判断逻辑,进行区分。比如第一部分辨动物和植物,第二步分辨 人和其他动物。
问:坐标和编码规则,在分子结构的数学表示上给建议,可以包含更多的信息
答:抱歉,这个方向我没涉及过,这块我不能给出建议
问:GBDT的形状
答:交个底,我对算法的研究基本上是0,只停留在知晓的水平。 gbdt 目前主流的是残差收敛、梯度下降。 都是迭代。形状这块不懂。 样本和特征选择,根据经验来说,尽量选择比较均衡的样本,这样训练的结果效果好,也容易解释。
问:多少样本才能使用统计学习
答:这个没有特别要求,几百个的我都见过,而且貌似结果还不错,几十亿的也有,主要还是看你的目标和数据基础,如果只有几千几百条,那就只能凑合用,数据多了再改进。
问:计算机视觉的设备是不是特别贵
答:有特别贵的,也有便宜的,如果你是自己学习用,不建议自己急匆匆的买,可以在百度、阿里的云平台上租用,自己买的话,建议买2-4千的显卡就行,目前主流的是Nvidia卡,安装cuda之类软件,能够对Tensorflow之类软件进行支持就好
问:软件
答:开源的练手就可以,国内的几大厂,都有自己的一套,但是基本都基于开源。
2.职业类
问:爬虫方向
答:往NLP和数据智能方向结合试试呢,爬虫的结果处理,如果添加了NLP方向,还是有很多需求的。
问:数据分析前景
答:广阔,但是钱方面千差万别,就像产品经理一样,以后是常备,但是薪资水平能差几条街
问:人工智能
答:如果你目前是应届生,还是建议读研。或者说其他专业的应届生,都建议读研,这几年的学位要求一直在提高,本科生在很多方向是吃亏的,2年半的时间换来后续可能10年的回报,值得的。NLP本科目前来说,比较吃亏,如果条件许可,还是尽量读个研究生。
问:学习人工智能需要对相应的数学有深入的研究吗?还是说了解数学思想就行了?
答:如果你能力可以,尽量学的深入一些,半桶水和高手还是不一样的。
问:深入数据挖掘
答:算法方向,建议多看国际上最新的论文和玩法。业务上,可以扩展广度和深度,如多参加DataFun社区组织的交流,看看大家都是怎么玩,有想法了及时试试。(我不是给DataFun做广告哈,他们不认识我的)
3.个人类
问:大数、线性代数、概率论
答:能学的好的话,为什么不呢?
问:没读过大学来学ai会不会费劲
答:看工作性质吧,如果是深入研究的,数学功底差的话,确实会费劲,论文和数学公式看不懂。如果调参,不一定费劲。
问:学习算法
答:看你自己的兴趣,只要喜欢,怎么都可以。
问:学习路线
答:因人而异吧,个人觉得,发挥你现有的长处,先进入这个行业,然后再扩展 比较靠谱。
问:系统性的自学
答:目前来说,建议先学下吴恩达视频,有一定了解后,自己再扩展。看看tensorflow之类框架的官方介绍,再搜搜学习笔记,大家目前来说,大牛少,都是探索。入行之后,慢慢的接触,就能碰到大牛了。
问:程序员进阶,架构师 :
答:个人觉得路线大同小异:首先,会写局部代码,写的干净漂亮,逻辑清晰。 逻辑清晰这个很重要,因为你走到架构或者leader岗,需要对整体逻辑有清醒的认识,不然分配工作和架构设计,都会有不够健壮的问题。有点变动就可能改架构,太要命。
其次,多观察你身边的技术大拿,或者说架构师是怎么做的,他的成功和失败的点,自己做的话,怎么继承和避免。同时注意你的leader是怎么做的,包括工作的拆分,人员的进度监控,出问题后的处理。不要自己埋头于代码,也不要觉得领导都是猪。他山之石可以攻玉,如果自己没经验,就学别人的经验,这是最简单有效的办法。
九、直播反馈
直播结束后猪哥收集了一些同学的反馈和建议
猪哥总结下同学们的反馈意见:
- 内容文字过多,建议增加图片和语音,有条件的情况可以上视频
- 最好能有一个详细的实际案例
- 缺少互动
- 直播中老有人签到打断,建议提前签到
- 内容最好能深入浅出
关于下次直播的主题根据大家投票结果是:数据分析,所以就定为数据分析吧,数据分析的主讲人猪哥心里早已有了人选,是一位非常牛逼的大佬,希望能邀请到他!
最后猪哥也将这次直播的精华内容整理在一个XMind文件中(链接:https://pan.baidu.com/s/1KR99u1hvmgBIQIwwtcBmEA 密码:3yxw),作为群福利提前发给大家,需要大家自行去下载XMind软件!