安道尔

第四范式高维机器学习找勒索病毒,查空气质

发布时间:2020/1/13 21:48:10   点击数:

原创:谭婧

一朵花,在诗人眼里是风雨兼程的铿锵玫瑰,在人工智能科学家眼中则非常不同。他们将玫瑰花的数据集分为4个维度的特征,花瓣宽度、花瓣长度、萼片长度、萼片宽度。

虽然无论是什么视角,都不影响人类欣赏自然之美。但是,要再进一步解释,4个特征的数据是低维度数据,它只能描绘出玫瑰的大致形象。而人工智能技术是让人类有能力处理更复杂信息与数据,这些数据中可能包含成千上万个特征。

这些是高维特征,能更细致的刻画出事物真实的一面。

表面是一高一低,本质是数据中蕴藏的巨大价值在等待被挖掘。数据是抽象的,但是数据中的价值却是实实在在的:危险与安全、清洁与污染、风险与损失。第四范式政府与公共事业创新部的樊志英女士讲了三个机器学习的小case,可以让人更深刻地理解数据的价值。它们都是政府为民众提供的便捷服务,即“为人民服务”。

大数据的概念已经深入人心,这次从政务云和政务大数据讲起。

这类大数据的出现可以让办公大楼里的盖章、流程、表格和排队越来越少,也可以让政府决策更准确,总之都是更好地使用公共资源。于是乎,海量的传感器的数据、物联网的数据,政府业务的数据,无声汇聚。

汇聚了这么多的数据,有没有什么技术能够从海量的数据里面去挖掘隐藏的规律,进而能够帮助政府机构实现服务和效率的变革?

有,人工智能的机器学习技术。说到底,机器学习已经在帮助政府机构解决一些业务问题。

而当各方技术风起云涌,对政府机构来说,如何选择合适的机器学习技术成为新的挑战。

网络安全的监管部门需要应对各种各样恶意代码。在年的时候,监管部门至少发现了十几万个勒索的病毒,病毒数量会逐年上升。那么监管部门怎么去实现恶意代码的检测呢?

樊志英介绍,监管部门集成了大概十个左右的判别子引擎。每一个样本都会经过判别的引擎做静态分析。分析完成之后,如果被认为有可疑代码,那么就会抛到沙箱里面去做动态行为的监控,再生成动态分析的数据。最后把静态数据和动态数据进行分析,提炼抽象的规则,这些规则可以返回到判别的子引擎中,或者后期再做人工的分析,形成一些经验。理论上,判别引擎集成的越多,恶意代码越难遁地。

但判别子引擎越多,计算资源消耗量会非常大。而且从时间上来说,系统无法支持同时跑几十个引擎。

此外,即使集成了多个引擎,实际上还有可能漏掉很多的恶意代码,误判和漏判的问题没有解决。我们借助高维机器学习技术来尝试解决问题。

第四范式把这个问题交给人和机器一块去做,人承担的工作是什么?

先从几十张基础的数据表里面提取几十维的基础特征,然后把这个基础的特征丢到第四范式先知平台里面去。通过特征变换拼接组合,再经过特征重要性的筛选,最终机器生成了几十万维的高维特征。

接着,把样本、静态分析数据和动态分析数据丢给机器进行学习。简单地说,机器的学习过程就是在调整算法的参数和特征的权重。机器大概学习了万条数据的规律。这个时候一个基线的模型已经产生了,然后就可以去对这个模型做验证。把十多个判别引擎认为是非勒索病毒的样本,让模型去识别,对识别结果做排序,再由人工去验证头部的结果。经过验证后会发现,在这些头部的数据里面,又发现了70%的样本是勒索病毒。

这里面为什么会存在这样的问题?我们来分析一下,传统的判定引擎是怎么做的?以前的判定引擎更多的是特征码的方式,或者是启发式搜索的方式。特征码主要是从已知威胁里面去提取,因此它只能去识别已有的威胁,难以发现未知的威胁。而启发式搜索是集成了网络安全专家的经验,把经验变成规则。规则不可能穷尽。因此传统的判别引擎特长是抓大放小,可能会把头部的很多的数据抓出来。但是,很可惜,很多尾部的数据都漏掉了或者误判了。

藏在尾部数据中的勒索病毒正在窃喜,但是笑到最后,才能笑得最好。

基于高维机器学习的这种方式,第四范式首先从一百多万条的样本里学习,最高的可以达到万亿级别的特征维度。这样的话,每一条样本的每一个ID、每一个字段或者是一个组合的字段都成为唯一的特征。经过高维机器学习模型的判别之后,机器就能够发现原来规则没有覆盖的,更精细的恶意代码的规律。这样才会发现之前没有找到的勒索病毒。

魔高一尺,道高一丈。

网络安全场景里面有很多的恶意代码的种类,需要模型和恶意代码反复切磋。切磋就需要时间,负责网络安全监管部门原来做这样一个网络安全的识别模型,大概需要三个月的时间。基于第四范式先知平台,从数据的引入到特征工程,再到高维模型的构建与模型的预测,这个时间是25天。

生态环境领域需要对大气污染物的浓度进行预测。预测的越准越好,越快越好,微软亚洲研究院年有论文提出,为不同地点的空气质量之间的空间相关性建模。利用与时间相关的特征(如交通流量和气象),为空气质量的时间依赖性建模。根据IBM







































治疗白癜风的医院
白癜风病会传染吗


转载请注明:http://www.hafeiqichec.com/gjls/18323.html

------分隔线----------------------------

热点文章

  • 没有热点文章

推荐文章

  • 没有推荐文章