你在这里

麻省理工学院机器大数据的人类分析方式

(博谈网记者郑典编译报道)据《Technewsworld》2015年10月20日(周二)报导:MIT Machine Does Big Data Analysis the Human Way

在美国麻省理工学院的研究人员上周宣布,他们已经开发了一种算法系统来分析最终可能会取代人类分析的大数据。

被称为‌‌“数据科学机器(DSM)‌‌”的该系统设计了特征集和搜索在大数据里的模式。

麻省理工学院说,在不熟悉的数据集中寻找预测模式的一场竞赛中,DSM的第一个原型跟一个团队的获奖作品比较有96%的准确性。在其它两场竞赛中是94%和87%。

Enderle Group的首席分析师Rob Enderle说:‌‌“实际上,它做的这些工作可以取代一名数据分析专家,而这类人才非常急需但是短缺‌‌”‌‌“就是87%的成绩也是很可喜的,再经过数据分析师的优化之后可以得到实际应用,重要的是大大地缩短了时间提高了效率。‌‌”

一、揭秘DSM

大数据分析搜索隐藏模式,并从中推断作出预测,但研究人员首先要决定一个数据库特征。

DSM的目的是通过进行‌‌“特征工程‌‌”来自动化设置特征的选择。

研究人员(研究生Max Kanter和他的导师麻省理工学院计算器科学和人工智能实验室研究科学家Kalyan Veeramachaneni)使用各种在‌‌“特征工程‌‌”中的技术。

一种是靠着追踪在不同的表中的数据之间的相关性,来利用数据库设计中固有的结构关系。

DSM将一张表的数据输入到第二张,看它们的关联性,并执行操作以生成特征的候选备项。当相关性的数量增加,它一张一张的分层操作来找出像平均值的最小值和和的平均值的东西。

在一些候选特征产生后,DSM搜索它们之间的相关性,并去除那些没有相关性的。

然后它用样本数据测试其减少后的特征集,以各种方式重组它们来优化所得的预测的准确性。

二、深度学习

Tirias Research的首席分析师吉姆·麦格雷戈说:‌‌“这实际上是关于深度学习,服务器平台对数据进行分析,并开发智能算法的能力,‌‌”。

他告诉TechNewsWorld,DSM研究‌‌“证明了由谷歌,百度,阿里巴巴和微软等公司做的研究的价值,并指出一些挑战。‌‌”

麦格雷戈表示开发智能算法‌‌“是一门学习科学。你第一次并不总是得到正确的答案,但随着时间和额外的反馈和更多的数据而增加精确度。‌‌”

他预测机器学习和深度学习的潜力是无限的,‌‌“将使机器和人类都更有工作效率而改变我们的行业和社会。‌‌”

三、迅速解决问题

麻省理工学院说,人类的团队通常需要几个月的时间来建立预测算法,而DSM只花了2~12小时来产生它的每一个条目。

尽管DSM并没有像在比赛中的人类做得一样好,但是其结论仍然是有价值的。

麦格雷戈指出‌‌“想想开发出超级病毒的药物要花费多少时间。你没有几个月的时间,在一个流感大流行前你只有几天。‌‌”在这种情况下,‌‌“这不是关于寻找正确的答案,而是消除许多或多数错误的同时找到了可能的答案。‌‌”

罗伯·恩德勒表示,这样的系统十年之内‌‌“如果继续进步的话,应该可以与人类抗衡,符合或超过其准确性。‌‌”

他警告说,风险在于当我们越来越多地依赖于这样的自动化系统,我们可能会失去自己需要做此工作的技能,而且无法看到系统作出的错误。

恩德勒假定:‌‌“在未来系统中的关键漏洞可能被忽视,结果导致灾难性的后果。‌‌”

 

栏目: 
首页重点发表: 

Theme by Danetsoft and Danang Probo Sayekti inspired by Maksimer