Loading… 抓错能手!MIT发布首个贝叶斯“数据清理”机器人:7.5小时洗220万条数据 _TOM财经
正文
Qzone
微博
微信

抓错能手!MIT发布首个贝叶斯“数据清理”机器人:7.5小时洗220万条数据

2021-05-19 16:09 前瞻网   

 

麻省理工学院(MIT)的研究人员发明了一种新的系统,可以自动清除“脏数据”(dirty data)——数据分析师、数据工程师和数据科学家害怕的打字错误、重复、缺失值、拼写错误和不一致。

这个系统被称为PClean,是概率计算项目(Probabilistic Computing Project)研究人员编写的针对特定领域的概率编程语言,旨在简化人工智能应用程序的开发并实现自动化,例如时间序列和数据库进行建模)。

抓错能手!MIT发布首个贝叶斯“数据清理”机器人:7.5小时洗220万条数据

根据Anaconda和Figure Eight进行的调查,数据清理可能需要数据科学家四分之一的时间。自动化数据清理这项任务,一直是很有挑战性的,因为不同的数据集需要不同类型的清理,而且经常需要对世界上的对象进行常理性的判断。PClean为这些判断用提供了通用的常识性模型,这些判断可以根据特定的数据库和错误类型进行定制。

PClean使用一种基于知识的方法来自动化数据清理过程:用户对数据库的背景知识以及可能出现的问题进行编码。用户可以给PClean关于域和关于数据可能被破坏的背景知识。PClean通过常识概率推理结合这些知识来得出答案。

这篇论文的主要作者、电子工程和计算机科学系(EECS)的博士生亚历克斯·卢(Alex Lew)说,他最兴奋的是PClean提供了一种从计算机获取帮助的方式,就像人们相互寻求帮助一样。

“PClean是第一个基于生成数据建模的可扩展、设计良好、通用的解决方案,这必须是正确的道路。结果不言自明。”合著者Agrawal补充说:“现有的数据清理方法在表达能力上受到了更多的限制,而这可能更加用户友好,但代价是相当有限。”此外,我们发现PClean可以扩展到非常大的数据集,这些数据集在现有系统下运行时不现实。”

PClean建立在概率编程的最新进展之上,包括在麻省理工概率计算项目中建立的一个新的人工智能编程模型,该模型使应用人类知识的现实模型来解释数据变得更加容易。PClean的修复是基于贝叶斯推理(Bayesian reasoning)的,这种方法结合了先验概率(给定的手头数据)和后验概率,能够对填补的数据给出一个概率值。

PClean是第一个贝叶斯数据清理系统,它可以结合领域专业知识和常识性推理,自动清理数据库中的数百万条记录。PClean通过三项创新实现了这一效率:

- 首先,PClean的脚本语言允许用户对他们知道的内容进行编码。这将产生精确的模型,即使对于复杂的数据库也是如此。

- 第二,PClean的推理算法使用了一种两阶段的方法,基于一次处理记录,对如何清除记录做出有根据的猜测,然后重新访问判断调用来修复错误。这将产生强大、准确的推理结果。

- 第三,PClean提供了一个自定义编译器,可以生成快速推理代码。这使得PClean能够以比其他竞争方法更快的速度运行在有上百万条记录的数据库上。

与所有概率程序一样,该工具工作所需的代码行数要比其他最先进的选择少得多:PClean程序只需要大约50行代码就可以在准确性和运行时方面超过基准测试。做个比较你就明白这种提升有多明显:一款简单的蛇形手机游戏需要两倍多的代码才能运行,而《我的世界》的代码就超过了100万行。

在他们刚刚于2021年人工智能和统计学会会议上提交的论文中,作者展示了PClean的能力,通过使用PClean来检测错误,并在220万行全国医疗保险医师比较数据集中输入缺失值,可以扩展到包含数百万条记录的数据集。仅仅运行了7个半小时,PClean就发现了8000多个错误。然后作者通过手工验证(通过搜索医院网站和医生LinkedIn页面),结果显示:对于超过96%的患者,PClean提出的修复方案是正确的。

由于PClean是基于贝叶斯概率的,它也可以给出其不确定性的校准估计。它可以维持多个假设——给你分级的判断,而不仅仅是是/否的答案。

译/前瞻经济学人APP资讯组

本文来源前瞻网,转载请注明来源。本文内容仅代表作者个人观点,本站只提供参考并不构成任何投资及应用建议。(若存在内容、版权或其它问题,请联系:service@qianzhan.com)

 

责任编辑: 3976DBC

责任编辑: 3976DBC