如何管理模拟世界的大规模测量数据

金牌会员

Rank: 6 Rank: 6

UID: 1023230

1^#

打印

字体大小: tT

Bazinga发表于 2014-12-12 16:52 | 只看该作者

如何管理模拟世界的大规模测量数据

工程师, 科学家, 驱动器, 微处理器, 对撞机

收集更多的数据已经不能让您脱引而出，更重要的是谁能够迅速分清所收集到的数据。在过去，硬件采样率由于受模数转换发生速度的限制，在物理上局限了采集数据的数量。而如今，硬件已不再是采集应用的限制因素。如何管理采集到的数据才是未来的挑战。

计算技术的不断进步，包括了微处理器速度和硬盘驱动器存储容量的提高，加之软硬件成本的降低，引发了惊人速度的数据爆炸。特别是在测量应用中，工程师和科学家们每分每秒都能收集大量的数据。欧洲核子研究中心的大型强子对撞机的运行实验每秒钟能产生40TB的数据。而波音喷气发动机运行时，每隔30分钟系就统会创建10TB的操作信息(Gantz，2011)。这就是“大规模数据”。

大规模数据现象为数据分析、搜索、集成、报告和系统维护带来了新的挑战，只有满足这些挑战才能跟上数据飞速增长的步伐。数据的来源是多方面的，而工程师和科学家认为最为有趣的是来自真实世界的数据，即捕获和数字化的测量数据。因此，它也被称作“大规模测量数据”，可以通过测量振动、射频信号、温度、压力、声音、图象、光、磁、电压等现象获得这些数据。大规模测量数据TM在广泛的数据采集领域激起了三大技术趋势。

上下文数据挖掘

真实现象的物理特性能够防止在采集速率不够高的时候采集数据，让小规模数据集变得不再可行。即使测量现象的特性允许更多的信息采集，小规模数据集往往一开始就限制了结论和预测的准确性。

以挖掘一个金矿为例，其中只有20%的黄金是可见的。其余的80%是存在于您看不见的泥土中。矿业的目的就是充分挖掘矿井的全部价值。这就引出了术语“数字尘土”，意思为数字化数据带有隐藏价值。因此，需要通过数据分析和数据挖掘来发掘前所未有的见解。

数据挖掘的过程就是使用与数据一同保存的上下文信息，搜索并削减大规模数据集，使其变得更容易管理及利用。将原始数据与背景，或“元数据”共同保存下来，数据采集、定位、过后的处理和理解就会变得更为方便。例如，查看一系列看似随机的整数：5126838937。乍看之下，该原始信息的含义不得而知。然而，当它变为(512)683-8937时，我们就能知道清楚地识别出它是一个电话号码。

测量数据上下文的描述性信息提供了类似的益处，它能够详细描述指定测量通道的传感器类型、制造商与校准日期，或是整体待测组件的修订记录、设计师或型号。事实上，原始数据存储的上下文越多，在整个设计生命周期中数据追踪、搜索或定位，以及通过专用数据后处理软件在今后与其他测量关联才会更为有效。

收藏分享评分

the king of nerds

回复引用

订阅 TOP

返回列表