如何管理模拟世界的大规模测量数据
收集更多的数据已经不能让您脱引而出,更重要的是谁能够迅速分清所收集到的数据。 在过去,硬件采样率由于受模数转换发生速度的限制,在物理上局限了采集数据的数量。 而如今,硬件已不再是采集应用的限制因素。 如何管理采集到的数据才是未来的挑战。
计算技术的不断进步,包括了微处理器速度和硬盘驱动器存储容量的提高,加之软硬件成本的降低,引发了惊人速度的数据爆炸。 特别是在测量应用中,工程师和科学家们每分每秒都能收集大量的数据。 欧洲核子研究中心的大型强子对撞机的运行实验每秒钟能产生40 TB的数据。 而波音喷气发动机运行时,每隔30分钟系就统会创建10 TB的操作信息(Gantz,2011)。 这就是“大规模数据”。
大规模数据现象为数据分析、搜索、集成、报告和系统维护带来了新的挑战,只有满足这些挑战才能跟上数据飞速增长的步伐。 数据的来源是多方面的,而工程师和科学家认为最为有趣的是来自真实世界的数据, 即捕获和数字化的测量数据。 因此,它也被称作“大规模测量数据”,可以通过测量振动、射频信号、温度、压力、声音、图象、光、磁、电压等现象获得这些数据。 大规模测量数据TM在广泛的数据采集领域激起了三大技术趋势。
上下文数据挖掘
真实现象的物理特性能够防止在采集速率不够高的时候采集数据,让小规模数据集变得不再可行。 即使测量现象的特性允许更多的信息采集,小规模数据集往往一开始就限制了结论和预测的准确性。
以挖掘一个金矿为例,其中只有20%的黄金是可见的。 其余的80%是存在于您看不见的泥土中。 矿业的目的就是充分挖掘矿井的全部价值。 这就引出了术语“数字尘土”,意思为数字化数据带有隐藏价值。 因此,需要通过数据分析和数据挖掘来发掘前所未有的见解。
数据挖掘的过程就是使用与数据一同保存的上下文信息,搜索并削减大规模数据集,使其变得更容易管理及利用。 将原始数据与背景,或“元数据”共同保存下来,数据采集、定位、过后的处理和理解就会变得更为方便。 例如,查看一系列看似随机的整数: 5126838937。乍看之下,该原始信息的含义不得而知。 然而,当它变为(512)683-8937时,我们就能知道清楚地识别出它是一个电话号码。
测量数据上下文的描述性信息提供了类似的益处,它能够详细描述指定测量通道的传感器类型、制造商与校准日期,或是整体待测组件的修订记录、设计师或型号。 事实上,原始数据存储的上下文越多,在整个设计生命周期中数据追踪、搜索或定位,以及通过专用数据后处理软件在今后与其他测量关联才会更为有效。
智能DAQ节点
数据采集应用的形式多种多样。 但由于涉及多种行业和应用,只有在需要时才会采集数据。 工程师和科学家们将重要资源投资在构建高级采集系统上,但这些系统生成的原始数据也不会因此就无用了。 相反,采集原始数据,将它输入分析或处理算法,构建设计者所需的实际结果系统。
例如,汽车碰撞测试在毫秒之间就能收集千兆字节有关速度、温度、冲击力和加速度的数据。 可以从这些原始数据计算得出的一个关键性相关结论为颅脑损伤标准(HIC),它是单标量的计算值,能够表示碰撞假人在碰撞中头部受伤的可能性。
此外,一些应用程序—尤其是有关环境、结构、机器状态监测空间—能够保持周期性的慢采集速率,而当检测到明显的条件时又能大幅提高。 该技术的采集速度低,且最大限度地减少了记录的数据,同时采样率要足够满足应用中高速波形的需求。 想要在满足特定标准时,采用某项技术,如将原始数据转化为结果,或调整测量细节,您必须使您的数据采集系统智能化。
评论