大数据:看密西根大学如何化解数据科研中的伦理和不确定性问题-智医疗网近年来,大数据已然成为强大的工具,密西根大学紧随这一科技大趋势,努力学习并开展大数据研究。
大学研究院副院长Jack Hu在2015年一次声明中表示,大数据,即通过大量分析表明趋势和关联的数据,正在“对各学科研究进行大规模改革。”
密西根大学证实,该校在数据科学领域上的投资物有所值。学校在过去五年间对该项目(Data Science Initiative – DSI)资助了100万美元,一些多学科和交叉学科领域的教研人员也参与到数据计算分析和管理研究中心的建设中。“我们的目标是在校园点燃创新研究,并取得数据科学本身的进步。”
Hu在2015年说道。大数据已成为医学项目和疾病研究的核心,诸如巴拿马文件泄密事件等国际贪腐丑闻的曝光和世界性的经济技术发展也离不开大数据。例如,田径运动相关的大量数据可以预测运动员受伤情况;授课分析可以开发更好的教学模式;还有大量患者信息可以用于诊断预测并分析健康情况。
密西根大学数据研究中心作为DSI项目的一部分,自成立两年间得到了快速发展,已成为多学科、跨学院的数据研究。DSI项目下的另两个子项目分别是先进研究算法(统计咨询和技术服务)和计算分析研究。医学和生物信息算法领域的教授Brian Athey称,大数据的创新使用需求还在持续增长。
在大数据浪潮到来之前,密西根大学的研究人员就已经利用大量数据分析并预测引发疾病的病因、加强计算机科学的研究。先进研究算法负责人大学副校长Eric Michielssen说,要解决现实具体问题,首先需要‘海量’的数据,基于此他与Athey重申了大数据四个‘V’重要概念。
除了数据量(the volume of data)之外,研究人员还考虑到数据速度(velocity),即接收前所未有的大量数据的能力。接收的数据中还需要考虑到数据格式的多样性(variety),数据格式不仅仅是常见的工作簿数据,最后一个‘v’是数据准确性(veracity),即数据的不确定性和有效性。
Michielssen称,高效的日常数据收集和汇总– 尤其社交网络和商业交易产生的大量数据通过无线技术、传感器和复杂的网络系统快速传播 – 这要求研究人员重新考虑如何利用数据惠及社会和科学发展,这就是大数据的创新应用。
Michielssen说,“社会方方面面,各个领域的科研和教学都会受此影响,即大数据现象的影响。” 在Athey看来,数据科学的重要性在大学层面上– 尤其对拥有优秀科研资源的大学而言 – 可以从该校的科研史上可见一斑,看看大学是否在机器学习、数据分析、统计计算等学科发展方面已为今天的方法论做好研究准备。
“密西根大学提供一个理想环境”,根据摩尔定律,随时间计算能力提高同时成本降低,Athey说,“大科学和大数据正重塑社会和高等教育。”MIDAS行政总监Kevin Smith博士称,现在的数据科学家不必受过时的计算机规律的约束。相反,现代的数据管理需要MIDAS三层合作 –即一所大学作为学术中心、CSCAR咨询等数据科学服务以及高性能计算平台。“这是一个数据整合与有效应用的全局思考,你可以对任何待解决的科学问题或商业问题进行数据探索,通过分析、可视化,验证你的做法是否正确。”
交通运输与科技
Michielssen说,在数据科学研究上,大学侧重实际结果,因此必然更注重应用而不是理论方法,尤其对政策、教育和基建方面的应用更是如此。“从方法论上,我们把这种大数据在其他领域中的应用当作发展大数据的绝佳机会。”Smith补充道。例如,MIDAS的数据运输研究中心(Data-Driven Transportation Research)和数据密集性学习分析中心(Data-Intensive Learning Analytics)的研究人员利用大数据改善车辆使用模式、提高交通效率,并开发检验学习过程的新工具。
密西根大学交通研究院的副研究员Carol Flannagan说,他的团队利用大数据分析司机行为,仿真交通规则、交通系统下的司机行为。“交通数据变化快,对现办法的创新应用,甚至扩展现办法或研发新方法,在交通运输领域都大有用武之地。”
除了为交通分析提供大量数据外,Flannagan团队在车祸调研方面也取得了成果,已开发了躲避车祸的技术应用。这些技术应用可以转化为乘车人保护措施,而不是避免车祸。
团队通过可视化工具和交通事故数据分析,提出了一系列车辆在车祸中抵御自身损害的措施,尤其在车辆设计、乘车人行为措施、道路设计等方面,为政策制定部门和基建设计单位提供新的可能性,通过优化设计、制定更好的制度避免不必要的伤亡。
从安全的全局出发,做出预测、制定交规,这需要研究者、政府其他机构共同努力。Flannagan说,一个阻碍就是数据共享性和数据快速访问。他指出,“我们必须遵守数据分析中三思而后行的要求,只是,这个要求是极为苛刻的。”因为,大科学研究必定伴随着大量挑战,尤其对大数据需求还不断变化的情况下更具挑战。
社会科学与挑战
2014年5月份,前总统奥巴马公布了白宫官方报告,陈述了在数字时代个人信息安全、负责任的教育制度、以及公共来源的数据使用的重要性。“如果处理妥善,大数据将成为社会进步的重要推动力量,让我们国家长治久安、经济繁荣。”报告称。此后,大数据在国家范围内的使用一直饱受争议,最近围绕着2016年总统选举中的大数据应用更是闹得沸沸扬扬。起初,大数据被视为总统选举结果的整体预测,尽管一些人认为现任总统特朗普起初否认大数据仅仅是为了掩盖农村的投票信息。
Michael Traugott教授就可以还原未受社交和新闻媒体影响的公众意愿。Traugott教授团队联合民意调查机构(Gallup)和乔治城大学(Georgetown University)收集数据验证2016年总统竞选期间政治话题。利用计算机软件检索成千上万投票者对选举的关键话题,研究人员可以得出公众对媒体宣传后产生的主流观点。
公众的主流观点与9家主流报纸进行内容对比分析,与记者微博的内容对比分析,另一个指标是媒体报道对公众情感的影响。Traugott说,“竞选初期媒体对参选人的性格分析报道让我惊讶不已,特朗普受到了不成比例的关注度。我们希望追踪一些对候选人好感度不产生影响的媒体新闻以及公众提及的话题。”Traugott利用数据判断传统的预设主题的报告方法是否在社交媒体环境下依然适用。
由于大数据可以影响政治,产生对抗性社会氛围,华盛顿邮报呼吁:利用大数据代表各种可能性时,需要更深层的私人思考和技术政策。另外,由于数据收集阶段就会存在内在偏倚– 无论大小 – 都会对结果产生影响,导致危险或者负面的结果。
研究人员每天面对公众对隐私性和保密性的担忧,这是意料外的阻碍。数据传递、医疗记录以及社交信息是需要保障信息安全的三大领域。Michielssen说,“研究人员用软件在联网环境中进行研发,因此需要同时保障研究人员自身的信息安全。”Athey称,人们对未知领域的态度既害怕又复杂,就像人们用大数据研究死亡的态度既恐惧又摇摆不定。
“大数据可以促进社会进步,或者直白的说,可以为不同社会团体所利用。”Athey接着说,“那些知道方法、有计算能力、可以获取数据的人相比一般人拥有特殊优势,可以做好事也可以做坏事。”他解释道,‘数据文盲’就会处于不利地位。“如果你对数据科学缺乏知识,不会实践,就有可能成为一个受害者。这就是我们生活的社会 – 谷歌和其他数据时代产物都不会消失。”Smith也注意到全球云数据伦理问题。“一个公司或许可以利用大数据获取某种竞争优势,我想这就是我们的社会演变和进化的过程。”
电子工程和计算机科学教授H.V. Jagadish开设了许多在线公开课程来检验数据科学的伦理问题。Jagadish教授的目的就是在线公开课程融入到数据科学培训的课程之中,希望可以教数据科学家们‘恰当的数据科学。
Jagadish说,除了隐私性之外,数据科学还面临其他的问题,比如算法的不精确、算法鉴别与偏倚。算法根据代入的数据会发生意外得出不需要的结果。然而,Jagadish也相信,尽管有诸多问题,人们会逐步控制、解决这些问题,最终达到数据科学规则方面的共识。“我们利用数据科学为我们自己做决策,或者利用多种来源的数据侵犯他人隐私,但我想说,虽不是所有人,但大多数人都愿意做有益的事情。我们所要做的就是充分探讨并对正确的事情上取得共识。”
对未来数据的误解
大数据可以预测社会变化或预测疾病发展。然而无奈的是,这门科学本身的发展却是不可预测的。“因为这个学科发展太快,变化太快。”Michielssen说。分析工具的计算平台的升级、分析技术的改进、方法论的变化依然是主要创新领域。这些创新并没有在最近的互联网大数据浪潮之中停滞不前。“一个误区可能是所有老科学将会过时,数据科学将会取代所有过去十年间研发改良的成熟科技。”Michielssen认为这种观点大错特错。“数据科学将强化现有技术,它是一个工具,只是科学家和工程师必备的重要工具,与其他工业分支一样。但不会取代现有技术。”