学术报告(7月22日):利用历史数据优化分层模型及其在高通量基因组数据分析中的应用

发布者:潘春德发布时间:2018-07-16浏览次数:214

受中国矿业大学信息与控制工程学院和中国矿业大学生物信息研究所邀请,美国埃默里大学(Emory University)秦昭晖副教授将在我校举行学术报告。欢迎广大师生踊跃参加!

报告题目:利用历史数据优化分层模型及其在高通量基因组数据分析中的应用

间:722日下午530

点:文昌校区教四楼400

主办单位:中国矿业大学信息与控制工程学院;中国矿业大学生物信息研究所

报告人简介:秦昭晖博士现任美国埃默里大学(Emory University)生物统计与生物信息学副教授。1990-1994年在北京大学概率统计学系本科学习,2000年在密西根大学获得统计学博士学位。2000-2003年在哈佛大学刘军教授指导下从事博士后研究。2003-2010年在密西根大学生物统计系任助理教授,2010年转任现职。秦博士在生物信息学,计算生物学,基因组学及统计遗传学等领域有十四年的丰富研究经验。以首席科学家的身份主持过多项包括美国国家卫生院及国家科研基金项目。目前已发表一百多篇同行评议的研究论文,谷歌学术统计的论文总引用超过14千次。在生物信息学领域,尤其是在分析高通量全基因组数据及下一代DNA测序方面拥有丰富的经验。秦博士目前的主要研究兴趣在高通量组学数据分析,以及利用统计建模和机器学习等方法进行组学大数据的数据挖掘和分析。

报告摘要:Modern high-throughput biotechnologies such as microarray and next-generation sequencing produce a massive amount of information for each sample assayed. However, in a typical high-throughput experiment, only limited amount of data are observed for each individual feature, thus the classical “large p, small n” problem. Bayesian hierarchical model, capable of borrowing strength across features within the same dataset, has been recognized as an effective tool in analyzing such data. However, the shrinkage effect, the most prominent feature of hierarchical features, can lead to undesirable over-correction for some features. In this work, we discuss possible causes of the over-correction problem and propose several alternative solutions. Our strategy is rooted in the fact that in the Big Data era, large amount of historical data are available which should be taken advantage of. Our strategy presents a new framework to enhance the Bayesian hierarchical model. Through simulation and real data analysis, we demonstrated superior performance of the proposed strategy. Our new strategy also enables borrowing information across different platforms which could be extremely useful with emergence of new technologies and accumulation of data from different platforms in the Big Data era.