科学网在系统发育树与基因索引图之间利用丰度

从2020年初起,变值体系研究团队针对 新冠病毒基因序列,从 信息熵(Information Entropy, Shannon Entropy)出发,形成四种高效处理模式:组合熵(Combinatorial Entropy),平均熵(Mean Entropy),集成熵(Integrated Entropy)和 拓扑熵(Topological Entropy),然后转变形成各自的 基因索引测度(Genomic Index)。研究聚焦于 基因索引图示(Genomic Index Map)形成了一系列的研究成果,在经过近一年的反复修改编辑之后,完成满足国际神经学杂志要求,作为首席特邀编辑针对抗击新冠病毒特刊的全部工作。

非常高兴,期待已久的 国际神经学杂志特刊(EC Neurology Special Issue)汇集的23篇论文,于2021年2月顺利上线发表!参阅链接:https://www.ecronicon.com/specialissue21_neurology.php

从基因分析专家们对复杂基因序列变异精细分析的角度,最强大的可视化系统分析工具是以BLAST(Basic Local Alignment Search Tools)为基础的 系统发育树(Phylogenetic Trees)。这类分层结构化树型表示机制是现代高级基因分析师们最为熟悉的精密分析工具。

尽管在特刊论文中选择的系列可视化结果,吸引着各类基因分析专家的关注,但在现实世界中,还没有几个生物医学专家能够习惯地观察和应用各类基因索引测度,解释极为丰富的投影可视化分布特征。

针对新冠病毒组合熵分析论文,在2020年6月投稿之后,经过6个月耐心等待,于12月中旬从杂志编辑部传回了的评审意见,看到期待已久的专家评议报告。专家认为论文本身还有点意思,但由于在文中仅包含处理方法,流程和系列可视化结果的简要描述,仅凭文中提供的流程和图示等描述信息,还难以确认系列图示结果的真伪。要求提供进一步可供判定图示结果真伪的有效信息。

为了满足评审专家的要求,除了以最新的英国新冠病毒变异株为基础,利用BLAST等前沿工具形成发育树,精确标记 变异点(SNV Single Nucleotide Variants),准备较为细致的结果表格和对应图示之外,还聚焦查阅分析系列最新的各类熵处理模型和方法,系统阅读与系统发育树相关的前沿研究论文。

这段时间的资料准备和分析修改,在近期投到Research Square最新预印本中得到充分展示。参阅论文: https://www.researchsquare.com/article/rs-31883/v4 

论文最关键的贡献是从系统发育研究领域之中获得合适的量化测度,精确描述基因序列群聚表现出的内蕴分布特征。

基于 丰度测量(Diversity Measure),该类参数为 玻耳兹曼熵(Boltzmann Entropy),非香农信息熵。对任意N组基因序列,定义可区分的聚类数目为M,则 该序列集合的 丰度测量 =: log2(M)。如果 △ 为 系统误差界(System Error Margin),例如:△=0.0001。

任意两组基因序列 X, Y 对应的基因索引为 x,y, 如果 差值(Difference) c(x,y) = |x-y| ≦ △,则两组序列 X, Y 落入同一个聚类。

对N组可区分序列,选择合适的 系统误差界序列 {△i} ,满足△i > △i+1 > 0, 1 ≦ i ≦ N, 从根出发,依次划分出1~N发育树各主干,枝干到叶的精细分支数目。在给定系统中系统误差序列可以从大到小精确设定。

伴随着一串递减的系统误差界,如果存在 M, 1 ≦ M ≦ N 为 最大可区分聚类数(Number of Clusters),形成可以区分的  有界递增序列 {Qi(△i)},则 1= Q1< ... Qi ...  < QM = ... Qj ... = QN = M。递增子序列:{Qi}, 1 ≦ i ≦ M, 不变子序列:{Qj} , M < j ≦ N, N组序列集合的丰度测量分布在 [0, log2(M)] 之间,前M个元素伴随系统误差递增,而后面的部分保持 Q 序列的最大值不变。

可以严格断言,满足该条件的发育树系统,最多表达为M个 层次(Levels)。利用一个单调下降的非0误差序列,配合前面上升后面持平的有限增长序列,确定基因索引图示与系统发育树之间的对应等价关系。

最简单的两种情形:1. 根节点 Q1 =1, log2(1)=0, N个序列为 单聚点(Single Cluster);2. N个序列都可区分, M=N,系统达到最大值 log2(N)。每个序列都能够被区分,所形成的发育树最多含有 N个层次。

从组合数学的角度,在图与树之间的群聚判定问题是众所周知 鸽笼原理(Pigeonhole Principle)的特殊应用。对仅有M个鸽笼的系统,无论N有多大,最后都只能约束在M个类之中,以丰度测量为代表的系统熵,不会伴随N数目持续增长,测度被强制地约束在[0, log2(M)]之间。

 

发表评论