药物设计学课件--第五章 第二节化学信息处理null第二节
化学信息处理第二节
化学信息处理化学信息学化学信息学产生的背景
组合化学和高通量筛选,出现了巨大的信息,需要快速收集、存储、分析和处理,随着信息技术向化学领域的渗透,形成了新的交叉学科——化学信息学。
研究内容
化合物信息在计算机中的表示
化合物数据库的建立、使用和管理
化合物相似性、多样性及分子类药性分析
化合物定量构效关系化学信息学
Chemoinformatics,chemical informatics,
Cheminformatics,chemi-in...
null第二节
化学信息处理第二节
化学信息处理化学信息学化学信息学产生的背景
组合化学和高通量筛选,出现了巨大的信息,需要快速收集、存储、分析和处理,随着信息技术向化学领域的渗透,形成了新的交叉学科——化学信息学。
研究内容
化合物信息在计算机中的表示
化合物数据库的建立、使用和管理
化合物相似性、多样性及分子类药性分析
化合物定量构效关系化学信息学
Chemoinformatics,chemical informatics,
Cheminformatics,chemi-informatics化学信息学
Chemoinformatics,chemical informatics,
Cheminformatics,chemi-informatics利用计算机信息处理技术对化学分子结构和相关信息进行管理的一种综合性技术和学科
应用化学信息学可促进化学信息的获取、转化与共享一、化学信息的表示方法一、化学信息的表示方法化学
分子一维结构:化合物名称(俗名);线性符号表示法。二维结构:原子用元素符号,键用短线,即化合物结构式。为平面结构。三维结构:原子的空间位置、相互间距离、键角和二面角等。分子表面:建立在三维结构基础上,能与分子的三维结构一一对应。null苯丙氨酸分子结构表征层次(一)一维结构表示(一)一维结构表示SMILES(简化分子线性输入系统)
编码的基本原则SMILES(简化分子线性输入系统)
编码的基本原则原子通常以大写元素符号表示(省略氢原子),芳香结构原子则以小写表示。
相邻原子依次排放在一起,单键通常省略,双键和三键分别以“=”和“#”表示,芳香键以“:”表示,也可省略。
分支部分放在括号内,环则打开,并赋予断开键两端的原子以相同的数值。
双键“/”表示顺式,“\”表示反式。
原子顺时针排列用@表示,逆时针排列用@@表示。null甲烷 CH4 C
乙醇 C2H5OH CCO
氰化氢 HCN C#N
环已烷 C6H12 C1CCCCC1
吡啶 C5H5N n1ccccc1
异丁酸 (CH3)2CHCO2H CC(C)C(=O)O
反式二溴甲烷 Br/C=C/Br 或Br\C=C\Br
顺式二溴甲烷 Br\C=C/Br 或Br/C=C\Br
L-丙氨酸 N[C@@H](C)C(=O)O
D-丙氨酸 N[C@H](C)C(=O)O举例说明举例说明苯丙氨酸
NC(Cc1ccccc1)C(O)=OnullC/C=C\C=\[C@@H](O)C#NSMILES编码的立体化学信息表示SLN编码(Sybyl线性标记法)的规则SLN编码(Sybyl线性标记法)的规则原子以其元素符号表示,氢原子也要显示;
单键省略,双键、三键和芳香键分别以“=” “#”和“:”表示;
分支也采用括号表示;环也打开,依靠环上一个预先定义好的具有唯一编号的原子及@符号来识别,如环己烷表示为C[15]H2CH2CH2CH2CH2CH2@15;
原子和键的属性(如电荷、立体化学性质等)可通过方括号[ ]或尖括号< >在该原子后标记出;
对大分子的原子,可使用缩写,如氨基酸可以用其三个字母缩写形式表示。(二)二维结构表示(二)二维结构表示1、图论基础和图的矩阵表示
一个简单的图由顶点(V)和边(E)组成,因此图被定义为一个三元组
, φ为映射函数。在下面一个简单的无向图中, V={1,2,3,4}, E={e1,e2,e3,e4, e5, e6}。null 图也可用矩阵表示:设G=为无向图,令mij等于顶点vi与边ej的关联次数,则称(mij)n*m为G的关联矩阵,记为M(G)。null用图表示苯丙氨酸的结构null 2、化合物结构的矩阵表示
(1)邻接矩阵(以乙醛为例)(2)距离矩阵:表示了相应原子之间的距离:几何距离(用Å表示),
拓扑距离(两原子之间连接的键的个数)
(3)键矩阵:矩阵元素为相连接的两个原子之间的键级。
双键:2,三键:3。
(4)关联矩阵:是一个n×m的矩阵。
顶点(原子)作为列(n),边(化学键)作为行(m),
如果边在顶点内,则相应的元素置为1。null 3、连接表20世纪80年代开始,成为化合物在计算机中表示的最主要方法。
首先对每个原子进行编号并列表
然后在另一中列出键的信息,
键级用整数表示,1表示单键,2表示双键。(三)三维结构表示(三)三维结构表示1、直接坐标法
用迪卡尔坐标直接存储每个原子的三维坐标(x,y,z)2、内坐标法2、内坐标法每个原子位置以与其他原子间的3个相对位置关系表示——相对距离、键角、二面角(四)分子存储格式及其相互转换(四)分子存储格式及其相互转换null基本存储
分子的元素组成、原子坐标、原子连接关系
其他存储
分子子结构信息,适用于生物大分子
原子电荷信息,调用时不必再计算
确定特定原子化学环境的原子类型信息二、化合物数据库的生产和管理二、化合物数据库的生产和管理 目前有很多商业化合物数据库可以利用
MDL药物数据(MDDR)含有115000个类药性
化合物。
美国国家癌症研究所(NCI)数据库含有250000个
化合物。MDL ISIS化学数据库管理系统MDL ISIS化学数据库管理系统ISIS系统提供了基于Oracle 数据库系统的各类化学信息系统的管理和开发工具,可以同时管理化学结构、化学反应、生物活性及谱图等多种化学信息。
ISIS已应用于全球超过80%的化学与制药企业,已成为事实上的化学信息管理系统的工业标准。ISIS (Integrated Scientific Information Management System)——MDL的综合性结构和反应管理软件ISIS (Integrated Scientific Information Management System)——MDL的综合性结构和反应管理软件由三个主要模块组成:
(1) 化学信息管理系统:ISIS/HOST——主服务器应用程序,进行通讯连接,集中数据库数据并作处理
(2) 化学信息生成和管理软件:ISIS/BASE——用于生成局部数据库及处理信息
(3) 化学画图软件:ISIS/DRAW——用于输入结构式和搜寻询问条件2D结构输入2D结构输入——计算机绘制化学结构式
首先输入原子和键的骨架结构,原子数、电荷会自动变为上下标
软件的模板中收集大量分子片段
可智能分析结构式,处理结构式的编码和变换
还可有附加功能,如自动命名、化学计算、光谱分析等三维结构的转化三维结构的转化3D结晶结构参数转入3D数据库 软件将2D化学结构迅速地转为3D模型
三、分子相似性和多样性分析三、分子相似性和多样性分析分子相似性和多样性分析方法的原则:结构相似的分子有着相似的性质或活性。
作用:在识别新的具有与已知化合物相同性质或活性的化合物时具有十分重要的作用。
数据库的化学多样性(chemical diversity):
数量巨大的、结构不同的贮藏和检索系统——适用于先导化合物发现
数据库的化学相似性(chemical similarity)
适用于先导化合物优化
评价方法:通过计算分子的描述符,并比较化合物描述符的近似程度。分子描述符分子描述符 概念:在相似性和多样性分析中,需要建立化合物结构和它们生
物活性或者理化性质的映射,分子描述符就是其中的一种映射。
作用:通常一个或多个描述符可以用来描述分子的结构、性质等,
如lgP在一定程度上反映了分子穿透细胞膜的能力;拓扑指数描述
了结构的复杂性。
描述符的内容是由两方面决定的,一是化合物的分子表示,二是计
算描述符的算法。null分子描述的分类分子相似性分析方法分子相似性分析方法基于定性特征的和基于定量特征的。
对于两个化合物A和B,
a是A所具有而B不具有的特征数目
b是B所具有而A不具有的特征数目
c是两者共同的特征数目
d为两者都不具有的特征数目
c和d表示了化合物A和B之间的相似性
a和b表示了化合物A和B之间的多样性
所有的特征数目为n=a+b+c+d
这样,可以建立一种直观的相似性评价方法:考察所有匹配的特征数目c+d在所有特征数目(c+d)+(a+b)中所占的比例,即(c+d)/(a+b+c+d)。这也被称作为简单匹配系数。
可以看出,A和B均不具有的特征并没有表达任何信息,所以,d可以从上面的方法中删除,得到了Tanimoto相似度计算公式。化学多样性的定量表达——Tanimoto系数化学多样性的定量表达——Tanimoto系数用化学空间中电荷和电势等描述符比较不同分子的性质
TC = c /(a+b+c)
a为A中基础片断的描述符的数
b为B中基础片断的描述符的数目
c为A和B中共有的基础片断的描述符的数目
相同分子TC = 1;分子没有共同描述符时TC = 0相似性搜寻相似性搜寻根据分子相似性原理,可以在数据库中搜寻与目标分子具有一定相似性的分子,即相似性搜寻。
步骤:
1、目标选择
2、描述符选择和编码
3、相似性评价方法选择
4、搜寻语句的输入
5、相似性打分四、互联网上的化学信息资源四、互联网上的化学信息资源null(一)化学搜索引擎
1、大型通用搜索引擎:Google、百度等。
2、专门用于搜索化学信息的引擎:ChemFinder, MetaXchem…..
(二)互联网上的化学数据库
1、文献数据库(CA、Medline)
2、化合物数据库(Gmelin, CSD)
3、综合数据库(Beilstein、PDB)常用化合物数据库常用化合物数据库FCD (Fine Chemicals Directory)—— MDL 维护。收载约90 000化合物和20 000化合物数据,包括化学系统名、俗称、分子式、分子量、供应商、价格、CAS登录号、纯度等。可通过结构式或其它任何数据检索
ACD (Available Chemicals Directory) ——MDL维护。FCD数据库加上可大批量供货的化学品信息。目前有25万个化合物
CSD(Cambridge Structure Database) —— 20多万个结晶的3D结构实验数据及相关数据常用数据库的网址常用数据库的网址
本文档为【药物设计学课件--第五章 第二节化学信息处理】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑,
图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。