Мы используем файлы cookie.
Продолжая использовать сайт, вы даете свое согласие на работу с этими файлами.
BED (文件格式)
Другие языки:

BED (文件格式)

Подписчиков: 0, рейтинг: 0
BED文件
扩展名 .bed
互联网媒体类型 text/x-bed
格式类型 文本文件
网站 https://samtools.github.io/hts-specs/BEDv1.pdf

BEDBrowser Extensible Data,字面意思是“(基因组)浏览器可延展数据”)是一种基因组学中用于表示、标记基因组区域位置信息中的文件格式,于人类基因组计划中首次出现。BED文件是目前基因组学事实上的标准格式之一。

格式

引入BED格式的人类基因组计划并未详细规范BED文件格式,因此一般较通用加州大学圣克鲁兹分校(UCSC)基因组浏览器中的描述文件。2021年,全球基因组学与健康联盟(GA4GH)发布了首份BED文件格式的规范文件。

BED文件最少需要有3个分别表示区域染色体序号、起始位置,以及终止位置的列,根据不同需求可增加至12列记录更多信息。一般来说,不同的列之间应以制表符分隔值(\t)隔开,且每一行的列数必须相同。

下表介绍BED文件每一列应该存储的信息。三个必须出现的列标记为红色。

BED文件的列
序号 原文名称 定义
1 chrom 染色体序号。有时也可以是测序脚手架的序号。
2 chromStart 区域起始位置的编号(染色体起始点设为0)
3 chromEnd 区域终止位置的编号
4 name 该行表示区域的名称
5 score 该区域的分数,如Peak calling(寻峰)的分数,应该在0-100之间
6 strand 该区域所在的DNA链,一般应取“+”(正链)、“-”(反义链),或“.”(不适用正反义链时)
7 thickStart 在基因组浏览器中应加粗表示区域的起始点(例如基因的起始密码子
8 thickEnd 在基因组浏览器中应加粗表示区域的终止点(例如基因的终止密码子
9 itemRgb 该区域在基因组浏览器中用什么颜色表示,应使用三原色光模式(RGB)系统的颜色代码
10 blockCount 该行表示的区域含多少个区块(例如外显子
11 blockSizes 该行表示的区域各个区块的长度。不同区块应使用半角逗号隔开。元素的数量应与第10列的值相同
12 blockStarts 该行表示的区域各个区块的开始点。不同区块应使用半角逗号隔开。元素的数量应与第10列的值相同

头行文件

一部分BED文件会具有一些与BED文件本身无关的头行文件,一般包含以下信息

  • "browser":与UCSC基因组浏览器设置相关的参数
  • "track": 与基因组浏览器中可视化参数设置相关
  • "#":注释内容,内容任意

文件扩展名

BED文件的扩展名一般为“.bed”。有时候,也根据列数的不同标注为“.bed3”(有3列的BED文件)、“.bed6”(有6列的BED文件)等等。

例子

以下为一个含有最基本3列信息的BED文件范例:

chr7    127471196    127472363
chr7    127472363    127473530
chr7    127473530    127474697

以下是另一个BED文件的范例,UCSC基因组浏览器提供的BED文件一般都是这种格式。头三行是UCSC基因组浏览器的设置参数,与BED文件本身无关。

browser position chr7:127471196-127495720
browser hide all
track name="ItemRGBDemo" description="Item RGB demonstration" visibility=2 itemRgb="On"
chr7    127471196    127472363    Pos1    0    +    127471196    127472363    255,0,0
chr7    127472363    127473530    Pos2    0    +    127472363    127473530    255,0,0
chr7    127473530    127474697    Pos3    0    +    127473530    127474697    255,0,0
chr7    127474697    127475864    Pos4    0    +    127474697    127475864    255,0,0
chr7    127475864    127477031    Neg1    0    -    127475864    127477031    0,0,255
chr7    127477031    127478198    Neg2    0    -    127477031    127478198    0,0,255
chr7    127478198    127479365    Neg3    0    -    127478198    127479365    0,0,255
chr7    127479365    127480532    Pos5    0    +    127479365    127480532    255,0,0
chr7    127480532    127481699    Neg4    0    -    127480532    127481699    0,0,255

.genome格式

genome文件是一种有时与BED文件配合使用的文件。这种文件含有两列,第一列是染色体序号、第二列表示这条染色体的长度。genome文件主要是确保BED文件表示的区域不会位于染色体应有的长度之外。

 chrom   size                                                                         
 chr1    248956422
 chr2    242193529
 chr3    198295559
 chr4    190214555
 chr5    181538259
 chr6    170805979
 chr7    159345973
 ...

参见

参考资料


Новое сообщение