Exome 解析に使うツール群のリンク (主に Exome)
ツールアップデートめんどいので、なるべく CUI からいけるように付記したバージョンを書き起こした。
- FastQC
http://www.bioinformatics.bbsrc.ac.uk/projects/fastqc/
- FASTX-Toolkit
http://hannonlab.cshl.edu/fastx_toolkit/
- Burrows-Wheeler Aligner
http://bio-bwa.sourceforge.net/
https://github.com/lh3/bwa
git clone https://github.com/lh3/bwa.git
bwa-0.6以降では SOLiD/colorspace 対応がなくなっている様子 (オプションとしては見えるが、README か NEWS にそう書かれている)。必要な場合は bfast や bwa-0.5.10など対応版を使うしかなさそう。
- SAMtools
http://samtools.sourceforge.net/
svn co https://samtools.svn.sourceforge.net/svnroot/samtools/trunk/samtools
- Picard
http://picard.sourceforge.net/
svn co https://picard.svn.sourceforge.net/svnroot/picard/trunk picard
- bedtools - bedtools: a flexible suite of utilities for comparing genomic features.
http://code.google.com/p/bedtools/
https://github.com/arq5x/bedtools
git clone https://github.com/arq5x/bedtools.git
- ANNOVAR website
http://www.openbioinformatics.org/annovar/
作者にメールする必要がある
- GATK
http://www.broadinstitute.org/gsa/wiki/index.php/Home_Page
git clone https://github.com/broadgsa/gatk.git
- Dindel: Accurate indel calls from short-read data - Wellcome Trust Sanger Institute
http://www.sanger.ac.uk/resources/software/dindel/
wget -r -np -nd ftp://ftp.sanger.ac.uk/pub4/resources/software/dindel -P dindel
- Pindel
svn checkout https://trac.nbic.nl/svn/pindel pindel
その他
- dbSNP VCF
ftp://ftp.ncbi.nih.gov/snp/organisms/human_9606/VCF/v4.0/000-README.txt
ただし annovar のそれを使った方が楽なケースが多いと思う
- variationtoolkit
svn checkout http://variationtoolkit.googlecode.com/svn/trunk/ variationtoolkit-read-only
- vcftools
http://vcftools.sourceforge.net/
svn co https://vcftools.svn.sourceforge.net/svnroot/vcftools vcftools
- VarScan
Variant Detection in Massively Parallel Sequencing Data
- ExomeCNV
Availability: CRAN package "ExomeCNV"
http://cran.r-project.org/web/packages/ExomeCNV/index.html
2012/06/01にもアップデートしてる
ExomeCNV User Guide - Nelsonlab
https://secure.genome.ucla.edu/index.php/ExomeCNV_User_Guide
- exomeCopy
http://bioconductor.org/packages/release/bioc/html/exomeCopy.html
- CNVnator
http://sv.gersteinlab.org/cnvnator/
- CNAseg
http://www.compbio.group.cam.ac.uk/software.html
download
http://www.compbio.group.cam.ac.uk/Resources/CNAseg/CNAseg.rar
example data
http://www.compbio.group.cam.ac.uk/Resources/CNAseg/CNAseg_exampledata.rar
- GATK の資料
GATK documentation index
http://www.broadinstitute.org/gsa/gatkdocs/release/
Running the GATK for the first time - GSA
http://www.broadinstitute.org/gsa/wiki/index.php/Running_the_GATK_for_the_first_time
Best Practice Variant Detection with the GATK v3 - GSA
http://www.broadinstitute.org/gsa/wiki/index.php/Best_Practice_Variant_Detection_with_the_GATK_v3
Frequently Asked Questions - GSA
http://www.broadinstitute.org/gsa/wiki/index.php/Frequently_Asked_Questions
GATK resource bundle - GSA
http://www.broadinstitute.org/gsa/wiki/index.php/GATK_resource_bundle
- Bowtie2
http://bowtie-bio.sourceforge.net/bowtie2/index.shtml
- TopHat - A spliced read mapper for RNA-Seq
http://tophat.cbcb.umd.edu/
iGenome にあるゲノムとインデックスは bowtie2 のものにアップデートしているとウェブサイトに表記がある
http://tophat.cbcb.umd.edu/igenomes.html
- Cufflinks - Transcript assembly, differential expression, and differential regulation for RNA-Seq
http://cufflinks.cbcb.umd.edu/
- Bowtie2
http://bowtie-bio.sourceforge.net/bowtie2/index.shtml
- BFAST: Blat-like Fast Accurate Search Tool
http://sourceforge.net/apps/mediawiki/bfast/index.php?title=Main_Page
git clone git://bfast.git.sourceforge.net/gitroot/bfast/bfast
- IGV
http://www.broadinstitute.org/software/igv/
http://www.broadinstitute.org/software/igv/download
- jksrc のバイナリー
TruSeq Exome 関連
- ターゲットリシーケンスのためのカバレッジの最適化 http://www.illuminakk.co.jp/pdf/TN_Targeted_Resequencing.pdf
- Optimizing Coverage for Targeted Resequencing http://www.illumina.com/documents/products/technotes/technote_optimizing_coverage_for_targeted_resequencing.pdf
- TruSeq_exome_targeted_regions.hg19.chr.bed.gz => iCom だと表記が次のように異なっている TruSeq-Exome-Targeted-Regions-BED-file.gz
- TruSeqExome1.1_installer.tgz => iCom だと表記が次のように異なっている TruSeq Exome Run Quality scripts
Exome 解析に使うツール群のリンク
- FastQC
http://www.bioinformatics.bbsrc.ac.uk/projects/fastqc/
- FASTX-Toolkit
http://hannonlab.cshl.edu/fastx_toolkit/
- Burrows-Wheeler Aligner
http://bio-bwa.sourceforge.net/
https://github.com/lh3/bwa
git clone https://github.com/lh3/bwa.git
- SAMtools
http://samtools.sourceforge.net/
svn co https://samtools.svn.sourceforge.net/svnroot/samtools/trunk/samtools
- Picard
http://picard.sourceforge.net/
svn co https://picard.svn.sourceforge.net/svnroot/picard/trunk picard
- bedtools - bedtools: a flexible suite of utilities for comparing genomic features.
http://code.google.com/p/bedtools/
https://github.com/arq5x/bedtools
git clone https://github.com/arq5x/bedtools.git
- ANNOVAR website
http://www.openbioinformatics.org/annovar/
作者にメールする必要がある
- GATK
http://www.broadinstitute.org/gsa/wiki/index.php/The_Genome_Analysis_Toolkit
git clone https://github.com/broadgsa/gatk.git
- Dindel: Accurate indel calls from short-read data - Wellcome Trust Sanger Institute
http://www.sanger.ac.uk/resources/software/dindel/
wget -r -np -nd ftp://ftp.sanger.ac.uk/pub4/resources/software/dindel -P dindel
TruSeq Exome 関連
- ターゲットリシーケンスのためのカバレッジの最適化 http://www.illuminakk.co.jp/pdf/TN_Targeted_Resequencing.pdf
- Optimizing Coverage for Targeted Resequencing http://www.illumina.com/documents/products/technotes/technote_optimizing_coverage_for_targeted_resequencing.pdf
- TruSeq_exome_targeted_regions.hg19.chr.bed.gz => iCom だと表記が次のように異なっている TruSeq-Exome-Targeted-Regions-BED-file.gz
- TruSeqExome1.1_installer.tgz => iCom だと表記が次のように異なっている TruSeq Exome Run Quality scripts
遺伝子検査で思ってたここ3日くらいの胸のつかえが取れたかもしれない
2日前に書いていたんだけど、いろいろなタイミングで出さずじまいかと思いきや、はてブを読んでてやっぱり気持ち悪くて出そうと思い直した。
CheckDNA (アルクグループ) の一連でいろんな人がツィートしてて、「今回の件はよろしくない」という点でほとんどは一致しているんだけど、少し粒度を細かくした点では僕はいろいろと他の人と違和感を感じてた。
ぶっちゃけると僕は他の人達とどうも意見が異なるんだろうな、と思ってた。
なんだけど Togetter で先頭きって旗振ってるようにすら見える自分がいきなし「オレが思ってることは違うだけどー」とか言い出すのもどうかと思ってた。
あの流れの中で、細かくて慎重に進めないといけない、しかも全く別件の議論を持ち出すのが時間と体力の面ですごくしんどかった。
そんなわけで今さらだけど、やっぱし表明しとく。
表明の契機になったのは、以下のはてブについてるブコメ。
はてなブックマーク - 「遺伝子診断による教育サービス」に対する専門家コメントScience Media Centre of Japan | Science Media Centre of Japan http://b.hatena.ne.jp/entry/smc-japan.org/?p=489
特に
id:CelestialFire さん (良い指摘だと思いました)
id:wuwa さん (良い指摘だと思いました)
id:aggren0x さん (近い感想を持ちました)
のが自分に刺さった。
以下は2日前に書いたけど、結局しなかったツィート達。なので140文字を超えてるのもある。
あと乱暴なものも入ってるので身分を明かしておくと、埼玉医科大学所属の神田将和 (こうだまさかず) が書きました。GWAS や Exome などに専門的な理解があり、23andMe と Pathway Genomics の遺伝子テストサービスを実際に利用しました。所属する団体の考えを反映するものではなく、このブログ全ては一個人の考えによるものです。
「遺伝子診断による教育サービス」に対する専門家コメント | Science Media Centre of Japan http://smc-japan.org/?p=489 この中では宮川先生の意見に一番同意する。次に福嶋先生。他には否定はしないけど、賛同もしない。
安藤先生のはすごく分かりづらかった。逆に一般の方は分かりやすいと言われていたので、ただ単に自分は理解してるから回りくどく感じたのかもしれない。*1
佐倉先生のはやや感情的になっていて少し乱暴だと感じた。ただしこれはすごく短い時間で対応されて書かれたものなので、多少は仕方がない。それでもこれはやはり暴論な部分があって、子供の才能判定遺伝子検査以外の全ての検査を一緒くたにまとめてるようにも見受けられる。
これは立ち位置の違いで、僕は医師でないし、遺伝カウンセリングにすごく強い興味はないから。基礎寄りの研究者でかつ、保守的じゃないので遺伝子テスト自体は否定してないから。なんせ自分で2つも海外の遺伝子テストサービスを利用してるくらいだし。
遺伝子テスト自体もまだ玉石混淆だけど、役に立つ可能性はあると思っているので、今回の子供の才能遺伝子検査と一緒くたにされて批難されてるのを見たらきっとムカつく。
ものすごく細かくて伝わるはずないんだけど、僕自身は約1年くらい前から遺伝子テストと遺伝子検査という単語を使い分けてる。
怪しい遺伝子検査と最先端DTC遺伝子テストの区別がついてる人はそう多くないよ。ホントにそうなのは実際にDTCを受けた人か受けようと考えたことがマジメにある人くらいなもん。
なので一見まっとうなことを言ってるように見える先生でも、僕からみたらよく分かってなくてただ保守的になってる、とかある。大抵の先生はDTCのことを知らないか、知ってても名前だけだから。そもそもDTCのバックボーンになっている科学研究を部分的にでもきちんと追えてる人は少ない。
ここまでで書きためていたのは終わり。
最後に、病院でやられる本当にまっとうなものは除いた上で、一般人が利用できる遺伝子検査についての僕の意見をまとめると…
1. 現状の遺伝子検査サービスでは怪しい物が多いように、僕の目からは見える
言い換えると、遺伝子型 (genotype) と表現型 (phenotype) との結びつきの強さにおいて、検査として使えるほどの科学的根拠を備えてるいるものがなさそう、もしくはカウンセリングとか無理でしょうということ。まあ科学の発達がそこまでいってないよね。単一遺伝子で決まるようなのは例外です。
2. ただ多くの人がここまでの知識でストップしているように見える
でも3で言う遺伝子テストサービスまでマゼコゼにしてしまって議論している場合があると思われる。ここが自分的にはイヤな気持ちになってしまう。
3. 自分が言いたいのは
ここ2年くらいで遺伝子テストサービスというものが海外では利用可能になっていて、少なくとも一部の会社は科学的根拠は備えているという事実があるよ、ということ。むろん科学の発達が十分でないので精度云々の問題はあるけど、暴論やエセ科学ではなく真面目なアプローチなんだよ。しかし1と2の両方の事情が合わさることで3のように真面目に遺伝テストという科学が世の中に入ってこようとしていることまで誤解されることを恐れているんです。
かな。
上に3つ id を上げた方達には感謝してます。
なんていうか少し吐き出すことが出来ました。僕のアクションや主張が良い・悪いかは置いておいて、言わなかった自分を壊せて感謝しています。
ありがとう。
遺伝子テストにも問題大ありなのが現状ですが、エセ科学ではないので見守ってほしいなーと考えたりしてます。
*1:ここだけ補足: 今読むとすんなり分かるので、どうも忙しくて自分がイラついてただけかと。すいません。。
科研費の基盤と新学術の公募が出ていたよ
基盤
新学術
最後の URL からそれぞれの領域のサイトに飛べる。- 作者: 児島将康
- 出版社/メーカー: 羊土社
- 発売日: 2010/08/17
- メディア: 単行本
- 購入: 6人 クリック: 104回
- この商品を含むブログ (13件) を見る
つらつらと Galaxy 関連の URL を貼るだけのエントリー
Galaxy の説明もしない俺得エントリー (?)
Galaxy とは
Galaxy: a comprehensive approach for supporting accessible, reproducible, and transparent computational research in the life sciences | Genome Biology | Full Text
の論文を参照☆
http://blog.openhelix.eu/?p=5164
上記論文を引用している OpenHelix Blog のエントリー。
Galaxy web service
http://main.g2.bx.psu.edu/
http://galaxy.fml.mpg.de/
http://hyperbrowser.uio.no/hb/
クローンが各地にあるっぽい。派生版もある?
クローンでのツールが多少異なるのはバージョン違いか個性のどちらかだろうけど、今のところ見分けがつかない。。
http://main.g2.bx.psu.edu
http://main.g2.bx.psu.edu/u/aun1/p/ngs-analysis-service
http://main.g2.bx.psu.edu/screencast
http://main.g2.bx.psu.edu/u/aun1/p/ismb2010-demo
自分もヘテロプラスミーやるかもしれないのでメモ。
Galaxy Developer Conference 2010 Slides
galaxy / galaxy-central / wiki / DevConf2010 — Bitbucket
- Deploying Galaxy on the Cloud - Enis Afgan
- Integrating and Scaling Analysis Tools - Dan Blankenberg
- Building Scalable Galaxy - Nate Coraor
- Galaxy data libraries and sample tracking at NGS facilities - Greg Von Kuster
- Next-generation sequencing request management system in Galaxy -- Slideshare - Brad Chapman
- Building Custom Genome Browsers with Galaxy Trackster - Kanwei Li
- Reproducibility & Transparency: Workflows and Pages - Jeremy Goecks
- ZFS for NGS data analysis - Davide Cittaro
- Do-It-Yourself Bioinformatics with the FMI Galaxy Server - Hans-Rudolf Hotz
- Cistrome Project: An Integrative Platform to Analyze ChIP-chip/seq Data - Tao Liu
- Transcriptome Analysis with Galaxy - Gunnar Rätsch
- DBCLS Galaxy: A Galaxy Service to integrate databases in Japan - Atsuko Yamaguchi
- MPI EVA: High-throughput sequencing of ancient and modern DNA samples - Martin Kircher
- Enabling Galaxy to access web services (accessing external resources with point and click) - Jessica Kissinger
- Galaxy Internationalization (i18n) and Localization (L10n) - Mitsuteru Nakao
- Mercurial for Galaxy Admins - Ry4an Brase
- Composite Datatypes in Galaxy - Ross Lazarus
- Useful and Usable - Assaf Gordon
Galaxy 本体サイト bitbucket.org
3つのブランチに分かれた構成になっている。
galaxy / galaxy-central / wiki / Home — Bitbucket
Main development repository for Galaxy. Active development happens here, and this repository is thus intended for those working on Galaxy development. See http://bitbucket.org/galaxy/galaxy-dist/ for a more stable repository intended for end-users.
galaxy / galaxy-dist — Bitbucket
epository containing latest version of galaxy that is intended for end user use. Normally this has passed functional tests on multiple platforms and is the version running on http://main.g2.bx.psu.edu.
Galaxy CloudMan
Galaxy を Amazon のクラウドサービスで動かす、とかどっかにあったのでそれ関連?
galaxy / galaxy-central / wiki / Home — Bitbucket
galaxy / galaxy-central / wiki / DataLibraries / Tutorial / DataLibrariesSampleTracking — Bitbucket
galaxy / galaxy-central / wiki / ISMB2010 GalaxyTutorial 3 RunningYourOwn — Bitbucket
galaxy / galaxy-central / wiki / Share your Galaxy items with other people — Bitbucket
galaxy / galaxy-central / wiki / cloud — Bitbucket
galaxy / galaxy-central / wiki / ToolConfigSyntax — Bitbucket
galaxy / galaxy-central / wiki / WritingTests — Bitbucket
galaxy / galaxy-central / wiki / DataSources — Bitbucket
galaxy / galaxy-central / wiki / Config / ToolData / AddMAFs — Bitbucket
galaxy / galaxy-central / wiki / AddingDatatypes — Bitbucket
galaxy / galaxy-central / wiki / SecurityFeatures — Bitbucket
galaxy / galaxy-central / wiki / Config / Eggs — Bitbucket
NGSLocalSetup
synonymous-and-non-synonymous-snps
galaxy / galaxy-central / wiki / DataLibraries / UploadingFiles — Bitbucket
http://bitbucket.org/galaxy/galaxy-central/src/tip/tools/samtools/
NGS 用ツールのパーザーレポジトリかな?
http://main.g2.bx.psu.edu/u/jgoecks/w/snp-identification-within-annotated-genes-from-ngs-pe-data
やりたいことのほぼ全てなワークフローじゃないすか
http://main.g2.bx.psu.edu/workflow/list_published
ワークフロー一覧
GMOD サイト内にある Galaxy 用フォーラム
GMOD - Galaxy
GMOD - Galaxy Users | Mailing List Archive
GMOD - Galaxy Development | Mailing List Archive
Galaxy Development - New version for snpEff tool
Galaxy Development - Tool Integration: SOAPaligner/soap2
http://community.g2.bx.psu.edu/
Community site. ユーザーの開発したツールがアップされる場所みたい。
etc
KazusaAPI開発日誌のGalaxyカテゴリー
DBCLS Galaxyではじめるゲノムスケールデータの…*1
lectures_Galaxy-CSHL-2010
Manipulation of FASTQ data with Galaxy | Bioinformatics | Oxford Academic
http://hannonlab.cshl.edu/fastx_toolkit/commandline.html
Galaxy にも入ってる FASTQ操作コマンドライン詰め合わせ
Category:NBIC Galaxy - BioAssist NCBI の Galaxy グループのメモ
NBA::GWAS Further Readings
# 9/20 少し追加
# 9/1 当日のスライドをエントリ最後に追加しました
疾患の研究論文を読み漁ったので、ついでにブログに残してみる。
対象としたのは、GWAS (全ゲノム相関解析)、Missing Heritability (GWAS でつかめなかった遺伝寄与 = Missing heritability) が中心。
Rare variants は Genomic disorders を確立したけれども、多因子疾患ではどうなるのか?
今、疾患研究は GWAS と CNV が期待通りにいかなかったというターニングポイントを回って、aCGH/SNP array が築き上げた Rare variants が期待のバトンを握ったところか。
これに加わると期待されるのが次世代シーケンサーによる Rare variants の発見。 GWAS-identified locus の deep sequence、または脳・神経・精神疾患における Exome resequencing 的なアプローチ(?)に期待がかかっている、というところだろうか。
Pathway 解析なども読んだけど、遺伝学系の雑誌ではまだまだ。Missing heritability という GWAS で見えない遺伝率が探されるのと同じように、まだ見えてない関連遺伝子をこのレイヤーで探す需要はある。
Papers (mainly review)
Nature
Finding the missing heritability of complex diseases. - PubMed - NCBI
Missing heritability and strategies for finding the underlying causes of complex disease. - PubMed - NCBI
New England Journal of Medicine
Genomewide association studies and human disease. - PubMed - NCBI
Genomewide association studies and assessment of the risk of disease. - PubMed - NCBI
Ten years on--the human genome and medicine. - PubMed - NCBI
Genomic medicine--an updated primer. - PubMed - NCBI
An Updated Primer は Glossary とかあるレベル。初学者にはいいかも。
Journal of Human Genetics (日本の雑誌)
年表もあるし、小見出しがいちいちイイ感じ。
The pursuit of genome-wide association studies: where are we now? - PubMed - NCBI
CELL Leading Edge Essay
GWAS は終わった、というような論調で物議を呼んだ。
Genetic heterogeneity in human disease. - PubMed - NCBI
即座に2つの反論がついている。
異なる立場の考えが読めるのが良い。
Successes of genome-wide association studies. - PubMed - NCBI
Strategies for genetic studies of complex diseases. - PubMed - NCBI
Others
How to interpret a genome-wide association study. - PubMed - NCBI
Genome-wide association studies and beyond. - PubMed - NCBI
これも小見出しがいい。
Bioinformatics challenges for genome-wide association studies. - PubMed - NCBI
Others (Missing heritability に対する線形和)
On beyond GWAS. - PubMed - NCBI
Hints of hidden heritability in GWAS. - PubMed - NCBI
Estimation of effect size distribution from genome-wide association studies and implications for future discoveries. - PubMed - NCBI
Common SNPs explain a large proportion of the heritability for human height. - PubMed - NCBI
Others (Pathway related)
Prioritizing GWAS results: A review of statistical methods and recommendations for their application. - PubMed - NCBI
Functional impact of global rare copy number variation in autism spectrum disorders. - PubMed - NCBI
Use of genome-wide expression data to mine the "Gray Zone" of GWA studies leads to novel candidate obesity genes. - PubMed - NCBI
Blogs and BioStar
How to read a genome-wide association study « Genomes Unzipped
Genomes Unzipped は最近できた group blog (centralized blog) でウオッチしていた遺伝系ブロガーが何人か集まって書いてる。出来たばかりだけどおもしろい。
Biology. Given that a GWAS has some firm results, there’s almost always some speculative comment about why these regions of the genome are important to this disease. Take this section with a grain of salt, since it’s surprisingly easy to dig up a paper published at some point in history to support almost any functional hypothesis!
http://biostar.stackexchange.com/questions/1988/good-gwas-papers-resources
タイムリーな質問で、良い回答だと思う。つか自分が50以上読んでまとめたものとほぼ同じ。つまりこの質問があと1週間早ければ…オウフ
http://biostar.stackexchange.com/questions/2125/any-recommendations-for-statistcal-genetics-texts
教科書は僕自身良いものを知らないので一応。
Site Search | GenomeWeb
詳細はないが、研究者が思う一般的な疑問にQ&A形式で答えている。専門家が斜め読みするとおもしろい?
http://biostar.stackexchange.com/questions/142/mapping-snps-to-pathways
GSEA のような解析が Transcriptome から輸入されてきてる。
http://biostar.stackexchange.com/questions/778/exploring-snp-data
発表時に使った資料
ここで扱わなかったもの
- Uncovering the roles of rare variants in common disease through whole-genome sequencing
- Pharmacogenetics (Personalized medicine)
Slideshare