Tópicos em BCM - “Text mining” e bioinformática para a pós-genômica
PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIAS DA SAÚDE
FIOCRUZ-MG
Período: 4 – 8/ outubro/ 2010
Local: Sala de Aula de Informática. Anexo do Centro de Pesquisas René Rachou – FIOCRUZ. Av. Augusto de Lima 1715. Barro Preto, Belo Horizonte.
Carga horária: 15h
Coordenadores: Guilherme C. Oliveira e Roney S. Coimbra
EMENTA:
O entendimento das associações funcionais entre genes e/ou outras entidades biológicas é um dos maiores desafios na interpretação de resultados de estudos envolvendo tecnologias de alta produtividade usadas na pós-genômica. Recentemente, algorítimos robustos e já largamente empregados nas ciências exatas têm sido propostos para a classificação e o agrupamento de entidades biológicas a partir das medidas de expressão gênica obtidas com microarranjos, proteômica etc. No entanto, a interpretação desses resultados só é possível à luz das informações disponíveis na enorme e crescente literatura científica biomédica, o que motivou o surgimento da mineração de textos.
Mineração de textos é um excitante ramo da bioinformática pelo qual documentos são triados, subdivididos, analisados e apresentados, em forma gráfica, ou textual, revelando seu conteúdo de informações. Algumas vezes, estas informações já existem bastando, portanto, extraí-las de um conjunto de documentos. Outras vezes, a informação obtida é totalmente inédita, revelada pela análise de tendências em conjuntos de documentos.
Neste curso, apresentaremos algorítimos e estratégias para classificação e agrupamento de genes/proteínas a partir de dados de expressão, assim como métodos de mineração de textos para a integração dos dados experimentais com informações extraídas da literatura cientifica. Os conceitos apresentados nas aulas teóricas serão fixados através de aulas práticas utilizando-se implementações, de domínio público, dos principais algorítimos estudados.
PROGRAMA DETALHADO:
04/10/10 – Segunda-feira
Introdução – 15 min
Medidas de similaridade - 30 min
Métodos de ligação - 15 min
Intervalo - 15 min
Métodos de agrupamento (“clustering”) – 45 min
Métodos de classificação – 45 min
Avaliação de agrupamentos - 15 min
05/10/10 – Terça-feira
Apresentação de seminário e discussão, artigo 1 – 35 min
Apresentação de seminário e discussão, artigo 2 – 35 min
Apresentação de seminário e discussão, artigo 3 – 35 min
Intervalo - 15 min
Exercício de agrupamento hierárquico – 60 min
06/10/10 – Quarta-feira
Tutorial GenePattern - 180 min
07/10/10 – Quinta-feira
Introdução a Information Retrieval, Information Extraction e Text Mining – 60 min
Métodos de indexação de textos - 45 min
Intervalo - 15 min
Tutorial LitProf – 30 min
Avaliação dos agrupamentos do LitProf - recall e precision – 30 min
08/10/10 – Sexta-feira
Apresentação de seminário e discussão, artigo 4 – 35 min
Apresentação de seminário e discussão, artigo 5 – 35 min
Apresentação de seminário e discussão, artigo 6 – 35 min
Intervalo - 15 min
Tutorial Cystoscape e "Agilent Literature Search" - 60 min
BIBLIOGRAFIA:
LIVROS e DISSERTAÇÕES:
Mount, D.W. 2004. Bioinformatics - Sequence and Genome Analysis, 2nd ed, Cold Spring Harbour Laboratory Press, Cold Spring Harbour, NY.
Feldman, R. & Sanger, J. 2007. The Text Mining Handbook: Advanced Approaches in Analysing Unstructured Data.
Konchady, M. 2006. Text mining Application Programming. 1st Edition. Thompson – Delmar Learning,
ARTIGOS:
Golub et al. 1999. Molecular Classification of Cancer: Class Discovery and Class Prediction by Gene Expression Monitoring. Science, 286: 531-537.
Ramaswamy et al. 2001. Multiclass cancer diagnosis using tumor gene expression signatures. PNAS, 98: 15149-15154.
Shipp et al. 2002. Diffuse large B-cell lymphoma outcome prediction by gene-expression profiling and supervised machine learning. Nature Medicine, 8: 68-74.
Wang et al. 2002. Clustering of the SOM easily reveals distinct gene expression patterns: results of a reanalysis of lymphoma study.
Chagoyen et al. 2006. Discovering semantic features in the literature: a foundation for building functional associations.
Larrañaga et al. 2006. Machine Learning in Bioinformatics. Brief. Bioinform, 7: 82-112.
Han et al. 2006. Recent progresses in the application of machine learning approach for predicting protein functional class independent of sequence similarity. Proteomics, 6: 4023-37.
Shatkay et al, 2007. SherLoc: high-accuracy prediction of protein subcellular localization by integrating text and protein sequence data. Bioinformatics, 23: 1410-1417.

