Bioinformatics Toolbox

Lea, analice y visualice datos genómicos y proteómicos

 

Bioinformatics Toolbox™ proporciona algoritmos y apps para secuenciación de próxima generación (NGS), análisis de microarrays, espectrometría de masas y ontología genética. Las funciones de esta toolbox permiten leer datos genómicos y proteómicos en formatos de archivo estándar como SAM, FASTA, CEL y CDF, así como en bases de datos online tales como Gene Expression Omnibus y GenBank® del NCBI. Puede explorar y visualizar estos datos con navegadores de secuencias, mapas de calor espaciales y clustergramas. La toolbox también proporciona técnicas estadísticas para detectar picos, imputar valores a datos ausentes y seleccionar características.

Puede combinar las funciones de la toolbox para utilizar flujos de trabajo bioinformáticos habituales. Es posible usar datos ChIP-Seq para identificar factores de transcripción, analizar datos RNA-Seq para identificar genes expresados diferencialmente, identificar variaciones en el número de copias y SNP en datos de microarrays, y clasificar perfiles de proteínas usando datos de espectrometría de masas.

Obtenga más información sobre la biología computacional.

Cómo empezar:

Análisis de secuenciación de próxima generación

Bioinformatics Toolbox proporciona algoritmos y técnicas de visualización para el análisis de secuenciación de próxima generación. Esta toolbox permite analizar genomas completos mientras se realizan cálculos en el nivel de resolución de par base. Puede utilizar el navegador NGS para visualizar e investigar alineamientos de lecturas cortas utilizando lecturas cortas de extremo único o de extremo emparejado. También se pueden crear rutinas de análisis personalizadas, como se muestra en los siguientes ejemplos.

Visualización e investigación del alineamiento de lecturas cortas

El navegador NGS permite verificar e investigar el alineamiento de secuencias de lecturas cortas para asistir en análisis que miden la variación genética y la expresión génica. El navegador NGS también permite:

  • Visualizar datos de lecturas cortas alineados con una secuencia de referencia de nucleótidos
  • Comparar diversos conjuntos de datos alineados con una secuencia de referencia común
  • Ver la cobertura de diferentes bases y regiones de la secuencia de referencia
  • Investigar la calidad y otros detalles de las lecturas alineadas
  • Identificar discrepancias debidas a errores de llamada de bases o polimorfismos
  • Visualizar inserciones y eliminaciones
  • Recuperar anotaciones de características relativas a una región específica de la secuencia de referencia

Navegador NGS que muestra los polimorfismos de nucleótidos individuales (SNP) en negrita. Se pueden mostrar varias pistas de datos, examinar picos, identificar inserciones y eliminaciones, e inspeccionar la calidad de lectura.

Almacenamiento y gestión de datos de secuencias de lecturas cortas

Los conjuntos de datos utilizados en el análisis de secuenciación de próxima generación suelen ser demasiado grandes para caber en la memoria física. Bioinformatics Toolbox proporciona contenedores de datos especializados que permiten analizar genomas completos.

El objeto BioIndexedFile permite acceder al contenido de archivos de texto que incluyen entradas de tamaño no uniforme, tales como secuencias, anotaciones y referencias cruzadas al conjunto de datos. Puede generar estos objetos a partir de tablas, archivos planos o formatos específicos de aplicaciones, tales como SAM, FASTA y FASTQ.

La clase BioMap almacena información de secuencias de lecturas cortas, incluidos encabezados de secuencia, secuencias de lectura, puntuaciones de calidad y datos sobre alineamiento y asignación a una única secuencia de referencia. Puede utilizar métodos y propiedades de objetos para explorar, acceder, filtrar y manipular los datos contenidos en un objeto BioMap .

Análisis y visualización de datos de microarrays

Utilice las apps y las funciones para adquirir, visualizar, analizar y procesar imágenes en muchos tipos de datos.

Normalización de microarrays

Puede utilizar varios métodos para normalizar los datos de microarrays, tales como regresión local, media global, desviación media absoluta (DMA) y normalización cuantil. Es posible aplicar estos métodos a todo el chip de microarrays o a regiones o bloques específicos. Las funciones de filtrado e imputación permiten limpiar los datos sin procesar antes de ejecutar rutinas de análisis y visualización.

Análisis y visualización de datos

Bioinformatics Toolbox permite realizar ajustes de fondo y calcular los valores de expresión génica (conjunto de sondas) a partir de datos de nivel de sonda de microarray Affymetrix® utilizando los procedimientos de promedio de multiarray robusto (RMA) y promedio de multiarray robusto de GC (GCRMA). Es posible aplicar la segmentación binaria circular a los datos de CGH de arrays y estimar la tasa de descubrimiento falso de diversas hipótesis que prueban datos de expresión génica en un experimento de microarrays. También se pueden normalizar conjuntos con rangos invariantes en intensidades de sonda para varios archivos CEL de Affymetrix o valores de expresión génica de dos condiciones experimentales diferentes.

Las rutinas especializadas para visualizar datos de microarrays incluyen gráficas de volcán, gráficas de cajas, gráficas logarítmicas, gráficas I-R y mapas de calor espaciales del microarray. También puede visualizar ideogramas con patrones de bandas G.

Con las rutinas de Statistics and Machine Learning Toolbox™, puede clasificar los resultados, realizar clustering jerárquico y de K-means y representar los datos del microarray en visualizaciones estadísticas, tales como clustergramas 2D con un orden óptimo de hojas, mapas de calor, gráficas de componentes principales y árboles de clasificación.

Gráfica de volcán de datos de microarray que muestra la significación frente a la relación de expresión génica.

Análisis de datos de espectrometría de masas

Bioinformatics Toolbox proporciona un conjunto de funciones para el análisis de datos de espectrometría de masas. Estas funciones permiten preprocesar, clasificar e identificar marcadores a partir de datos SELDI, MALDI, LC/MS y GC/MS. Las funciones de preprocesamiento incluyen corrección de línea de referencia, suavizado, calibración y remuestreo. Puede alinear datos de espectro sin procesar utilizando el eje M/Z y realizar el alineamiento de tiempo de retención en datos LC/MS y GC/MS. Se pueden representar simultáneamente diversos espectros de forma gráfica.

Es posible suavizar, alinear y normalizar espectros y, después, usar herramientas de clasificación y aprendizaje estadístico para crear clasificadores e identificar biomarcadores potenciales.

Análisis proteómico y metabolómico diferencial sin etiquetas con Bioinformatics Toolbox.

Teoría gráfica, aprendizaje estadístico y ontología genética

Teoría y visualización de gráficas

Bioinformatics Toolbox permite aplicar la teoría gráfica básica a matrices dispersas. Puede crear, ver y manipular gráficas tales como mapas de interacción, gráficas jerárquicas y vías celulares. Es posible determinar y ver las vías más cortas en gráficas, probar ciclos en gráficas dirigidas y encontrar isomorfismo entre dos gráficas.

Visualización y aprendizaje estadístico

Bioinformatics Toolbox proporciona funciones que se basan en los algoritmos de clasificación y aprendizaje estadístico de Statistics and Machine Learning Toolbox, tales como:

  • Clasificadores de k vecinos más cercanos y máquina de vector soporte (SVM)
  • Funciones para configurar experimentos de validación cruzada y medir el rendimiento de diferentes métodos de clasificación
  • Herramientas interactivas para seleccionar características, asignar y visualizar gráficas de jerarquía y vías celulares

Visualización y aprendizaje estadístico.

Ontología génica

Bioinformatics Toolbox permite acceder a la base de datos Gene Ontology desde MATLAB®, analizar archivos anotados de ontología génica y obtener subconjuntos de ontología, tales como ancestros, descendientes o parientes.

Análisis de secuencias

Bioinformatics Toolbox proporciona herramientas de visualización y análisis de secuencias para datos de secuencias genómicas y proteómicas. Puede realizar diversos análisis, incluidos varios alineamientos de secuencias, además de crear, visualizar y manipular interactivamente árboles filogenéticos.

Alineamiento de secuencias

La toolbox proporciona funciones, objetos y métodos para el análisis de secuencias, tales como secuencia en pares, perfil de secuencias y alineamiento de varias secuencias. Por ejemplo:

  • Implementaciones de MATLAB de algoritmos estándar para el alineamiento de secuencias locales y globales, tales como los algoritmos de Needleman-Wunsch, Smith-Waterman y el perfil de modelos ocultos de Markov
  • Alineamiento progresivo múltiple de secuencias
  • Representaciones gráficas de matrices de resultados de alineamiento
  • Matrices de puntuación estándar, como las familias de matrices PAM y BLOSUM
  • Cálculo de secuencia de consenso y visualización de logotipo de secuencia
Explore la galería (3 imágenes)

Estadísticas y utilidades de secuencias

La toolbox permite manipular y analizar las secuencias para obtener una comprensión más profunda de sus datos. Puede hacer lo siguiente:

  • Convertir secuencias de ADN o ARN en secuencias de aminoácidos usando el código genético
  • Realizar análisis estadísticos de las secuencias y buscar patrones específicos dentro de una secuencia
  • Aplicar proteasas y enzimas de restricción para la asimilación mediante simulación informática de secuencias o crear secuencias aleatorias para casos de prueba
  • Predecir la estructura secundaria de mínima energía libre de las secuencias de ARN

Visualización de secuencias

Esta toolbox permite visualizar secuencias y alineamientos. Puede ver mapas lineales o circulares de secuencias anotadas con las funcionalidades de GenBank. Es posible visualizar diagramas de estructura secundaria de una secuencia de ARN. Los visores interactivos permiten explorar y modificar alineamientos de dos o más secuencias.

Análisis filogenético de árboles

Esta toolbox permite crear y editar árboles filogenéticos. Se pueden calcular distancias en pares entre secuencias de nucleótidos o aminoácidos alineadas o no alineadas utilizando una amplia gama de métricas de similitud, tales como Jukes-Cantor, distancia p, puntuación de alineamiento o un método de distancia definido por el usuario. Los árboles filogenéticos se crean utilizando el enlace jerárquico con diversas técnicas, incluidas la unión de vecinos, el enlace único y completo, y el promedio aritmético de grupos de pares no ponderados (UPGMA).

La toolbox soporta la ponderación y el cambio de raíz de árboles, el cálculo de subárboles y el cálculo de la forma canónica de los árboles. El visor de árboles filogenéticos permite podar, reordenar y renombrar ramas, explorar distancias y leer o escribir archivos con formato Newick. También se pueden utilizar las herramientas de anotación de MATLAB para crear árboles con calidad de presentación.

Análisis de características de proteínas

La toolbox proporciona técnicas de análisis de secuencias de proteínas, incluidas rutinas para calcular las propiedades de una secuencia peptídica tales como composición atómica, punto isoeléctrico y peso molecular. Puede determinar la composición de aminoácidos de las secuencias de proteínas, escindir una proteína con una enzima y crear gráficas backbone y gráficas de Ramachandran de datos PDB. Se puede utilizar la herramienta de secuencias para ver las propiedades de una secuencia de aminoácidos, o bien se puede utilizar el visor de moléculas para visualizar y manipular estructuras moleculares en 3D.

Importación de datos y despliegue de aplicaciones

Formatos de archivo y acceso a bases de datos

Puede acceder a formatos de archivo estándar de datos biológicos, bases de datos online y sitios web. Bioinformatics Toolbox permite:

  • Leer datos de secuencias en formatos de archivo estándar, como FASTA, PDB y SCF
  • Leer datos de microarray en formatos de archivo como DAT, EXP, CEL, CHP y CDF de Affymetrix, datos de formato de resultados ImaGene®, archivos de Agilent® Feature Extraction Software y archivos GPR y GAL de GenePix®
  • Leer datos de bases de datos online como GenBank, EMBL, NCBI BLAST y PDB
  • Importar datos directamente desde el sitio web Gene Expression Omnibus del NCBI con un solo comando
  • Leer información de bandas citogenéticas de ideogramas del NCBI o archivos de texto de citobandas de la UCSC
  • Leer datos de espectrometría de masas de archivos MZXML y JCAMP-DX

Uso compartido de algoritmos y despliegue de aplicaciones

MATLAB proporciona herramientas que permiten convertir su programa de análisis de datos en una aplicación de software personalizada. Entre ellas se incluyen herramientas de desarrollo para crear interfaces de usuario, un entorno de desarrollo integrado visual y un generador de perfiles. Los productos de despliegue de aplicaciones de MATLAB permiten integrar los algoritmos de MATLAB con aplicaciones C, C++ y Java™ disponibles, desplegar los algoritmos desarrollados y las interfaces personalizadas como aplicaciones independientes, convertir algoritmos de MATLAB en componentes de Microsoft® .NET o COM a los que se puede acceder desde cualquier aplicación basada en COM y crear complementos de Microsoft Excel®.

Puede integrar MATLAB con herramientas de bioinformática de uso habitual, como BioPerl, servicios web basados en SOAP y complementos COM.

Uso compartido de algoritmos y despliegue de aplicaciones.

Funcionalidades más recientes

Burrows-Wheeler Aligner (BWA)

Realice alineaciones de lectura asignando lecturas de secuencias con un genoma de referencia

Visor de genómica

Visualice datos NGS con una versión embebida de Integrative Genomics Viewer (IGV)

Cufflinks

Realice análisis de expresión diferencial sobre datos de secuencias de ARN

Consulte las notas de la versión para obtener detalles sobre estas funcionalidades y las funciones correspondientes.