mtDNA Population Databases for Forensic Purposes: An Overview of the Situation in South America – ISHI News

Nov 05 2020

mtDNA Population Databases for Forensic Purposes: An Overview of the Situation in South America

Speaker FeatureForensic

Mapping and understanding the high ethnic, cultural and linguistic diversity of South American populations has been the main focus of various studies in different fields of science. The process of colonizing South America resulted in a heterogeneous distribution of three main ancestral contributions (Amerindia, European and African) in the populations that currently inhabit the different regions of the subcontinent.

 

 

In the forensic area, the interpretation of genetic evidence is carried out taking into account the expected frequencies of the profiles observed in the reference population. It is therefore necessary to build detailed and representative population databases of the most diverse populations. For markers located in mtDNA, the DNA Commission of the International Society for Forensic Genetics recommends constructing databases that include haplotypes of the total control region of the molecule, obtained by sequencing, so that the most relevant polymorphisms in sequence discrimination in a forensic context are included.

 

In her presentation during the GCLAITH workshop at ISHI 31, Filipa Simcao of the Universidade do Estado do Rio de Janeiro showed that databases for haplotypes of the complete mtDNA control region are currently available for populations of South America, with the aim of contributing to a global vision of their representativeness and heterogeneity. To date, several genetic studies have been conducted to assess the maternal composition of populations in South America. However, as she showed, there are still several countries/regions that have not yet been studied. Moreover, due to the wide diversity of populations, for many countries there are not yet sufficiently representative databases of all their population diversity.

 

As there was not time for her to answer all the questions that came in during the conference, we’ve compiled those that weren’t answered below.

 

In addition to the selected database, what other factors might influence the outcome in determining the frequency of a haplotype?

When determining the frequency of a haplotype, doing a search for the mtDNA profile in a database, there are several factors that must be considered so that this calculation and, consequently, the result are not mistaken.

Some examples include:

* Ensure that the haplotype was correctly determined, with the differences being noted in relation to the rCRS and using IUPAC rules.

* Confirm ambiguous positions (for example in homopolymer treatments and heteroplasmic positions) preferably using several sequences that cover the segment.

* Consider the length and limit (s) of the segment (s) being analyzed.

To minimize the interference of these factors / errors, tools and practices must be applied to control the quality of the results. An example of this is the EMPOP database, which, as mentioned in the presentation, allows for a quality control of the data entered. Tools such as “Alignment” and “Quasi-median network analysis” (available at empop.online) guarantee the correct classification of haplotypes.

 

How important is it to build databases that include the full mtDNA control region?

It is in the control region that the positions with the highest mutation rate of the mitochondrial genome are found (in the hypervariable segments HVSI, HVSII and HVSIII) and which are important in the discrimination between mtDNA haplotypes in the forensic context.

The use of shorter segments, for example only HVI and HVII, will restrict the power of discrimination when comparing mtDNA profiles. In addition, the positions located in the intermediate segments also include important phylogenetic information.

 

Would it be appropriate to use a single database for South America?

As can be seen in the presentation, from the data available so far, it is already possible to perceive the high continental heterogeneity and the differentiation between populations (including at regional level), so the implementation of a single database would not be adequate.

 


 

El mapeo y comprensión de la alta diversidad étnica, cultural y lingüística de las poblaciones de Sudamérica ha sido el enfoque principal de diversos estudios en distintos campos de las ciencias. El proceso de colonización de Sudamérica resultó en una distribución heterogénea de tres contribuciones ancestrales principales (amerindia, europea y africana) en las poblaciones que actualmente habitan las diferentes regiones del subcontinente.

 

En el área forense, la interpretación de evidencias genéticas se realiza teniendo en cuenta las frecuencias esperadas de los perfiles observados en la población de referencia. Por lo tanto, es necesario construir bases de datos poblacionales detalladas y representativas de las más diversas poblaciones. Para los marcadores ubicados en el mtDNA, la “DNA Comission of the International Society for Forensic Genetics” recomienda la construcción de bases de datos que incluyan haplotipos de la región control total de la molécula, obtenidos mediante secuenciación, de modo a que los polimorfismos más relevantes en la discriminación de secuencias en un contexto forense estén incluidos.

 

A través de una búsqueda bibliográfica detallada, en este trabajo se mostrará que bases de datos hay actualmente disponibles para haplotipos de la región control completa del mtDNA para poblaciones de Sudamérica, con el objetivo de contribuir a una visión global de su representatividad y heterogeneidad. Hasta la fecha, se han llevado a cabo varios estudios genéticos para evaluar la composición materna de las poblaciones en América del Sur. Sin embargo, como veremos en este trabajo, todavía hay varios países/regiones que aún no han sido estudiados. Además, debido a la gran diversidad de poblaciones, para muchos países aún no hay bases de datos suficientemente representativas de toda su diversidad poblacional.

 

Para além da base de dados selecionada, que outros fatores poderão influenciar o resultado na determinação da frequência de um haplótipo?

Quando se está a determinar a frequência de um haplótipo, fazendo uma pesquisa pelo perfil de mtDNA num banco de dados, há vários fatores que devem ser considerados para que esse cálculo e, consequentemente, o resultado não sejam equivocados.

Entre alguns exemplos, deve-se:

*Garantir que o haplótipo foi corretamente determinado, com as diferenças sendo anotadas em relação à rCRS e utilizando as regras da IUPAC.

*Confirmar posições ambíguas (por exemplo em tratos homopolimericos e posições heteroplasmicas) de preferência utilizando várias sequências que cubram o segmento.

*Considerar o comprimento e o(s) limite(s) do(s) segmento(s) que está(ão) a ser analisado(s).

Para minimizar a interferência desses fatores/erros, devem ser aplicadas ferramentas e práticas que permitam controlar a qualidade dos resultados. Um exemplo disso é o banco de dados EMPOP que, como falado na apresentação, permite fazer um controle de qualidade dos dados introduzidos. Ferramentas como “Alignment” e “Quasi-median network analysis” (disponibilizadas em empop.online) garantem a classificação correta dos haplótipos.

 

Qual a importância de construir bases de dados que incluam a região controle total do mtDNA?

É na região controle que se encontram as posições com maior taxa de mutação do genoma mitocondrial (nos segmentos hipervariáveis HVSI, HVSII e HVSIII) e que são importantes na discriminação entre haplótipos de mtDNA no contexto forense.

O uso de segmentos mais curtos, como por exemplo apenas HVI e HVII, irá restringir o poder de discriminação na comparação entre perfis de mtDNA. Para além disso as posições localizadas nos segmentos intermediários também incluem informações filogenéticas importantes

 

Seria adequada a utilização de uma base de dados única para a América do Sul?

Como se pôde observar na apresentação, pelos dados disponíveis até ao momento, já é possível perceber a elevada heterogeneidade continental e a diferenciação entre populações (inclusive a nível regional) pelo que a implementação de uma base de dados única não seria adequada.

 

 

WOULD YOU LIKE TO SEE MORE ARTICLES LIKE THIS? SUBSCRIBE TO THE ISHI BLOG BELOW!

 

SUBSCRIBE NOW!