ARTICLE Duffner_IJCEE_2012/IDIAP The TA2 Database ? A Multi-Modal Database From Home Entertainment Duffner, Stefan Motlicek, Petr Korchagin, Danil high-definition video-conferencing multi-face tracking multi-modal database voice-activity detection EXTERNAL http://publications.idiap.ch/attachments/papers/2012/Duffner_IJCEE_2012.pdf PUBLIC International Journal of Computer and Electrical Engineering 4 5 670-673 1793-8163 2012 http://www.ijcee.org/ URL This paper presents a new database containing high-definition audio and video recordings in a rather unconstrained video-conferencing-like environment. The database consists of recordings of people sitting around a table in two separate rooms communicating and playing online games with each other. Extensive annotation of head positions, voice activity and word transcription has been performed on the dataset, making it especially useful for evaluating automatic speech-recognition, voice activity detection, speaker localisation, multi-face detection and tracking, and other audio-visual analysis algorithms.

<subfield code="a">ARTICLE</subfield>

</datafield>

<subfield code="a">Duffner_IJCEE_2012/IDIAP</subfield>

</datafield>

<subfield code="a">The TA2 Database ? A Multi-Modal Database From Home Entertainment</subfield>

</datafield>

<subfield code="a">Duffner, Stefan</subfield>

</datafield>

<subfield code="a">Motlicek, Petr</subfield>

</datafield>

<subfield code="a">Korchagin, Danil</subfield>

</datafield>

<subfield code="a">high-definition video-conferencing</subfield>

</datafield>

<subfield code="a">multi-face tracking</subfield>

</datafield>

<subfield code="a">multi-modal database</subfield>

</datafield>

<subfield code="a">voice-activity detection</subfield>

</datafield>

<subfield code="i">EXTERNAL</subfield>

<subfield code="u">http://publications.idiap.ch/attachments/papers/2012/Duffner_IJCEE_2012.pdf</subfield>

<subfield code="x">PUBLIC</subfield>

</datafield>

<subfield code="p">International Journal of Computer and Electrical Engineering</subfield>

</datafield>

</datafield>

<subfield code="u">http://www.ijcee.org/</subfield>

</datafield>

<subfield code="a">This paper presents a new database containing high-definition audio and video recordings in a rather unconstrained video-conferencing-like environment. The database consists of recordings of people sitting around a table in two separate rooms communicating and playing online games with each other. Extensive annotation of head positions, voice activity and word transcription has been performed on the dataset, making it especially useful for evaluating automatic speech-recognition, voice activity detection, speaker localisation, multi-face detection and tracking, and other audio-visual analysis algorithms.</subfield>

</datafield>

</record>

</collection>