CONF He_ICRA_2018/IDIAP Deep Neural Networks for Multiple Speaker Detection and Localization He, Weipeng Motlicek, Petr Odobez, Jean-Marc acoustic generators Artificial Neural Networks deep neural networks Delays Encoding Estimation human-robot interaction likelihood-based encoding microphone arrays Microphones multiple sound sources multiple speaker detection network output neural nets neural network-based sound source localization methods Robots simultaneous detection single sound source sound mixtures spatial spectrum-based approaches speaker recognition EXTERNAL http://publications.idiap.ch/attachments/papers/2019/He_ICRA_2018.pdf PUBLIC http://publications.idiap.ch/index.php/publications/showcite/He_Idiap-RR-02-2018 Related documents 2018 IEEE International Conference on Robotics and Automation (ICRA) Brisbane, AUSTRALIA 2018 74-79 1050-4729 978-1-5386-3081-5 10.1109/ICRA.2018.8461267 doi We propose to use neural networks for simultaneous detection and localization of multiple sound sources in human-robot interaction. In contrast to conventional signal processing techniques, neural network-based sound source localization methods require fewer strong assumptions about the environment. Previous neural network-based methods have been focusing on localizing a single sound source, which do not extend to multiple sources in terms of detection and localization. In this paper, we thus propose a likelihood-based encoding of the network output, which naturally allows the detection of an arbitrary number of sources. In addition, we investigate the use of sub-band cross-correlation information as features for better localization in sound mixtures, as well as three different network architectures based on different motivations. Experiments on real data recorded from a robot show that our proposed methods significantly outperform the popular spatial spectrum-based approaches. REPORT He_Idiap-RR-02-2018/IDIAP Deep Neural Networks for Multiple Speaker Detection and Localization He, Weipeng Motlicek, Petr Odobez, Jean-Marc EXTERNAL http://publications.idiap.ch/attachments/reports/2017/He_Idiap-RR-02-2018.pdf PUBLIC Idiap-RR-02-2018 2018 Idiap February 2018

</datafield>

<subfield code="a">He_ICRA_2018/IDIAP</subfield>

</datafield>

<subfield code="a">Deep Neural Networks for Multiple Speaker Detection and Localization</subfield>

</datafield>

<subfield code="a">He, Weipeng</subfield>

</datafield>

<subfield code="a">Motlicek, Petr</subfield>

</datafield>

<subfield code="a">Odobez, Jean-Marc</subfield>

</datafield>

<subfield code="a">acoustic generators</subfield>

</datafield>

<subfield code="a">Artificial Neural Networks</subfield>

</datafield>

<subfield code="a">deep neural networks</subfield>

</datafield>

<subfield code="a">Delays</subfield>

</datafield>

<subfield code="a">Encoding</subfield>

</datafield>

<subfield code="a">Estimation</subfield>

</datafield>

<subfield code="a">human-robot interaction</subfield>

</datafield>

<subfield code="a">likelihood-based encoding</subfield>

</datafield>

<subfield code="a">microphone arrays</subfield>

</datafield>

<subfield code="a">Microphones</subfield>

</datafield>

<subfield code="a">multiple sound sources</subfield>

</datafield>

<subfield code="a">multiple speaker detection</subfield>

</datafield>

<subfield code="a">network output</subfield>

</datafield>

<subfield code="a">neural nets</subfield>

</datafield>

<subfield code="a">neural network-based sound source localization methods</subfield>

</datafield>

<subfield code="a">Robots</subfield>

</datafield>

<subfield code="a">simultaneous detection</subfield>

</datafield>

<subfield code="a">single sound source</subfield>

</datafield>

<subfield code="a">sound mixtures</subfield>

</datafield>

<subfield code="a">spatial spectrum-based approaches</subfield>

</datafield>

<subfield code="a">speaker recognition</subfield>

</datafield>

<subfield code="i">EXTERNAL</subfield>

<subfield code="u">http://publications.idiap.ch/attachments/papers/2019/He_ICRA_2018.pdf</subfield>

<subfield code="x">PUBLIC</subfield>

</datafield>

<subfield code="u">http://publications.idiap.ch/index.php/publications/showcite/He_Idiap-RR-02-2018</subfield>

<subfield code="z">Related documents</subfield>

</datafield>

<subfield code="a">2018 IEEE International Conference on Robotics and Automation (ICRA)</subfield>

<subfield code="c">Brisbane, AUSTRALIA</subfield>

</datafield>

</datafield>

</datafield>

</datafield>

<subfield code="a">We propose to use neural networks for simultaneous detection and localization of multiple sound sources in human-robot interaction. In contrast to conventional signal processing techniques, neural network-based sound source localization methods require fewer strong assumptions about the environment. Previous neural network-based methods have been focusing on localizing a single sound source, which do not extend to multiple sources in terms of detection and localization. In this paper, we thus propose a likelihood-based encoding of the network output, which naturally allows the detection of an arbitrary number of sources. In addition, we investigate the use of sub-band cross-correlation information as features for better localization in sound mixtures, as well as three different network architectures based on different motivations. Experiments on real data recorded from a robot show that our proposed methods significantly outperform the popular spatial spectrum-based approaches.</subfield>

</datafield>

</record>

<subfield code="a">REPORT</subfield>

</datafield>

<subfield code="a">He_Idiap-RR-02-2018/IDIAP</subfield>

</datafield>

<subfield code="a">Deep Neural Networks for Multiple Speaker Detection and Localization</subfield>

</datafield>

<subfield code="a">He, Weipeng</subfield>

</datafield>

<subfield code="a">Motlicek, Petr</subfield>

</datafield>

<subfield code="a">Odobez, Jean-Marc</subfield>

</datafield>

<subfield code="i">EXTERNAL</subfield>

<subfield code="u">http://publications.idiap.ch/attachments/reports/2017/He_Idiap-RR-02-2018.pdf</subfield>

<subfield code="x">PUBLIC</subfield>

</datafield>

<subfield code="a">Idiap-RR-02-2018</subfield>

</datafield>

<subfield code="b">Idiap</subfield>

</datafield>

<subfield code="d">February 2018</subfield>

</datafield>

</record>

</collection>