Computadores do futuro farão leitura labial

Quem assistiu 2001 – Uma Odisséia no Espaço, deve se lembrar da cena que o HAL faz leitura labial em membros da equipe da nave e descobre que pretendem desligá-lo. Ou seja, faz tempo que existe o interesse de criar uma inteligência artificial capaz de ler lábios, tal como os surdos oralizados fazem para se comunicar.

“Acho que ele não consegue nos ouvir.”

Vilões cibernéticos à parte, fiquei sabendo que existe uma equipe de pesquisadores na Universidade de Oxford (UK) que, em parceria com o departamento de inteligência artificial do Google estão desenvolvimento um sistema capaz de ler lábios. Segundo eles, melhor que profissionais de leitura labial.

Todo o trabalho, até o momento, está sendo feito com o apoio da Rede BBC, que fornece os vídeos para leitura labial junto com a legenda do que está sendo dito, para ensinar a inteligência artificial a compreender a leitura labial.

Pesquisas apontam que, até o momento, o sistema é capaz de reconhecer aproximadamente 50% das palavras que estão sendo faladas, em comparação a um acerto de apenas 12% dos profissionais humanos. (resta saber se são surdos oralizados, porque eu aposto que alguns amigos meus acertariam bem mais que 12%, mas estamos falando de ler lábios em inglês e meus amigos leem em português, que é um idioma muito mais labial que a língua inglesa).

Assim como a leitura labial tradicional, a dificuldade principal se deve ao fato que alguns fonemas são absolutamente idênticos no movimento labial “mato”, “pato” e “bato” soam iguais, portanto, muita coisa é deduzida pelo contexto da mensagem. E o sistema que estão desenvolvimento segue essa mesma premissa.

Como todo o trabalho de pesquisa é feito em cima de clips de programas de notícias tais como telejornais matinais, noturnos e quadros de previsão do tempo, o sistema já tem mais de 17.500 palavras armazenadas no vocabulário, mas uma parte considerável das palavras são compostas de jargão de jornalistas de televisão, bem diferente das palavras usadas na linguagem coloquial do dia-a-dia. (Pausa para comentar que eu senti uma forte identificação com o sistema aí, porque eu sempre fui criticada por ter uma linguagem “esnobe” já que eu sempre li muito e ouvi muito pouca fofoca e acabava usando palavras difíceis em vez de falar tudo a base de gírias como é comum quando se é jovem).

O sistema ainda tem limitações, pois só funciona com programas gravados, mas as associações de Pessoas com Deficiência Auditiva ficaram empolgadas com os avanços, porque pode ajudar na produção de legendas automáticas para programas de TV.

Ainda que haja muito a ser desenvolvido para esse sistema ficar perfeito, os pesquisadores já conseguem prever muitos usos interessantes para ele. Por exemplo, ajudar os smartphones a entender coisas ditadas mesmo em ambientes barulhentos ou até dublar filmes mudos.

Ainda assim, falam que os profissionais de leitura labial (coisa que aqui no Brasil nem tem, vamos combinar) não precisam se preocupar de perder o emprego, porque a tecnologia vem para auxiliar e não para substituir o trabalho humano. Será?

Beijnhos sonoros

Lak

fonte: BBC News

2 palpites

  1. 2001 foi um filme premonitório.
    Não me lembrava dessa cena.
    Mas, só muito depois, revendo o filme, me dei conta da realidade virtual, quando no espaço, o protagonista está num ambiente irreal…

  2. Então é isso rsrs já estão tentando tradução com as falas…Mas, 50% com palavras nada a ver…Sem sentido kk como eu escuto, aí já dou aquela gargalhada, putz tá explicado agora hohoho