Três novos módulos de uso multilíngue estão chegando ao TensorFlow

Tecnologia / Três novos módulos de uso multilíngue estão chegando ao TensorFlow 2 minutos lidos

Pesquisa por voz do Google



O Google é um dos pioneiros da pesquisa de IA e uma infinidade de seus projetos viraram cabeças. AlphaZero do Google DeepMind equipe foi um avanço na pesquisa de IA, devido à capacidade do programa de aprender jogos complicados por si só (sem treinamento e intervenção humana). O Google também fez um excelente trabalho em Programas de processamento de linguagem natural (PNL), que é uma das razões por trás da eficiência do Google Assistente em compreender e processar a fala humana.

O Google anunciou recentemente o lançamento de três novos USE módulos multilíngues e fornecer modelos mais multilíngues para recuperar texto semanticamente semelhante.



Os dois primeiros módulos fornecem modelos multilíngues para recuperar texto semanticamente semelhante, um otimizado para desempenho de recuperação e outro para velocidade e menos uso de memória. O terceiro modelo é especializado para recuperação pergunta-resposta em dezesseis idiomas (USE-QA) e representa um aplicativo totalmente novo de USE. Todos os três módulos multilíngues são treinados usando um estrutura de codificador duplo multi-tarefa , semelhante ao modelo USE original para o inglês, enquanto usa técnicas que desenvolvemos para melhorar o codificador duplo com abordagem softmax de margem aditiva . Eles são projetados não apenas para manter um bom desempenho de aprendizagem por transferência, mas para executar bem tarefas de recuperação semântica.



O processamento da linguagem em sistemas já percorreu um longo caminho, desde a análise de árvore de sintaxe básica até modelos de associação de grandes vetores. Entender o contexto no texto é um dos maiores problemas no campo da PNL e o Universal Frase Encoder resolve isso convertendo o texto em vetores de alta dimensão, o que torna a classificação e denotação do texto mais fácil.



Fonte da estrutura de marcação UTE - Google Blog

De acordo com o Google, “ Os três novos módulos são todos construídos na arquitetura de recuperação semântica, que normalmente divide a codificação de perguntas e respostas em redes neurais separadas, o que torna possível pesquisar entre bilhões de respostas potenciais em milissegundos. ”Em outras palavras, isso ajuda na melhor indexação dos dados.

' Todos os três módulos multilíngues são treinados usando um estrutura de codificador duplo multi-tarefa , semelhante ao modelo USE original para o inglês, enquanto usa técnicas que desenvolvemos para melhorar o codificador duplo com abordagem softmax de margem aditiva . Eles são projetados não apenas para manter um bom desempenho de aprendizagem por transferência, mas para executar bem tarefas de recuperação semântica . ” A função Softmax é freqüentemente usada para economizar poder computacional exponenciando vetores e então dividindo cada elemento pela soma do exponencial.



Arquitetura de recuperação semântica

“Os três novos módulos são todos construídos em arquiteturas de recuperação semântica, que normalmente dividem a codificação de perguntas e respostas em redes neurais separadas, o que torna possível pesquisar entre bilhões de respostas potenciais em milissegundos. A chave para usar codificadores duplos para recuperação semântica eficiente é pré-codificar todas as respostas candidatas às consultas de entrada esperadas e armazená-las em um banco de dados de vetores otimizado para resolver o problema do vizinho mais próximo , o que permite que um grande número de candidatos seja pesquisado rapidamente com boas precisão e recall . '

Você pode baixar esses módulos do TensorFlow Hub. Para obter mais informações, consulte a versão completa do GoogleAI postagem do blog .

Tag Google