WORD EMBEDDING FOR UNKNOWN WORDS: ADDING NEW WORDS INTO BERT’S VOCABULARY EMBEDDING PARA PALAVRAS DESCONHECIDAS: ADICIONANDO PALAVRAS NOVAS AO VOCABULÁRIO DO MODELO BERT
| Dublin Core | Metadados para o PKP | Metadados do documento | |
| 1. | Título | Título do documento | WORD EMBEDDING FOR UNKNOWN WORDS: ADDING NEW WORDS INTO BERT’S VOCABULARY EMBEDDING PARA PALAVRAS DESCONHECIDAS: ADICIONANDO PALAVRAS NOVAS AO VOCABULÁRIO DO MODELO BERT |
| 2. | Autor | Nome do Autor, afiliação institucional, país | Daniel Maciel; Universidade Federal de Santa Catarina - UFSC; Brasil |
| 2. | Autor | Nome do Autor, afiliação institucional, país | Letícia Silveira Artese; Universidade Federal de Santa Catarina - UFSC; Brasil |
| 2. | Autor | Nome do Autor, afiliação institucional, país | Alexandre Leopoldo Gonçalves; Universidade Federal de Santa Catarina - UFSC; Brasil |
| 3. | Assunto | Área(s) do Conhecimento | programação; computação; mineração de texto; |
| 3. | Assunto | Palavras-chave(s) | NLP; word embedding; new word; rare word; OOV; PLN; embedding de palavra; palavra nova; palavra rara; OOV |
| 3. | Assunto | Classificação de assunto | processamento de linguagem natural; embedding de palavras |
| 4. | Descrição | Resumo | In natural language processing, dealing with the dynamics of languages, such as the arisen of new words, can be a challenge to models. In deep learning models, when a word is not presented in the training dataset, it is not known by the model and, therefore, considered out of vocabulary (OOV). Although many models manage to get around this barrier, sometimes it is necessary to learn the embedding of a new word. In this sense, a method is presented to obtain a dynamic contextual vector representation of a new word based in the BERT language model. To evaluate the method, we took the case of the arisen of the word 'voip' in scientific publications, obtaining an embedding close to 'telecommunications' and 'signalling', some of the main words with significance in relation to the context of the word of study, demonstrating that the proposed method offers an efficient way to obtain embeddings for new words.
No processamento de linguagem natural, lidar com a dinamicidade das línguas, como o surgimento de novas palavras, pode ser um desafio aos modelos. Visto que, em modelos de aprendizado profundo, quando uma palavra não é apresentada na etapa de treinamento ela não é conhecida pelo modelo e, portanto, considerada fora do vocabulário (OOV). Apesar de muitos modelos conseguirem contornar essa barreira, às vezes se faz necessário aprender o embedding de novas palavras. Neste sentido, apresenta-se um método para obtenção da representação vetorial contextual dinâmica de palavras novas a partir do modelo de linguagem BERT. Na avaliação do método, foi utilizado o caso do surgimento da palavra ‘voip’ em artigos científicos, obtendo um embedding próximo de ‘telecommunications’ e ‘signalling’, algumas das principais palavras com significância em relação ao contexto da palavra de estudo, demonstrando que o método proposto oferece uma maneira eficiente para obter embeddings para palavras novas. |
| 5. | Editora | Editora, localização | |
| 6. | Contribuidor | Patrocínio | CAPES |
| 7. | Data | (YYYY-MM-DD) | 2022-12-02 |
| 8. | Tipo | Situação & gênero | Documento avaliado pelos pares |
| 8. | Tipo | Tipo | |
| 9. | Formato | Formato do Documento | |
| 10. | Identificador | Identificador Universal Único (URI) | https://www.contecsi.tecsi.org/index.php/contecsi/19CONTECSI/paper/view/7035 |
| 11. | Fonte | Título da Revista/conferência; V. N. ano | CONTECSI USP - International Conference on Information Systems and Technology Management - ISSN 2448-1041; 19th CONTECSI - INTERNATIONAL CONFERENCE ON INFORMATION SYSTEMS AND TECHNOLOGY MANAGEMENT VIRTUAL |
| 12. | Idioma | Português=pt | pt |
| 13. | Relacionamento | Docs. Sups. | |
| 14. | Cobertura | Localização geográfica, cronológica, amostra (gênero, idade, etc.) | |
| 15. | Direitos | Direito autoral e permissões | Os autores que submetem trabalhos a esta conferência concordam com os seguintes termos: a) Os autores mantêm direitos autorais sobre seu trabalho, permitindo que a conferência coloque este trabalho inédito sob uma Licença de Atribuição Creative Commons, que permite que outras pessoas acessem, usem e compartilhem livremente o trabalho, com o reconhecimento da autoria da obra e sua apresentação inicial. nesta conferência. b) Os autores podem dispensar os termos da licença CC e firmar acordos contratuais adicionais e separados para a distribuição não exclusiva e posterior publicação deste trabalho (por exemplo, publicar uma versão revisada em um periódico, publicá-la em um repositório institucional ou publicá-lo em um livro), mediante a informação de reconhecimento de sua apresentação inicial nesta conferência. c) Além disso, os autores são encorajados a postar e compartilhar seu trabalho on-line (por exemplo, em repositórios institucionais ou em seu site) em qualquer ponto antes e depois da conferência, fazendo referencia à apresentação inicial nesta conferência. Authors who submit to this conference agree to the following terms: a) Authors retain copyright over their work, while allowing the conference to place this unpublished work under a Creative Commons Attribution License, which allows others to freely access, use, and share the work, with an acknowledgement of the work's authorship and its initial presentation at this conference. b) Authors are able to waive the terms of the CC license and enter into separate, additional contractual arrangements for the non-exclusive distribution and subsequent publication of this work (e.g., publish a revised version in a journal, post it to an institutional repository or publish it in a book), with an acknowledgement of its initial presentation at this conference. c) In addition, authors are encouraged to post and share their work online (e.g., in institutional repositories or on their website) at any point before and after the conference. |