Responsabilidade e segurança
- Publicado
- Autores
-
Equipe de fatos
Nossa referência abrangente e tabela de classificação on-line oferecem uma medida muito necessária de com que precisão os LLMs aterram suas respostas no material de origem fornecido e evite alucinações
Os grandes modelos de idiomas (LLMs) estão transformando como acessamos informações, mas o controle sobre a precisão factual permanece imperfeito. Eles podem “alucinar” informações falsas, principalmente quando recebem entradas complexas. Por sua vez, isso pode corroer a confiança no LLMS e limitar suas aplicações no mundo real.
Hoje, estamos apresentando Fatos de aterramentouma referência abrangente para avaliar a capacidade dos LLMs de gerar respostas que não são apenas factualmente precisas em relação às contribuições, mas também suficientemente detalhadas para fornecer respostas satisfatórias às consultas do usuário.
Esperamos que nossa referência estimule o progresso em todo o setor na factualidade e no fundamento. Para acompanhar o progresso, também estamos lançando o FACTS LIGADO RANECK ON KAGGLE. Já testamos os principais LLMs usando o aterramento de fatos e preenchemos a tabela de classificação inicial com suas pontuações de aterramento. Manteremos e atualizaremos a tabela de classificação à medida que o campo avança.
Classificação atual da tabela de classificação
Fatos de aterramento do conjunto de dados
Para avaliar com precisão a factualidade e o fundamento de qualquer LLM, os fatos de aterramento do conjunto de dados compreendem 1.719 exemplos, cada um cuidadosamente criado para exigir respostas de forma longa fundamentadas no documento de contexto fornecido. Cada exemplo compreende um documento, uma instrução do sistema que exige que o LLM faça referência exclusivamente ao documento fornecido e uma solicitação de usuário que o acompanha.
Um exemplo do conjunto de dados de aterramento de fatos
Todos os exemplos são divididos em um conjunto “público” (860) e um “privado” (859) estendeu o conjunto. Nós somos liberando o conjunto público Hoje para que qualquer pessoa possa usá -lo para avaliar um LLM. Obviamente, sabemos que questões de contaminação de referência e hackers da tabela de classificação são importantes para proteger, portanto, após a prática padrão da indústria, estamos mantendo o conjunto de avaliação privado. As pontuações da tabela de classificação FACTS são o desempenho médio nos conjuntos públicos e privados.
Para garantir uma diversidade de insumos, os exemplos de aterramento de fatos incluem documentos com uma variedade de comprimentos, até um máximo de 32.000 tokens (aproximadamente 20.000 palavras), cobrindo domínios como finanças, tecnologia, varejo, medicina e direito. As solicitações do usuário são igualmente amplas, incluindo solicitações de resumo, geração de perguntas e respostas e tarefas de reescrita. Não incluímos nenhum exemplo que possa exigir criatividade, matemática ou raciocínio complexo – recursos que possam exigir que o modelo aplique um raciocínio mais avançado, além do aterramento.
Julgamento coletivo do líder LLMS
Para ter sucesso em um determinado exemplo, um LLM deve sintetizar as informações complexas no documento e gerar uma resposta longa que é uma resposta abrangente para a solicitação do usuário e totalmente atribuível a esse documento.
O aterramento de fatos avalia as respostas do modelo automaticamente usando três juízes de Frontier LLM-a saber, Gemini 1.5 Pro, GPT-4O e Claude 3,5 sonetos. Selecionamos uma combinação de juízes diferentes para mitigar qualquer viés potencial de um juiz, dando pontuações mais altas às respostas produzidas por um membro de sua própria família modelo. Os modelos de juízes automáticos foram avaliados de forma abrangente em relação a um conjunto de testes de manutenção para encontrar os modelos de promotos de julgamento com melhor desempenho e verificar o acordo com os avaliadores humanos.
Cada exemplo de aterramento de fatos é julgado em duas fases. Primeiro, as respostas são avaliadas quanto à elegibilidade e desqualificadas se não abordarem suficientemente a solicitação do usuário. Segundo, as respostas são julgadas como factualmente precisas se estiverem totalmente fundamentadas nas informações contidas no documento fornecido, sem alucinações.
Com a elegibilidade e a precisão do aterramento de uma determinada resposta LLM avaliada separadamente por vários modelos de juiz de IA, os resultados são agregados para determinar se o LLM lidou com o exemplo com sucesso. A pontuação final para a tarefa geral de aterramento é a média das pontuações de todos os modelos de juízes em todos os exemplos. Encontre mais detalhes de nossos fatos Metodologia de avaliação de aterramento em nosso artigo.
Uma resposta factualmente correta que não aborda corretamente a solicitação do usuário falha no exemplo de benchmarking. Aqui vemos três instâncias de respostas do modelo que os juízes automatizados do LLM consideraram inelegíveis
Os fatos de aterramento continuarão a evoluir
Estamos conscientes de que os benchmarks podem ser rapidamente ultrapassados pelo progresso; portanto, esse lançamento de nossos fatos de referência e tabela de classificação é apenas o começo. A factualidade e o aterramento estão entre os principais fatores que moldarão o sucesso e a utilidade futuros dos LLMs e dos sistemas de IA mais amplos, e pretendemos crescer e iterar fatos fundamentados à medida que o campo avança, aumentando continuamente a fasquia.
Nós encorajamos a comunidade de IA a envolver -se com os fatos de aterramentoAvalie seus modelos no conjunto aberto de exemplos ou para enviar seus modelos para avaliação. Acreditamos que métodos abrangentes de benchmarking, juntamente com pesquisas e desenvolvimento contínuos continuarão a melhorar os sistemas de IA.
Agradecimentos
Os fatos são uma colaboração entre o Google DeepMind e o Google Research.
Os fatos foram liderados por: Alon Jacovi, Andrew Wang, Chris Alberti, Connie Tao, Dipanjan Das, Jon Lipovetz, Kate Olszewska, Lukas Haas, Michelle Liu e Nate Keating.
Também somos muito gratos por contribuições de: Adam Bloniarz, Carl Saroufim, Corey Fry, Dror Marcus, Doron Kukliansky, Gaurav Singh Tomar, James Swirhun, Jinwei Xing, Lily Wang, Madhu Gurumurthy, Michael Aaron, Moran Cachana, RUNIMER, RURUMINGER, RURUMOR, MACILA AARON, MORAN, Wang, Zizhao Zhang e Sasha Goldshtein.
Também gostaríamos de agradecer a Avinatan Hassidim, D. Sculley, Fernando Pereira, Koray Kavukcuoglu, Slav Petrov, Ya Xu e Yossi Matias por seu apoio contínuo.