Daniel Göttlich, Dominik Loibner, Guohui Jiang e Hans-Joachim Voth, pesquisadores da Universidade de Zurique e da Universidade de Colônia, estão desenvolvendo modelos de linguagem de larga escala focados em dados históricos. Esses modelos, que serão lançados em 14 de dezembro de 2025, são parte do projeto Ranke-4B, que visa criar uma coleção de modelos de linguagem com 4 bilhões de parâmetros, treinados a partir de 80 bilhões de tokens de dados históricos.
O projeto se destaca pela criação de modelos totalmente temporais, que não têm acesso a informações além de suas datas de corte de conhecimento, que incluem anos como 1913, 1929, 1933, 1939 e 1946. "Esses modelos agem como janelas para o passado, permitindo pesquisas nas ciências humanas e sociais", explicam os pesquisadores. A equipe também enfatiza a importância de não interferir nos julgamentos normativos adquiridos durante o treinamento dos modelos.
Os modelos de linguagem histórica, como o Ranke-4B-1913, têm a capacidade de fornecer respostas baseadas em contextos específicos de suas respectivas épocas. Por exemplo, o modelo de 1913 não possui conhecimento sobre Adolf Hitler ou a Primeira Guerra Mundial, pois essas informações não estavam disponíveis em seus dados de treinamento. Isso permite que os pesquisadores explorem o que era pensável e discutível naquele momento, o que é uma vantagem sobre modelos contemporâneos como o GPT-5, que estão sujeitos à contaminação retrospectiva.
Entretanto, os pesquisadores reconhecem que os modelos podem reproduzir visões problemáticas e preconceituosas presentes nos textos históricos, como racismo e misoginia. "Entender como essas visões foram articuladas e normalizadas é crucial para entender sua persistência", afirmam. Para garantir o uso responsável, a equipe está desenvolvendo um framework de acesso que permita que pesquisadores utilizem os modelos para fins acadêmicos, enquanto evita abusos.
Os responsáveis pelo projeto convidam a comunidade a contribuir, sugerindo períodos e regiões de interesse, questões relevantes a serem exploradas e formas de validar as saídas dos modelos com base em evidências históricas. Para mais informações ou sugestões, pode-se entrar em contato pelo e-mail history-llms@econ.uzh.ch.
Confira os últimos vídeos publicados no canal