大規模言語モデルのトレーニングには大規模なデータセットが必要ですが、データセットに偏りがあると出力結果や動作にもバイアスが生じます。これを逆手に取り、あえて1800~1875年という限られた年代のデータセットのみを用いてトレーニングされた大規模言語モデルが「TimeCapsule LLM」です。 GitHub - haykgrigo3/TimeCapsuleLLM: A LLM trained only on data from certain time periods to reduce modern bias https://github.com/haykgrigo3/TimeCapsuleLLM TimeCapsule LLMは現代に存在するさまざまなバイアスや価値観を排除し、当時の論調や語彙(ごい)、世界観を模倣することを目的として、あえて1800~1875年のデータセットのみを用

