私は 会話のインターフェースとしてのキャラクター作りにめちゃめちゃ 力を入れてるので、キャラクターが揃わないと そもそも システムを使う 気にならないっていうのがあって、それ故に システムに割く時間がかなり減ってしまっている問題
人間のセリフをやめて 全部地の分に変換してしまえばいいのではとかそういうのも、ちょいちょい検証はしている
Chocolate LM Liteのv3にそのための機能を色々追加してる途中だったんだけど、いまいちまとまらなくて止まっている
実際人間だって 直近でも20ターンも覚えてないし、1時間も経ってば会話の内容なんて 概念 レベルまで忘れてるわけで、そういう作りにしなきゃいけないんだろうなっていう想いだけはある
人間は言語を扱う 領域に関しては llm と割 と似てるらしいんだけど、どうもそこで 思考してるわけではないらしいというのが報告されてた気がする。
多分 言語モデルのベースの訓練の仕組みを考えると、長ーい会話履歴は本来の訓練の範疇から外れてくるはずなんですよね。 まあ長時間 タスクの訓練はどんどん行われているので 考慮されてないわけではないんだけど、本来性能が高い領域からは外れてるはずなので、性能がどんどん下がっていくはず...
おそらく 本当は会話をしてはいけないんだろう。 ユーザーから見た体験は会話でいいんだけど、言語モデル的には常に ワンショットの出力になるような仕組み作りをしてあげればこういうのは 多分 減るだろうと思う。 というのも 直前までの会話の履歴を真似してしまった結果がこういう 挙動 なので。
普段ものすごく賢いのに、あらゆる面で ごくごく稀に 確率的な文字列生成器なんだな っていう顔が出てくることはやっぱりある
言語モデルは便宜上 強化学習で訓練されて ユーザーの発言 とアシスタントの発言を区別するけど、実際のところ それはトークン 列でしかないので、追加訓練された そのトークン列を自分で生成してしまうと、その後の処理ではマジで 自分でも区別がつかないっていう状態になるようだ。
LLMを使う 以上絶対に起きうることなんだろうなくらいの感覚でいた方が良いような気がする。 なので 本来はこういうのを防ぐための仕組みを何か作んなきゃいけないんだろうな。