一套LLM幻觉检测工具：uqlm，给了多种评测方式来检测AI输出幻觉，可以根据不同的场景选择合适的方法

一套LLM幻觉检测工具：uqlm，给了多种评测方式来检测AI输出幻觉，可以根据不同的场景选择合适的方法

1、黑盒评分器，通过多次生成并比较同一提示的回复来评估一致性。就反复问同一个问题，如果每次回答的核心意思不一致或差异很大，说明它可能在瞎编

2、白盒评分器，利用token概率估计不确定性。查看LLM对自己答案中每个部分的自信程度，如果它对某个词或句子很不确定，就说明这部分内容可能有问题

3、专家评审法 (LLM 作为评委评分器)，使用一个或多个 LLM评估原始LLM回复的可靠性，就是找其他LLM来评判答案的可靠性

4、综合评估法 (集成评分器)，结合以上几种方法进行综合评估