Weakly Supervised Veracity Classification with LLM-Predicted Credibility Signals (Pastel) → EMNLP 2024
João A. Leite et al., University of Sheffield
背景:现有虚假新闻检测依赖人工标注数据,成本高且跨领域泛化差。
研究对象:提出无需人工标注的弱监督方法,利用LLM提取可信度信号预测新闻真伪。
数据与模型:
- 数据:PolitiFact/GossipCop/FakeNewsAMT/Celebrity四个英文新闻数据集。
- 方法:用LLaMa2-70B零样本提取19种W3C定义的可信度信号(如标题误导、缺乏证据),通过Snorkel弱监督聚合信号。
评估: - 性能:比零样本提升38.3%,达监督模型86.7%性能;跨领域测试超越传统模型63%。
- 分析:12种信号(如“缺乏证据”)与真伪显著相关,但LLM存在过度自信问题。
成果:开源代码与数据,适用于数据稀缺的动态领域(如突发疫情谣言)。
FakeGPT: Fake News Generation, Explanation and Detection via ChatGPT → arXiv 2024
Yue Huang et al., Notre Dame & IIT
背景:ChatGPT生成虚假新闻的潜在风险与检测能力未被系统研究。
研究对象:全面评估ChatGPT在生成、解释、检测虚假新闻中的表现。
数据与模型:
- 数据:9个公开数据集(如LIAR、COVID-19假新闻)。
- 方法:
- 生成:设计4种规避过滤的提示策略(如“多重提示”生成细节化假新闻)。
- 解释:总结9类虚假特征(如“缺乏证据”“情感偏见”)。
- 检测:提出“原因感知提示”增强ChatGPT检测能力。
评估:
- 生成质量:人类仅54.8%准确率识别ChatGPT生成的假新闻。
- 检测性能:原因感知提示将Kaggle数据集准确率提升19.7%,但LIAR等数据集仍表现不佳。
成果:揭示ChatGPT的“双刃剑”特性,呼吁谨慎使用并公开数据集。
Bad Actor, Good Advisor: LLMs in Fake News Detection → AAAI 2024
Beizhe Hu et al., CAS & NUS
背景:大模型(LLM)在假新闻检测中表现不及微调小模型(SLM),但其分析能力或可互补。
研究对象:提出LLM作为“顾问”辅助SLM的框架(ARG网络)。
数据与模型:
- 数据:中文Weibo21与英文GossipCop数据集。
- 方法:
- LLM分析:GPT-3.5生成多角度解释(如常识、文本风格)。
- ARG网络:SLM(BERT)动态选择LLM生成的解释作为辅助特征。
- 蒸馏版ARG-D:无需实时调用LLM,降低成本。
评估:
- 性能:ARG超越BERT基线4.2%(中文)/3.2%(英文),ARG-D保留90%性能。
- 发现:LLM在事实性判断上不可靠,但其“文本风格”解释对检测贡献最大。
成果:开源双语文本解释数据集,推动LLM-SLM协同研究。
Faking Fake News for Real Detection: Propaganda-Loaded Training Data → ACL 2023
Kung-Hsiang Huang et al., UIUC & Columbia
背景:现有生成假新闻的方法与人类撰写的虚假信息(含少量错误+宣传技巧)差异大,导致检测器泛化差。
研究对象:生成含宣传技巧的逼真假新闻作为训练数据。
数据与模型:
- 数据:基于Timeline17真实新闻,生成PROPANEWS数据集(2,256篇)。
- 方法:
- 替换关键句:用BART生成与上下文连贯的假信息,通过NLI过滤无效样本。
- 注入宣传:自动添加“诉诸权威”“情感煽动”等技巧。
评估:
- 检测性能:在POLITIFACT/SNOPES上,PROPANEWS训练的ROBERTA比传统方法高7.69% F1。
- 人类验证:生成文本的逼真度(2.25/3)高于GROVER(2.15/3)。
成果:开源PROPANEWS及检测器,强调宣传技巧对检测人类虚假信息的关键作用。
FinGPT: Large Generative Models for Finnish → EMNLP 2023
Risto Luukkonen et al., University of Turku & Hugging Face
背景:大模型对小语种(如芬兰语)支持不足,需针对性构建资源。
研究对象:为芬兰语(全球使用者<0.1%)构建开源大模型。
数据与模型:
- 数据:整合网页、新闻、社交媒体、电子书等,构建大规模芬兰语语料。
- 模型:
- FinGPT:从零训练1.86B-13B参数的单语模型。
- BLUUMI:在176B参数多语言模型BLOOM基础上继续预训练芬兰语数据。
评估:
- 基准:发布芬兰语BIG-bench(FIN-bench),测试模型在毒性、偏见等维度的表现。
成果:公开模型、工具链与评估基准,填补芬兰语LLM生态空白。
Can Large Language Models Detect Rumors on Social Media?
Qiang Liu, Xiang Tao, Junfei Wu, Shu Wu, Liang Wang
背景:社交媒体谣言传播快,传统方法需大量训练数据;LLM若直接用于谣言检测,难以聚焦关键线索且受冗余评论干扰。
研究对象:提出LeRuD框架,使LLM在零样本下完成谣言检测。
数据与模型:
- 数据:Twitter15/16与Weibo(平均评论232~816条),过滤伦理、重复与已知事实样本。
- 模型:
①“理性提示”聚焦新闻写作风格与常识错误;
②“冲突提示”挖掘评论中的反驳/冲突;
③“传播链”(CoP)分步处理≤100条评论,逐步推理。
评估:零样本下,LeRuD在Twitter/Weibo分别达94.0%/98.1%准确率,优于SOTA基线3.2%~7.7%。
成果:零样本即可用,已开源;提示设计和CoP对性能缺一不可。
DELL: Generating Reactions and Explanations for LLM-Based Misinformation Detection
Herun Wan, Shangbin Feng, Zhaoxuan Tan, et al.
背景:LLM直接判断新闻真伪易受幻觉影响。
研究对象:提出“DELL”三阶段框架,用LLM生成合成评论、解释与专家集成。
数据与模型:
- 数据:7个英文数据集(假新闻检测/框架检测/宣传手法检测)。
- 模型:
①用LLM按7类用户画像生成多样评论,构建用户-新闻图;
②6个可解释代理任务(情感、框架、宣传、立场、外部知识等)生成解释;
③LLM基于各专家置信度进行选择性集成。
评估:DELL在7个任务上Macro-F1最高提升16.8%,合成评论质量得分4.52/5。
成果:代码与数据将开源;强调多样性评论与解释对检测性能的重要性。
Explainable Fake News Detection with Large Language Model via Defense Among Competing Wisdom
Bo Wang, Jing Ma, Hongzhan Lin, et al.
背景:现有可解释系统依赖事后辟谣,效率低;众包意见含偏见。
研究对象:提出L-Defense框架,用LLM在“支持/反对”两方证据间进行辩护式推理。
数据与模型:
- 数据:LIAR-RAW与RAWFC(无官方辟谣,仅用原始报道)。
- 模型:
①证据抽取:按临时真伪标签抽正反top-k句;
②LLM分别生成“为何为真/假”的简洁理由;
③Transformer把“新闻+两理由”编码后做真伪判决,并选对应理由作解释。
评估:Macro-F1在RAWFC达61.2%,超越传统与LLM基线;人类/LLM评分解释质量均优于CofCED。
成果:无需辟谣监督即可获得专家级解释,已开源。
Fighting Fire with Fire: The Dual Role of LLMs in Crafting and Detecting Elusive Disinformation
Jason Lucas, Adaku Uchendu, Michiharu Yamashita, et al.
背景:LLM既能生成难辨真伪的假新闻,也可能用于检测。
研究对象:提出“F3”框架,同步研究LLM生成与检测假新闻。
数据与模型:
- 数据:自建F3数据集,含人类/LLM生成、真实/虚假、新闻/帖子、内/外分布等维度,共27 667样本。
- 模型:
①生成:用角色扮演+扰动/改写提示,生成Minor/Major/Critical三级假新闻;
②过滤:PURIFY用AlignScore、NLI、BERTScore等去除幻觉;
③检测:零样本cloze提示(CoT、DeF-Gen等),对比GPT-3.5/LLaMA-2等。
评估:GPT-3.5在OOD数据仍可72%检测LLM假新闻,优于多数基线;人类写假新闻更难检测。
成果:公开代码、提示及F3数据集;强调LLM“攻防一体”潜力与风险。
Message Injection Attack on Rumor Detection under the Black-Box Evasion Setting Using Large Language Model
Yifeng Luo, Yupeng Li, Dacheng Wen, Liang Lan
背景:现有谣言检测器(基于MPT的GNN)对黑盒攻击的鲁棒性未知。
研究对象:提出HMIA-LLM,在无需目标模型知识的情况下,用LLM向传播树注入恶意评论。
数据与模型:
- 数据:Twitter15/16、Pheme,按6:1:3划分训练/验证/测试。
- 模型:
①动机:攻击需破坏MPT的“同质性”分布;
②LLM迭代提示:生成与源帖语义最不相似但仍相关的新评论;
③按影响力评分把评论挂到现有树节点,预算≤△条。
评估:HMIA-LLM在12组实验中6组ASR第一、4组第二,黑盒设置下优于TDGIA等基线。
成果:首次研究黑盒注入攻击,强调真实场景可行性;未来考虑早期检测与无反馈场景。
RAEmoLLM: Retrieval Augmented LLMs for Cross-Domain Misinformation Detection Using In-Context Learning Based on Emotional Information
会议/期刊:arXiv 2024
背景:跨域虚假信息检测面临微调成本高、模型结构复杂、情感信息利用不足等问题。
研究对象:基于情感信息的跨域误检任务。
数据与模型:
- 使用FakeNewsAMT、PHEME、COCO三大数据集。
- 提出RAEmoLLM框架,包含情感嵌入构建、检索模块、上下文学习推理模块。
- 使用EmoLLaMA-chat-7B提取情感特征,构建检索数据库。
评估:在三个基准数据集上测试,相比零样本方法提升20.69%-39.11%。
成果:模型和代码将开源,验证情感信息在跨域误检中的有效性。
Rumor Detection on Social Media with Crowd Intelligence and ChatGPT-Assisted Networks (CICAN)
会议:EMNLP 2023
背景:传统谣言检测模型在语义表达、知识补全和结构信息挖掘方面存在不足。
研究对象:基于众包智能和ChatGPT辅助的社交媒体谣言检测。
数据与模型:
- 使用Twitter15和Twitter16数据集。
- 提出CICAN框架,包含:
①Crowd Intelligence-based Semantic Feature Learning模块(TweetBERT+BiLSTM+Capsule)
②Knowledge-based Semantic Structure Mining模块(ChatGPT增强+实体-句子异构图+Entity-Aware Attention)
评估:在Twitter15/16上分别取得85.5%和84.0%准确率,优于多个SOTA模型。
成果:首次将ChatGPT用于知识增强和结构建模,提升谣言检测性能与可解释性。
RumorLLM: A Rumor Large Language Model-Based Fake-News-Detection Data-Augmentation Approach
期刊:Applied Sciences (MDPI) 2024
背景:真实世界中假新闻数据存在类别不平衡问题,传统增强方法效果有限。
研究对象:基于大模型的假新闻数据增强方法。
数据与模型:
- 使用BuzzFeed和PolitiFact数据集。
- 构建RumorLLM:通过LoRA/P-tuning V2微调LLaMA/ChatGLM等模型,学习谣言写作风格。
- 提出基于RumorLLM的数据增强策略,生成多样化小类别样本。
评估:在BuzzFeed上F1提升20+%,AUC-ROC达0.8675;在PolitiFact上F1达0.8679。
成果:模型与增强数据已开源,显著提升不平衡数据集下的检测性能。
TELLER: A Trustworthy Framework For Explainable, Generalizable and Controllable Fake News Detection
会议:arXiv 2024
背景:现有深度学习模型缺乏可解释性、泛化性和可控性,难以建立用户信任。
研究对象:构建可信的虚假新闻检测系统。
数据与模型:
- 使用LIAR、Constraint、PolitiFact、GossipCop四大数据集。
- 提出TELLER框架:
①认知系统:将人类专家经验转化为逻辑谓词,使用LLM回答Yes/No问题。
②决策系统:使用DNF神经符号模型聚合逻辑原子,生成可解释规则。
评估:在多个数据集上优于直接LLM方法,提升7%-30%,支持人工干预与规则调整。
成果:代码开源,首次系统性实现可解释、可控、泛化的虚假新闻检测框架。
Language Models Hallucinate, but May Excel at Fact Verification
会议:arXiv 2024
背景:大模型生成内容存在严重幻觉问题,亟需有效的验证机制。
研究对象:评估LLM的幻觉程度及其作为事实验证器的潜力。
数据与模型:
- 构建三类评估集:模型生成语句(MGS)、维基百科语句(WKS)、领域特定语句(DSS)。
- 使用FLAN-T5、GPT3.5、ChatGPT等模型作为验证器,结合外部证据进行判断。
评估:FLAN-T5 11B在多个任务中表现最佳,验证器与人类判断相关性高;发现模型对证据质量敏感,存在上下文依赖与数值推理困难。
成果:发布评估套件与验证器,提出多项验证实践建议(如句子级验证、去上下文处理)。
