词频统计与分析
2025/12/17
数学
第一次接触
统计学 + NLP方面的项目,记录整个项目的设计思路与具体实现方式(好吧,其实是代码要跑很久,刚好趁着这个时间写个 blog 出来)
1. 项目背景
现有 2011 年至 2024 年全国新能源企业的年报数据,共计 5w 多份
需要针对每份年报,统计以下数据以用于行业分析:
- 全文中 “人工智能” 相关关键词出现的频率
- 年报中 “管理层讨论” 部分 “人工智能” 相关关键词出现的频率
- 年报中出现的无形资产相关数据
本文主要针对前两项,即与 NLP 相关的部分
2. “人工智能”关键词的定义
(由于 blog 紧急更新一些内容,本文待更新)