WordStat是一种灵活且易于使用的文本分析软件–无论您是需要文本挖掘工具来快速提取主题和趋势,还是需要使用更新的定量内容分析工具进行仔细而精确的测量。任何需要快速从大量文档中提取和分析信息的人都可以使用WordStat。我们的内容分析和文本挖掘软件可用于许多应用程序,例如开放式响应分析,商业智能,新闻报道的内容分析,欺诈检测等。
在 WordStat 2022 中,我们实施了一个新的多线程因素分析例程,比以前的版本快 65 倍。这意味着现在可以在不到一分钟的时间内解决需要一个小时计算的大型问题。我们还能够将因素分析容量增加到 10,000 个单词(之前版本为 3,000 个)。
我们自己的研究工作表明,与依赖 LDA 和神经网络技术的主题建模技术相比,使用因子分析的主题建模产生的主题解决方案更加连贯和多样化(Peladeau & Davoodi,2018 年;Peladeau,2022 年)。它还具有稳定性的额外好处,每次都会产生相同的结果。然而,它的主要不便一直是它的速度和容量。这使我们在 WordStat 8 中实现了一个使用非负矩阵分解(或 NMF)的特殊主题提取例程。这种技术可以更快地产生结果,这些结果与使用因子分析获得的结果非常相似。然而,它的概率实现会导致每次运行的结果略有不同,这让一些研究人员感到有些不安。重要的是要注意,计算机科学中几乎所有其他流行的主题建模技术产生的主题解决方案甚至比我们自定义的 NMF 实现更不稳定。那些寻求最佳和稳定的主题解决方案的人可能会喜欢新的因素分析主题建模例程的速度和容量大大提高。
WordStat 早期版本中的“建议”面板显示同义词库可用的语言的同义词、反义词和相关词。它还提供了以相同首字母开头的单词,使人们能够识别一些拼写错误以及相关的单词。一个新的关联词部分现在从文本语料库中检索与频率表中所选词在语义、句法和统计上相关的其他词。这个新功能应该适用于任何语言。默认情况下,条目将按相关性降序排列。同义词、反义词和相关词也会按照相关性降序排列,便于识别合适的建议。人们仍然能够按字母顺序或频率降序对这些条目进行排序。此外,一个新的频率过滤选项可以让人们过滤掉低频建议,让人们专注于更频繁的建议。
由于这种提取相关词和排序建议的新方法与语言无关,因此对于分析没有词库的语言的人来说尤其有用。然而,我们发现,即使有这样的语言资源,基于单词上下文使用的额外建议,以及根据相关性对现有同义词和相关单词进行排序,也应该极大地促进适当项目的识别。
重叠面板已替换为建议面板,除了重叠短语外,还显示与短语频率表中所选行在语义、句法或统计上相关的短语。此功能也与语言无关。
命名实体识别页面中添加了一个新的相关面板。选择单个命名实体将带来相关的命名实体,以及属于同一类(人、地点、组织等)的命名实体。选择一个特定类别的多个示例(例如,多个城市)也将检索属于该类别的更多项目。上下文菜单还允许将任何项目移动到分类词典或排除列表中。还可以对选定的建议执行上下文中的关键字搜索。
在评估分类词典中的词或候选词时,通常需要查看在目标词或短语出现的上下文中是否存在其他关键字。一种新的突出显示功能允许人们指定要在单词的周围上下文中查找的单词和短语列表。当从主题建模或树状图中调用 KWIC 列表时,或者在评估包含多个条目的内容类别中的项目时,会自动填充此列表。
超过几百个项目的对应图可能会在图的中心(原点)创建一大堆重叠的项目。添加了一个新的滑块控件以隐藏不太频繁或接近此原点的项目。除非有人想确定一个自变量的所有类的共同点,否则最有趣的项目是那些远离原点的项目,因为它们是不同类的特征。过滤掉这些项目可以让人们更容易地识别不同的项目。
关键字搜索的结果现在按相关性降序排列,同时考虑匹配项的频率和种类与检索到的文本段的长度的关系。新的频率列也可用于仅按频率排序。
一种新的数据转换命令允许人们通过连接几个现有变量(数字、字符串、日期等)的值以及键入的文本来计算字符串变量。这样的过程也可用于用常量字符串值初始化字符串变量。
这些比较图表的图表类型和统计数据以及调色板现在链接到变量名称并存储在项目设置中。这些选项应该跨页面(频率、短语、主题建模、树状图等)和会话之间保持不变,从而减少不断重新调整这些选项的需要。
1、从许多来源导入,WordStat允许您从许多来源直接导入多语言内容:
(1)导入文档: Word,PDF,HTML,PowerPoint,RTF,TXT,XPS,ePUB,ODT,WordPerfect。
(2)导入数据文件: Excel,CSV,TSV,Access
(3)从统计软件导入: Stata,SPSS
(4)从社交媒体导入: Facebook,Twitter,Reddit,YouTube,RSS
(5)从电子邮件导入: Outlook,Gmail,MBox
(6)从网络调查中导入: Qualtrics,SurveyMonkey,SurveyGizmo,QuestionPro,Voxco,Triple-S
(7)从参考管理工具中导入: Endnote,Mendeley,Zotero,RIS
(8)导入图形: BMP,WMF,JPG,GIF,PNG。自动提取与这些图像相关的任何信息,例如地理位置,标题,描述,作者,评论等,并将其转换为变量
(9)从XML数据库导入
(10)ODBC数据库连接可用。
(11)从定性软件导入项目: NVivo,Atlas.ti,Qdpx文件
(12)导入和分析多语言文档,包括从右到左的语言
(13)监视特定的文件夹,并自动导入存储在此文件夹中的所有文档和图像,或监视对原始源文件或联机服务的更改。
2、整理数据
(1)多种功能使您可以通过使分析过程简单明了的方式轻松组织数据:
(2)快速分组,标记,排序,添加,删除文档或查找重复项。
(3)使用“文档转换向导”手动或自动将变量分配给您的文档,即:日期,作者或人口统计数据,例如年龄,性别或位置。
(4)轻松地对变量进行重新排序,添加,删除,编辑和重新编码。
(5)根据变量值过滤大小写。
3、使用资源管理器模式快速提取含义
(1)使用资源管理器模式可以快速,轻松地从大量文本数据中提取含义,这是专门为那些文本挖掘经验很少的人设计的。
(2)使用主题建模工具,找出最常用的单词,短语并提取文档中最重要的主题。在任何时候,您都可以切换到专家模式,从而可以使用所有WordStat的功能。
4、使用文本挖掘浏览文档内容
(1)在几秒钟内,探索大量非结构化数据的内容并提取有见地的信息:
(2)提取最常用的单词,短语,表达方式。
(3)在单词或短语上使用聚类或2D和3D多维缩放快速提取主题。
(4)使用邻近图轻松识别与目标关键字同时出现的所有关键字。
(5)使用链接分析功能探索单词或概念之间的关系。
(6)通过应用关键字同时出现条件(在一个案例中,一个句子,一个段落,一个n个单词的窗口,一个用户定义的片段)以及聚类方法(一阶和二阶接近度,选择)来微调分析相似性指标)。 使用分层聚类,多维缩放,链接分析和邻近图来探索概念或文档之间的相似性。
7、使用主题建模来提取最突出的主题
(1)通过将自然语言处理和统计分析(NNMF或因子分析)结合使用,不仅对单词而且对短语,都可以使用最新的自动主题提取功能,从大型文本集中快速浏览最重要的主题和相关单词(包括拼写错误)。
(2)在层次聚类分析中,一个单词可能仅出现在一个聚类中,主题建模可能导致一个单词与多个主题相关联,这一特征更现实地表示了某些单词的多义性以及该单词的多个上下文单词用法。
8、探索联系
(1)使用网络图探索单词或概念之间的联系。使用三种布局类型检测共现的基础模式和结构:多维缩放,基于力的图形和圆形布局。
(2)图是交互式的,可用于探索关系并检索与特定连接关联的文本段。
9、使文本与结构化数据相关
(1)探索非结构化文本与结构化数据之间的关系:
(2)识别时间趋势,子组之间的差异,或使用统计和图形工具(偏差表,对应分析,热图,气泡图等)评估与等级或其他类别或数字数据的关系。
(3)使用不同的关联度量来评估单词出现与名义或有序变量之间的关系:卡方,似然比,Tau-a,Tau-b,Tau-c,对称Somers\'D,非对称Somers\'Dxy和Dyx,Gamma,Person\'s R,斯皮尔曼的Rho。
10、使用字典对文本数据进行分类
(1)使用现有词典实现全文分析自动化,或者创建您自己的单词和短语分类模型。
(2)在字典中,可以实现布尔(AND,OR,NOT)和接近度规则(NEAR,AFTER,BEFORE)并使用正则表达式公式快速从文本数据中提取特定信息。
(3)字典调节的词法修饰和词干支持多种语言,并且自动单词替换选项使您可以用目标关键字替换多个单词。用户定义的停用词列表可用多种语言提供,以避免不必要的常用词(例如他,她,它等)在分析中使用。
11、获得独特的词典构建帮助
通过提取常用短语和技术术语以及在文本集合中快速识别拼写错误和相关单词(同义词,反义词,全名,同义词,上位词,下位词)的工具,获得真正独特的计算机协助,以建立分类标准。
12、使用机器学习自动对文本数据进行分类
(1)使用朴素贝叶斯和K-Nearest邻居开发和优化自动文档分类模型。用户可以选择多种验证方法:留一法,n折交叉验证,分割样本。实验模块可用于轻松比较预测模型和精细分类模型。
(2)分类模型可以保存到磁盘中,并稍后在QDA Miner中的独立文档分类实用程序,命令行程序或编程库中应用
13、一键返回原始文档
(1)通过使用关键字检索或上下文中的关键字来检索句子,段落或整个文档,从几乎所有功能,图表或图形中返回文本,从而验证或深入分析。这在建立分类法或消除词义歧义时特别有用。
(2)检索到的文本段可以按关键字或任何自变量排序。您可以将QDA Miner代码附加到检索到的段上,或以表格格式(Excel,CSV等)或文本报告(MS Word,RTF等)将其导出到磁盘。
14、执行定性编码
将WordStat与最新的定性编码工具(QDA Miner)结合使用,以便在需要时更精确地浏览数据或对特定文档或提取的文本段进行更深入的分析。
15、将非结构化文本转换为交互式地图(GIS映射)
将非结构化文本数据与地理信息相关联,并创建数据点,主题地图和热图的交互式图表,以及用于将位置名称,邮政编码和IP地址转换为纬度和经度的地理编码Web服务。
16、自动提取名称和拼写错误
自动提取命名实体(名称,技术术语,产品和公司名称),可以使用简单的拖放操作将其添加到分类字典中。
拼写错误和未知单词会自动提取出来,并与用户词典中的现有条目匹配,并且可以迅速添加到词典中。
17、汇出结果
将文本分析结果导出为常见的行业文件格式(例如Excel,SPSS,ASCII,HTML,XML,MS Word),流行的统计分析工具(例如SPSS和STATA)以及图形(例如PNG,BMP和JPEG)。
18、使用Python脚本转换文本
使用Python脚本及其全部开放源代码库来预处理或转换文本文档,以便在WordStat中进行分析。