Inicio con 10K del más generalmente utilizó sustantivos y verbos (AKA
"propuso plazos"). Generar un global núcleo' (en plazos
de weighted "grados de separación") de cada Tipo (y el Tipo es otro 'significados
ciertos') a cada plazo propuesto. Si unas puntuaciones de Tipo en la parte superior 50.ยบ
percentile para un plazo propuesto dado, aquel plazo contiene el
elemento (o el bit) que el Tipo representa.
Cuándo cada plazo propuesto ha sido 'vetted' por todo ocho Tipos,
su índice básico es completamente determinó. Este proceso es
"exhaustivo pero sincero", el cual lo hace una tarea ideal para
un ordenador.
Las definiciones de plazos utilizaron encima:
Generalmente utilizado - en el internet, naturalmente (bienvenido al
Veinte-Primer Siglo!)
Para el bien de la seguridad, estos incluirían la corriente 4k
vocabulario (mayoritariamente)
Puntuación - un composite valor (X) summarizing el siguiente
Grados de que logran separación el plazo requiere X enlaces (o clics).
X está determinado por
Conexión directa (+/-) mismo: frase, párrafo, página,
artículo, sitio web
Significado cierto - palabras que no es estrechamente conectado tan encima,
pero aquello expresa una fachada esencial del Tipo (como
Supremacía; self, acción, intención, ciencia, único, propiedad,
etc.)
El 'weighting' el algoritmo correría como sigue:.
Cada cual el plazo propuesto sería comprobado para la primera "conexión
Directa" (Tipo en frase misma) con el Tipo aplicable
(Self, por ejemplo)
Para bien de eficacia, frase misma, el párrafo y la página podrían
ser comprobados simultáneamente, pero la frase misma única importaría
al llegar a este punto
El grupo más grande de plazos (encontrados o no encontrados) sería
comprobado para la primera conexión con el próximo 'significado cierto' de aquel
Tipo mismo (probablemente Supremacía)
"trueness De significar" es todavía una llamada de juicio
Un orden diferente de 'significado cierto' los controles podrían proporcionar
agrupación de plazo mejor
El sub-agrupar aquello contiene el quincuagésimo percentile sería
comprobado con el significado cierto próximo (Propiedad quizás?)
Cada iteration comprueba un número más pequeño de plazos
Repite paso tres hasta el 'necesidad' y 'no necesita' los grupos son
de medida igual
Esto no puede requerir comprobando todas las conexiones directas o cualesquier
conexiones indirectas
Cuándo hecho con uno Escribe, Repite proceso con Tipo próximo
El requisito único es un repository de conectó palabras (como el
internet o un propósito enorme, general Wiki) y los recursos de ordenador
requirieron a esift' él. Si cualquiera sabe de cualquier organización que
sería dispuesto de apoyar este proyecto, dejado me saber. Desafortunadamente
mis recursos están limitados. (No tengo el espacial de *descargar*
Wikipedia, mucho menos procesarlo.)
Sólo estoy especificando diez mil palabras, porque "No-las frases
conversacionales descriptivas" tendrían que llenar la mayoría del restantes seis mil ranuras básicas.
Frases conversacionales comunes (y otros plazos manejables) tendría que ser suministrado por usuarios para llenar su propios
la mayoría de habituales o pulsando necesidades. Los vocabularios
personales tendrían que ser utilizados para palabras de código, compartió referencias,
interior y argot locales chistes (no que los vocabularios Personales son
de hecho disponibles justo todavía, entiendes).
Yendo de allí.
Arreglando el (64) relacionó plazos en cada "División Creada" de la
capa de descripción y creando variaciones adjetivales y adverbiales
es la parte dura (o al menos la parte manual).
Generación de plurales y formas de grado, por otro lado, es
mayoritariamente trivial. Eligiendo el 'común' (#00) el plazo para la "Descripción
Neutra" puede ser simplificado con count de uso.
Desafortunadamente las relaciones entre los plazos y los Tipos
son mucho menos self evidentes en este nivel y colisiones de índice están
atados para ocurrir. El problema es que un número grande de estas
decisiones es esencialmente llamadas de juicio. Generando acción y sustantivos
de entidad y determinando qué sustantivos son "No-Descriptivos" es
duro de delegar a una máquina. Estos procesos pueden ser
semiautomatizados por utilizar controles de diccionario, pero ningún diccionario nunca
puede proporcionar cien cobertura de porcentaje.
Homonyms Necesitará ser identificado y aclarado (corteza cuando en perro o ladrar
tan en árbol?). Los verbos también necesitarán ser nouned (nounified? ...
Sustantivo-o-matized?). La mayoría de verbos pueden ser tratados como sustantivos sin
modificación (una carrera, una mirada), pero allí siempre sospechoso transients
loitering alrededor (un ver? [ Escene' {entidad} y esight' {la acción} es
las sospechosas más habituales]).
Esto es donde una base de usuario implicada activa
de hecho entraría manejable. "Con bastante eyeballs todo significando tiene poco fondo."
La aplicación necesita una 'retroalimentación' integral botón para
inarguable fija. El botón de retroalimentación automáticamente crearía una
transacción que podría proponer un nuevo (o cambiado) plazo para una ubicación
dada. Un "Intercambio botón de Plazos" Múltiples sería muy manejable también
(ninguna idea cómo trabaje justo todavía).
Naturalmente, un botón de retroalimentación no incluso ser práctico hasta que después de un
vocabulario es ordenador generado y el botón no sería
disponible en la versión libre de la aplicación. Necesitamos limitar
"actualizaciones fáciles" a personas que son serios sobre los resultados. Si
de hecho pagas para utilizar algo eres menos probablemente para probar a tornillo él
arriba para vandalistic ego abucheo.
La Capa de Especialización
Hay una lista de Specialties habiendo vocabularios
Focales. Estos Specialties podría ser distribuido utilizando el mismo
proceso como los plazos básicos. Esto es sólo el primer paso a de hecho
creando la Capa de Especialización, pero él (hopefully) ser
un sitio bueno para empezar.
Recogiendo todo del especializó los plazos no es difíciles, pero arreglándoles lógicamente podría probar para
ser el trabajo de varios lifetimes.